本研究论文由Yitong Duan, Lei Wang, Qizhong Zhang, Jian Li共同完成,作者均来自清华大学。该研究发表于2022年第三十六届AAAI人工智能会议(AAAI-22)。
研究的学术背景集中在金融经济学与机器学习的交叉领域,具体涉及资产定价模型中的因子模型(Factor Model)。在量化投资中,因子模型被广泛用于解释和预测横截面股票收益。传统的线性因子模型(如Fama-French三因子模型)虽然影响深远,但其设计通常基于先验经验和线性假设,可能无法完全捕捉真实市场中复杂的非线性关系。近年来,随着机器学习的发展,数据驱动的非线性动态因子模型显示出更优的潜力。然而,金融数据普遍存在信噪比(Signal-to-Noise Ratio)低的问题,大量噪声严重干扰了模型对有效信号(即驱动收益的潜在因子)的学习,这是构建有效因子模型面临的主要障碍。因此,本研究旨在解决这一核心挑战:如何在高度噪声的市场数据中,学习一个有效的动态因子模型,以更准确地预测横截面股票收益。具体目标包括:1) 提出一种能够显式建模数据噪声的鲁棒因子模型;2) 设计一种有效的学习机制,引导模型从噪声中提取有效的预测因子;3) 除了收益预测,模型还需能进行风险估计,为实际投资决策提供更多信息。
该研究的核心方法是一种名为FactorVAE的新型概率动态因子模型,其详细工作流程整合了动态因子模型(DFM)与变分自编码器(VAE)的框架,并包含一个创新的先验-后验学习(Prior-Posterior Learning)方法。整个工作流程主要分为模型架构设计和训练、以及实验验证两大阶段。
第一阶段:FactorVAE模型设计与训练流程。 模型处理的对象是横截面股票的历史特征序列和未来收益数据。输入数据xs是ns只股票过去t个时间步的c维特征(如波动率、流动性等)张量,维度为R^{ns × t × c};输出是对应的未来横截面股票收益ys,维度为R^{ns}。研究使用了中国A股市场的真实数据,特征来自QLib平台的Alpha158数据集,选取了20个技术特征,序列长度t=20。训练集涵盖了2010年至2017年的3432只股票,验证集为2018年的3450只股票,测试集为2019年至2020年的3923只股票。
模型工作流程的核心是如图3所示的框架,包含以下几个关键模块和步骤: 1. 特征提取器(Feature Extractor):采用门控循环单元(GRU)网络处理每只股票的历史特征序列xt,提取其隐含时序特征e_t。GRU的最后一个时间步的隐藏状态被用作该股票的潜在特征表示e。 2. 编码器-解码器架构(Encoder-Decoder Architecture)- 用于获取最优后验因子:这部分仅在训练阶段使用,需要访问未来的真实收益y。 * 因子编码器(Factor Encoder):其目标是生成“后验因子”(z_post)。为了处理股票数量多且可变的问题,研究者设计了一个动态再加权投资组合层。首先,根据股票潜在特征e,通过一个softmax权重网络生成m个投资组合的权重矩阵a_p。然后,用未来真实收益y与权重相乘,得到m个投资组合的收益y_p。这一步骤将高维、稀疏的股票收益信息浓缩为低维、稳健的投资组合收益信息。最后,一个映射层将投资组合收益y_p转换为后验因子z_post的分布参数(均值μ_post和标准差σ_post),假设z_post服从高斯分布。这是本研究的一个创新点,将因子视为VAE中的潜在随机变量,其随机性用于建模数据中的噪声。 * 因子解码器(Factor Decoder):其作用是利用因子和股票特征重构股票收益。它包含两个部分:α层和β层。α层从股票特征e预测每只股票的特质性收益α,同样建模为高斯随机变量。β层则通过线性映射从特征e计算每只股票对各因子的暴露度β。最终,重构的股票收益ŷ_rec由公式 ŷ_rec = α + β * z_post 计算得出,由于α和z_post都是随机变量,因此ŷ_rec也是一个概率分布,其均值和方差可由公式12推导。这个过程本质上是一个动态因子模型的具体实现。 3. 因子预测器(Factor Predictor):其目标是在预测阶段,仅根据历史数据x预测出“先验因子”(z_prior)。该模块采用了一种新颖的多头全局注意力机制(Multi-head Global Attention)。每个注意力头有一个可学习的查询向量q,与所有股票的潜在特征e计算注意力权重,从而聚合出一个全局的市场表征。k个注意力头产生k个不同的全局表征,然后通过一个分布网络π_prior预测出先验因子z_prior的分布参数(均值μ_prior和标准差σ_prior)。这种设计使得模型能够从市场数据中并行地提取多种不同的风险溢价表征。 4. 先验-后验学习与训练目标:这是引导模型学习的核心机制。训练损失函数包含两部分:第一部分是重构损失,即最大化后验因子模型下真实收益y的对数似然,确保编码器-解码器能够利用未来信息找到一个最优的因子表示来完美重构收益。第二部分是KL散度损失,用于最小化先验因子分布(由预测器产生)与后验因子分布(由编码器产生)之间的差异。这个损失项强制要求仅基于历史信息的预测器,其输出的因子必须去逼近那个拥有未来信息的最优后验因子。通过这种方式,后验因子充当了“教师”角色,引导“学生”预测器在充满噪声的历史数据中学习提取真正有效的预测信号。超参数γ用于平衡两项损失。 5. 预测与风险评估:在预测阶段,只使用特征提取器、因子预测器和因子解码器。流程为:从历史数据x提取特征e;用预测器从e得到先验因子z_prior;用解码器结合e和z_prior计算预测收益ŷ_pred = α + β * z_prior。由于模型是概率性的,它不仅能输出每只股票的预期收益(即ŷ_pred分布的均值μ_pred),还能输出预期收益的不确定性(即分布的标准差σ_pred),后者可直接用于风险估计。
第二阶段:实验验证流程与结果。 研究设置了三个实验来回答预设的研究问题(RQs)。 1. 实验1:横截面收益预测。目的是评估模型的核心预测能力(对应RQ1)。使用排名信息系数(Rank IC)及其信息比率(Rank ICIR)作为评估指标。基线模型包括传统线性动态因子模型(Linear)、基于条件自编码器的动态因子模型(CA)、以及多种先进的基于机器学习的预测模型(GRU, ALSTM, GAT, Trans, SFM)。结果如表1所示:FactorVAE取得了最高的Rank IC (0.055) 和 Rank ICIR (0.568),显著优于所有基线模型。特别地,一个变体模型“FactorVAE-prior”(移除了先验-后验学习,直接用先验因子预测)性能大幅下降,这强有力地证明了先验-后验学习方法对于引导模型从噪声数据中有效学习至关重要。 2. 实验2:模型鲁棒性。目的是检验模型对于训练集中未出现过的股票(如新上市股票)的预测能力(对应RQ2)。研究从训练集中随机移除一定数量(m=50, 100, 200)的股票,然后在测试集上评估模型对这些“缺失股票”的预测性能。结果如表2所示,在所有m取值下,FactorVAE在缺失股票上的预测性能(Rank IC和ICIR)都明显优于其他基线模型,展示了其出色的泛化能力和鲁棒性。此外,与另一个使用不同投资组合构建方法的变体“FactorVAE-port”的比较,也证实了文中提出的动态再加权投资组合构造方法的有效性。 3. 实验3:投资组合构建。目的是验证模型预测结果(包括风险估计)在实际投资中的实用价值(对应RQ3)。研究采用TopK-Drop策略,基于模型的预测收益(μ_pred)每日构建一个包含50只CSI300成分股的等权重投资组合,并进行严格的历史回测(考虑交易费用、停牌、涨跌停限制)。结果如图6和表3所示:基于FactorVAE构建的投资组合,其累积超额收益(相对于沪深300指数)和绝对收益都远超其他模型,年化收益率(AR)达15.32%,夏普比率(SR)达1.92,最大回撤(MDD)仅4.47%。更令人印象深刻的是,当使用一个考虑风险调整的变体策略“TD-Risk”(根据 μ_pred - η * σ_pred 选股)时,投资组合的绩效进一步提升了(AR: 16.32%, SR: 2.09)。这直接证明了模型提供的风险估计σ_pred具有实际应用价值,能帮助构建风险调整后收益更优的投资组合。
结论:本研究成功提出并验证了FactorVAE,一个基于变分自编码器的概率动态因子模型。其主要贡献在于:1) 创新性地将因子建模为VAE中的潜在随机变量,使模型具备内在的随机性以处理金融数据中的噪声,并自然衍生出风险估计能力;2) 设计了先验-后验学习方法,利用未来信息引导模型从噪声数据中提取有效因子,显著提升了学习效果;3) 在真实A股市场数据上的实验表明,FactorVAE在横截面收益预测的准确度、对未知股票的鲁棒性以及最终投资组合的业绩表现上,均全面超越了现有的动态因子模型和先进的机器学习预测模型。
研究的亮点与价值:首先,在方法论上具有显著的新颖性。这是首次将因子明确视为VAE的潜变量,并通过一个精心设计的、包含教师(后验)学生(先验)机制的框架来解决金融数据低信噪比的学习难题。其次,模型具有双重产出价值,不仅能进行点预测(预期收益),还能提供概率性输出(风险估计),将预测模型升级为可用于风险管理的工具,增强了其实用性。最后,研究展现了强大的实证效果。在多个严谨设计的实验中,FactorVAE均表现出色,特别是在实际投资组合回测中取得的卓越绩效,为其在量化投资领域的应用提供了有力证明。
其他有价值的内容:论文对相关工作进行了清晰的梳理,区分了静态与动态因子模型,以及基于机器学习的另类数据方法和市场数据方法,并将自己的工作置于动态因子模型与VAE在金融中应用的交叉点上,定位明确。此外,论文在方法部分对模型各个组件(如投资组合层、多头注意力机制)的设计动机和优势进行了详细解释,增强了模型的可理解性和设计合理性。