类型a:学术研究报告
一、研究作者及机构
本研究由华泰研究的沈洋(Shen Yang)与何康(He Kang, PhD)共同完成,沈洋的SAC编号为S0570525070013,何康的SAC编号为S0570520080004,SFC编号为BRB318。研究于2025年12月4日发布,属于华泰研究“深度研究”系列,标题为《人工智能97:大模型+强化学习挖掘量价因子》。
二、学术背景
本研究属于量化投资与人工智能交叉领域,聚焦于因子挖掘(factor mining)技术的创新。传统因子挖掘方法依赖专家经验或符号回归(symbolic regression),但在市场结构复杂化、数据维度激增的背景下,传统方法难以高效探索海量表达式空间。近年来,强化学习(Reinforcement Learning, RL)与生成式大模型(如GPT)为自动化因子生成提供了新思路,但RL模型缺乏领域知识,易生成无效因子,而大模型可弥补这一缺陷。
研究目标是验证“大模型+强化学习”框架在因子挖掘中的可行性,具体包括:
1. 通过RL的序列决策能力生成因子表达式;
2. 利用大模型的金融知识优化RL的探索效率;
3. 构建沪深300与中证500指增策略,验证因子组合的超额收益能力。
三、研究流程与方法
1. 因子表达式的Token化建模
- 采用逆波兰表达式(Reverse Polish Notation, RPN)将数学表达式转换为离散token序列(如算子符add、行情字段符close)。
- 创新点:提出动态掩码机制(maskable PPO),允许RL模型在生成过程中忽略无效token,减少冗余表达式。
强化学习环境构建
大模型的知识注入
神经网络模型选择
因子组合与策略回测
四、主要结果
1. 因子挖掘效果
- 沪深300指增策略年化超额17.85%,信息比率1.50;中证500指增策略年化超额9.78%。
- 大模型注入后,沪深300策略超额收益提升1.44%,信息比率提升0.22。
技术对比
奖励函数影响
五、结论与价值
1. 科学价值
- 提出首个融合大模型与RL的因子挖掘框架,解决RL语义理解不足的问题。
- 验证token化建模与动态掩码机制在金融表达式生成中的有效性。
六、研究亮点
1. 首创“大模型+RL”双驱动因子挖掘范式;
2. 动态掩码PPO算法提升表达式生成效率;
3. 实证证明大模型可显著改善RL因子的逻辑性与收益稳定性。
七、其他发现
长训练步数(>10万步)可能导致过拟合,建议控制训练周期。风险提示包括大模型输出稳定性、RL可解释性不足等。