分享自:

AlphaAgent: 基于大语言模型的抗衰减Alpha挖掘框架

期刊:Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data MiningDOI:10.1145/3711896.3736838

类型a:

由Sun Yat-sen University的Ziyi Tang、Zechuan Chen、Jiarui Yang,University of New South Wales的Jiayao Mai,Nanyang Technological University的Yongsen Zheng,Sun Yat-sen University的Keze Wang(通讯作者),以及The Chinese University of Hong Kong, Shenzhen的Jinrui Chen共同完成的这篇研究论文《AlphaAgent: LLM-Driven Alpha Mining with Regularized Exploration to Counteract Alpha Decay》发表于2025年的ACM SIGKDD国际会议(KDD ‘25)。这是数据挖掘与知识发现领域的顶级会议,论文被收录于会议论文集第二卷。研究聚焦量化投资中关键性的alpha因子挖掘问题,提出通过大语言模型(LLM)驱动的创新框架来解决金融领域中日益严重的alpha衰减(alpha decay)现象。

在学术背景方面,alpha因子作为预测资产收益的量化特征,是现代量化金融的核心工具。然而随着市场复杂度提升,传统方法构建的因子面临两大挑战:一是通过数据挖掘(”p-hacking”)产生的过度拟合因子在实盘中快速失效;二是因子拥挤(factor crowding)导致策略同质化,例如2024年中国A股市场大小盘因子的集体失效。传统遗传编程(GP)和强化学习(RL)方法过度依赖历史回测优化,缺乏金融逻辑约束;而新兴的LLM方法又缺乏对因子同质化的有效管控。为此,研究团队提出AlphaAgent框架,旨在通过结构化正则化机制,生成兼具创新性、理论合理性和抗衰减能力的alpha因子。

研究的技术流程包含三个核心环节:首先是通过抽象语法树(Abstract Syntax Tree, AST)的相似性度量实施原创性强制(Originality Enforcement),避免与现有因子库(如Alpha101)重复;其次是利用LLM评估市场假设与生成因子之间的语义一致性(Hypothesis-Factor Alignment),确保金融逻辑自洽;最后通过AST结构约束实现复杂度控制(Complexity Control),防止过度工程化。具体实现上,框架采用多智能体架构:Idea Agent通过思维链(Chain-of-Thought)推理生成结构化市场假设;Factor Agent将假设转化为AST表示的因子表达式,期间应用相似性检测(公式5)和一致性评分(公式7)双重过滤;Eval Agent则通过QLib回测系统验证因子的预测能力、风险收益特性和数值稳定性。实验环节选取中国CSI 500和美国S&P 500市场2015-2024年数据,以OHLCV基础数据为输入,设置20次独立试验(每次5轮进化),最终构建包含LightGBM的集成预测模型。

研究结果显示出显著优势:在2021-2024年测试期内,AlphaAgent在CSI 500市场实现11.0%的年化超额收益(信息比率IR=1.5),在S&P 500市场获得8.74%年化收益(IR=1.05),最大回撤均控制在10%以内。如图4所示,相比传统GP方法和技术指标RSI,AlphaAgent因子的信息系数(IC)保持0.02以上的稳定水平,而对比方法在四年内IC值衰减至接近零。尤其值得注意的是,框架在因子挖掘效率方面表现突出:有效因子比率(hit ratio)提升81%,token消耗降低30%,开发成功率(dev success rate)达83%(图6)。消融实验证实,符号组装(symbolic assembly)模块使因子生成错误率降低35%,而三个正则化机制共同贡献了78%的性能提升。

该研究的科学价值体现在三个方面:其一,首次将AST结构相似性检测引入金融因子原创性评估,提出公式6的量化指标;其二,构建了假设-因子-实现的语义一致性验证体系(公式7),为LLM在量化领域的可解释应用提供范式;其三,开发的多智能体闭环架构实现理论假设到实证验证的完整链路。在应用层面,框架已部署于华泰证券研究平台,其抗衰减特性特别适合高频变动的中国市场环境。研究还揭示出LLM基模型选择的影响:当采用DeepSeek-R1等推理专用模型时,ICIR指标可进一步提升17%(图7),这为金融AI的系统选型提供了实证依据。

研究的创新点主要体现在方法论融合:将程序分析领域的AST技术移植到金融工程,首创基于子树同构检测(公式5)的因子去重机制;同时设计的三阶段正则化约束(公式8)创新性地平衡了因子新颖度、金融合理性和计算复杂度。此外,框架展现出较强的扩展性,通过修改算子库(Operator Library)即可适配大宗商品、加密货币等不同资产类别,为后续研究开辟了新路径。论文开源的代码仓库包含完整的AST解析器和因子回测模块,已有12家机构基于该框架开展衍生研究。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com