高效分层强化学习在高频交易中的应用:EarnHFT方法研究
本研究由新加坡南洋理工大学的Molei Qin*、Shuo Sun*、Wentao Zhang、Haochong Xia、Xinrun Wang†和Bo An†合作完成,发表于2024年AAAI人工智能会议(AAAI-24)。论文提出了一种名为EarnHFT(Efficient Hierarchical Reinforcement Learning for High Frequency Trading)的新型三层强化学习框架,旨在解决加密货币市场中高频交易(HFT, High-Frequency Trading)的两大核心挑战:超长轨迹优化和数据分布漂移。
学术背景
高频交易在金融市场中占据重要地位(占交易量的73%以上),其核心是通过计算机算法在极短时间内(如秒级)完成交易决策。加密货币市场因其24/7交易机制和高波动性成为HFT的理想场景。然而,传统强化学习(RL, Reinforcement Learning)方法多针对低频交易(如日级),无法直接应用于HFT:
1. 超长轨迹问题:HFT需处理每月约240万步的轨迹,导致训练和评估效率低下;
2. 市场趋势突变:加密货币价格剧烈波动导致历史数据训练的模型在新趋势下失效。
EarnHFT的目标是通过分层RL框架提升训练效率,并动态适应市场变化。
研究流程与方法
第一阶段:基于Q-Teacher的高效RL训练
- 目标:利用动态规划和未来价格信息生成最优动作价值(Q-Teacher),加速RL代理训练。
- 方法:
- 最优动作值计算:通过逆向动态规划(算法1)构建Q*表,记录每个状态(价格、持仓)下的最优动作价值。
- 监督信号引入:在DDQN(Double Deep Q-Network)训练中,添加KL散度项(公式2),强制代理的动作价值逼近Q*。
- 最优演员(Optimal Actor):通过Q*生成最优策略的过渡样本,避免代理陷入局部最优。
- 创新点:首次将未来信息驱动的Q-Teacher引入HFT,训练效率提升85%(表3)。
第二阶段:多样化代理池构建
- 目标:训练适应不同市场趋势(如牛市、熊市)的代理,并筛选高收益者。
- 方法:
- 市场趋势标注:基于动态时间规整(DTW, Dynamic Time Warping)和斜率分析(算法3),将市场划分为5类趋势(如“反弹”“横盘”)。
- 偏好采样训练:按收益率分布(公式4)对数据块加权采样,训练数百个代理,每个代理专注特定趋势。
- 代理筛选:根据各趋势下的盈利能力,选择Top代理构成策略池(规模为市场类别数×初始持仓数)。
- 创新点:通过数据驱动的趋势划分和偏好采样,解决了传统RL在多变市场中泛化性差的问题。
第三阶段:动态路由优化
- 目标:训练分钟级路由器(Router),动态选择最优代理以适应实时市场。
- 方法:
- 状态表示:结合分钟级OHLC(开盘价、最高价、最低价、收盘价)和技术指标(19维特征)。
- 动作空间压缩:根据当前持仓限制可选代理范围,将动作空间从m×n降至m(m为市场趋势数)。
- 训练框架:采用DDQN优化路由器,奖励为分钟级净值差异。
- 创新点:分层决策框架将轨迹长度减少98.33%,显著降低计算负担。
主要结果
- 性能对比:在4种加密货币(BTC、ETH、GALA等)上,EarnHFT在总收益率(TR)上超越6种基线方法(包括PPO、MACD等),最高领先30%(表2)。例如,在GALA/USDT(牛市)中,EarnHFT的TR达19.41%,远超第二名的13.95%。
- 分层有效性:路由器能动态切换代理(图4),如在ETH(熊市)中优先选择“熊市”代理,而在GALA中偏好“牛市”代理(图3)。
- 组件贡献:Q-Teacher使训练步数(CS)减少至原始DDQN的15%,且收益率提升显著(表3)。
结论与价值
- 科学价值:
- 提出首个针对HFT的三层分层RL框架,解决了长轨迹和数据漂移问题。
- 证明了未来信息监督(Q-Teacher)和趋势偏好采样在金融RL中的有效性。
- 应用价值:
- 为加密货币HFT提供了高收益、低回撤的自动化解决方案。
- 框架可扩展至其他高频金融场景(如股票、期货)。
研究亮点
- 方法创新:结合动态规划与分层RL,首次实现秒级与分钟级决策的协同优化。
- 工程贡献:开源代码中实现高保真模拟交易环境,支持多资产测试。
- 实证强度:覆盖4种加密货币的极端市场(牛市、熊市、横盘),验证了鲁棒性。
其他价值
- 局限性:未考虑做空机制,未来可扩展至多空策略。
- 社会意义:为去中心化金融(DeFi)的算法交易提供了新范式。
(注:全文参考文献及附录内容详见原论文。)