分享自:

可定制股票池中使用带掩码股票表示的强化学习进行投资组合管理

期刊:Proceedings of the ACM Web Conference 2024DOI:https://doi.org/10.1145/3589334.3645615

类型a

主要作者与机构及发表信息
本文的主要作者包括Wentao Zhang、Yilei Zhao、Shuo Sun、Jie Ying、Yonggang Xie、Zitao Song、Xinrun Wang和Bo An,他们均来自新加坡南洋理工大学(Nanyang Technological University),其中Bo An还隶属于Skywork AI。该研究于2024年5月13日至17日在新加坡举行的ACM Web Conference 2024(WWW ‘24)上发表。

学术背景
本研究属于金融工程与强化学习(Reinforcement Learning, RL)交叉领域,旨在解决投资组合管理(Portfolio Management, PM)中的一个关键问题:如何在可定制股票池(Customizable Stock Pools, CSPs)中实现高效的资本分配。传统方法通常基于固定股票池进行投资决策,但实际投资者的需求往往因市场状态和个人偏好而异,例如临时调整交易的股票或添加热门股票。这种需求导致了CSPs的出现,而现有RL方法在面对CSPs时需要重新训练模型,计算成本高昂且性能不稳定。因此,本研究提出了一种名为EarnMore的强化学习框架,通过一次性训练即可适应不同投资者的个性化需求,从而提高投资回报并降低计算成本。

详细研究流程
本研究的工作流程分为三个主要部分:可屏蔽股票表示(Maskable Stock Representation)、强化学习优化(RL Optimization)和重加权机制(Re-weighting Mechanism)。

  1. 可屏蔽股票表示

    • 目标:为不同大小和组成的股票池提供一致的表示方法。
    • 流程:首先,从全球股票池(Global Stock Pool, GSP)中提取历史数据,包括开盘价、最高价、最低价、收盘价(OHLCV)和技术指标(Technical Indicators)。接着,利用一维卷积(1D Convolution)生成密集嵌入(Dense Embeddings),并通过嵌入层处理稀疏时间特征(Sparse Temporal Features)。最终,通过自监督掩码和重建过程(Self-supervised Masking and Reconstruction)生成池级嵌入(Pool-level Embedding)。
    • 创新点:引入可学习的掩码标记(Masked Token [M])来表示投资者不感兴趣的股票,从而保留股票间的关系并统一不同股票池的表示。
  2. 强化学习优化

    • 目标:在CSPs环境下优化投资组合策略。
    • 流程:采用Soft Actor-Critic(SAC)算法进行强化学习训练。状态输入为包含掩码标记的潜在嵌入(Latent Embeddings),动作输出为投资组合权重。为了惩罚对掩码股票的投资,研究采用了两种策略:在Actor输出中增加监督损失(Supervised Loss)以及在TD误差中增加惩罚项。
    • 实验设置:使用Yahoo Finance提供的10,273只美国股票的历史数据,经过预处理后保留了3,094只股票和95个技术指标。实验在NVIDIA A6000 GPU上进行,超参数通过网格搜索(Grid Search)确定。
  3. 重加权机制

    • 目标:通过稀疏化投资比例(Sparsification)提高投资组合的集中度。
    • 流程:受Boltzmann分布和Gumbel-Softmax启发,引入温度参数(Temperature Parameter T)对Softmax函数进行重加权,将低收益股票的投资比例降为零。

主要结果
1. 全球股票池(GSP)表现
- 在标准普尔500指数(S&P 500)和道琼斯工业平均指数(DJIA)的GSP测试中,EarnMore在多个金融指标上显著优于14种基线方法。例如,在S&P 500中,EarnMore的年化收益率(ARR)达到97.17%,夏普比率(SR)为2.032,分别比次优方法高出61.17%和2.626%。
- 在新冠疫情期间(2020年2月至3月),EarnMore的表现远优于其他方法,并在市场反弹后继续获得收益。

  1. 可定制股票池(CSPs)表现

    • 在三个不同的CSPs(分别以科技、金融和服务行业为主)中,EarnMore同样表现出色。例如,在科技股为主的CSP1中,EarnMore的ARR高达122.61%,比次优方法高出近三倍。
    • 动态调整股票池的实验表明,EarnMore能够快速适应投资者的决策变化。例如,当从S&P 500中移除通用电气(GE)时,EarnMore实现了小幅收益增长;当从DJIA中移除苹果(AAPL)时,收益显著提升。
  2. 消融实验

    • 消融实验表明,可屏蔽股票表示和重加权机制对EarnMore的性能提升至关重要。例如,在CSP1中,移除可屏蔽股票表示后,ARR下降了66.3%,SR下降了17.9%。

结论与意义
EarnMore框架通过一次性训练即可适应不同投资者的个性化需求,显著提高了投资组合管理的效率和收益。其科学价值在于提出了统一的股票池表示方法和高效的重加权机制,解决了现有RL方法在CSPs中的局限性。其应用价值在于为投资者提供了灵活且高效的工具,能够实时调整股票池并最大化长期收益。

研究亮点
1. 提出了可屏蔽股票表示方法,通过自监督掩码和重建过程捕捉股票间的关系。
2. 引入重加权机制,通过稀疏化投资比例提高投资组合的集中度。
3. EarnMore在多个数据集上的表现显著优于现有方法,特别是在高收益和风险调整收益方面。

其他有价值内容
研究还探讨了未来的研究方向,包括通过风险惩罚优化增强风险控制,以及开发更加灵活的开放式CSP平台,以便投资者轻松添加或移除股票。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com