可定制股票池中使用带掩码股票表示的强化学习进行投资组合管理

分享自：
可定制股票池中使用带掩码股票表示的强化学习进行投资组合管理

期刊:Proceedings of the ACM Web Conference 2024DOI:https://doi.org/10.1145/3589334.3645615
类型a
主要作者与机构及发表信息
 本文的主要作者包括Wentao Zhang、Yilei Zhao、Shuo Sun、Jie Ying、Yonggang Xie、Zitao Song、Xinrun Wang和Bo An，他们均来自新加坡南洋理工大学（Nanyang Technological University），其中Bo An还隶属于Skywork AI。该研究于2024年5月13日至17日在新加坡举行的ACM Web Conference 2024（WWW ‘24）上发表。
学术背景
 本研究属于金融工程与强化学习（Reinforcement Learning, RL）交叉领域，旨在解决投资组合管理（Portfolio Management, PM）中的一个关键问题：如何在可定制股票池（Customizable Stock Pools, CSPs）中实现高效的资本分配。传统方法通常基于固定股票池进行投资决策，但实际投资者的需求往往因市场状态和个人偏好而异，例如临时调整交易的股票或添加热门股票。这种需求导致了CSPs的出现，而现有RL方法在面对CSPs时需要重新训练模型，计算成本高昂且性能不稳定。因此，本研究提出了一种名为EarnMore的强化学习框架，通过一次性训练即可适应不同投资者的个性化需求，从而提高投资回报并降低计算成本。
详细研究流程
 本研究的工作流程分为三个主要部分：可屏蔽股票表示（Maskable Stock Representation）、强化学习优化（RL Optimization）和重加权机制（Re-weighting Mechanism）。
可屏蔽股票表示
目标：为不同大小和组成的股票池提供一致的表示方法。
 
流程：首先，从全球股票池（Global Stock Pool, GSP）中提取历史数据，包括开盘价、最高价、最低价、收盘价（OHLCV）和技术指标（Technical Indicators）。接着，利用一维卷积（1D Convolution）生成密集嵌入（Dense Embeddings），并通过嵌入层处理稀疏时间特征（Sparse Temporal Features）。最终，通过自监督掩码和重建过程（Self-supervised Masking and Reconstruction）生成池级嵌入（Pool-level Embedding）。
 
创新点：引入可学习的掩码标记（Masked Token [M]）来表示投资者不感兴趣的股票，从而保留股票间的关系并统一不同股票池的表示。
 
强化学习优化
目标：在CSPs环境下优化投资组合策略。
 
流程：采用Soft Actor-Critic（SAC）算法进行强化学习训练。状态输入为包含掩码标记的潜在嵌入（Latent Embeddings），动作输出为投资组合权重。为了惩罚对掩码股票的投资，研究采用了两种策略：在Actor输出中增加监督损失（Supervised Loss）以及在TD误差中增加惩罚项。
 
实验设置：使用Yahoo Finance提供的10,273只美国股票的历史数据，经过预处理后保留了3,094只股票和95个技术指标。实验在NVIDIA A6000 GPU上进行，超参数通过网格搜索（Grid Search）确定。
 
重加权机制
目标：通过稀疏化投资比例（Sparsification）提高投资组合的集中度。
 
流程：受Boltzmann分布和Gumbel-Softmax启发，引入温度参数（Temperature Parameter T）对Softmax函数进行重加权，将低收益股票的投资比例降为零。
 
主要结果
 1. 全球股票池（GSP）表现
 - 在标准普尔500指数（S&P 500）和道琼斯工业平均指数（DJIA）的GSP测试中，EarnMore在多个金融指标上显著优于14种基线方法。例如，在S&P 500中，EarnMore的年化收益率（ARR）达到97.17%，夏普比率（SR）为2.032，分别比次优方法高出61.17%和2.626%。
 - 在新冠疫情期间（2020年2月至3月），EarnMore的表现远优于其他方法，并在市场反弹后继续获得收益。
可定制股票池（CSPs）表现
在三个不同的CSPs（分别以科技、金融和服务行业为主）中，EarnMore同样表现出色。例如，在科技股为主的CSP1中，EarnMore的ARR高达122.61%，比次优方法高出近三倍。
 
动态调整股票池的实验表明，EarnMore能够快速适应投资者的决策变化。例如，当从S&P 500中移除通用电气（GE）时，EarnMore实现了小幅收益增长；当从DJIA中移除苹果（AAPL）时，收益显著提升。
 
消融实验
消融实验表明，可屏蔽股票表示和重加权机制对EarnMore的性能提升至关重要。例如，在CSP1中，移除可屏蔽股票表示后，ARR下降了66.3%，SR下降了17.9%。
 
结论与意义
 EarnMore框架通过一次性训练即可适应不同投资者的个性化需求，显著提高了投资组合管理的效率和收益。其科学价值在于提出了统一的股票池表示方法和高效的重加权机制，解决了现有RL方法在CSPs中的局限性。其应用价值在于为投资者提供了灵活且高效的工具，能够实时调整股票池并最大化长期收益。
研究亮点
 1. 提出了可屏蔽股票表示方法，通过自监督掩码和重建过程捕捉股票间的关系。
 2. 引入重加权机制，通过稀疏化投资比例提高投资组合的集中度。
 3. EarnMore在多个数据集上的表现显著优于现有方法，特别是在高收益和风险调整收益方面。
其他有价值内容
 研究还探讨了未来的研究方向，包括通过风险惩罚优化增强风险控制，以及开发更加灵活的开放式CSP平台，以便投资者轻松添加或移除股票。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问