利用机器学习和均值-CVaR优化进行股票预选的ESG整合投资组合构建以降低下行风险

分享自：
利用机器学习和均值-CVaR优化进行股票预选的ESG整合投资组合构建以降低下行风险

期刊:quarterly review of economics and financeDOI:10.1016/j.qref.2026.102118
关于ESG整合与投资组合下行风险管理的学术研究报告
本研究由来自比利时鲁汶大学信息系统工程研究中心 (LIRIS, Research Centre for Information Systems Engineering, KU Leuven) 的 Larry Van Wallendael, Line Vanneste, Yanyi Zhang, Alexander Stevens 以及通讯作者 Johannes De Smedt 共同完成。该研究成果以论文《Mitigating Downside Risk: ESG Integration in Portfolio Construction with Stock Preselection Using Machine Learning and Mean-CVaR Optimization》的形式，发表在 Quarterly Review of Economics and Finance 期刊的第106卷（2026年），具体在线发表日期为2026年1月26日。
学术背景与研究目标
此项研究隶属于金融学与计算金融交叉领域，具体聚焦于投资组合构建（Portfolio Construction）、下行风险管理（Downside Risk Management） 以及环境、社会和治理（ESG） 因素的整合应用。
近年来，ESG因素在金融投资中的重要性日益凸显。大量研究表明，ESG评分可以作为评估企业长期风险和韧性的重要指标，尤其是与下行风险（Downside Risk），即极端损失风险相关。然而，现有研究大多停留在探讨ESG与个股风险或简单筛选策略的关系上，对于如何系统地将ESG信息融入一个完整的、旨在主动管理极端风险的现代投资组合构建流程中，相关探索仍较为有限，且结论不一。传统的投资组合优化理论，如马科维茨的均值-方差模型，因其使用方差衡量风险而同等对待上涨和下跌的波动，在刻画非对称的“厚尾”分布和极端损失方面存在不足。
因此，本研究旨在填补这一空白，探索ESG整合是否以及如何能够有效缓解投资组合的下行风险。研究提出了一个创新的两阶段框架（Dual-Phase Framework）：第一阶段，利用机器学习进行股票预选（Stock Preselection）；第二阶段，采用均值-条件风险价值（Mean-Conditional Value at Risk, Mean-CVaR） 模型进行投资组合优化。其中，CVaR相比传统的风险价值（VaR），能更好地衡量超过某一阈值（如VaR）的尾部平均损失，更适合评估极端风险。研究团队重点比较了两种ESG整合方法：1）线性整合，即将ESG评分线性融入经调整的预期回报中，形成“ESG知情回报”（ESG-Informed Returns）；2）负面筛选（Negative Screening），即在预选前直接剔除ESG评分较低的股票。本研究试图回答两个核心研究问题（RQ）：与不整合ESG的方法相比，整合ESG的投资组合构建如何影响极端投资风险（RQ1）；在线性整合与筛选方法之间，哪种对缓解极端风险更有效（RQ2）。
详细研究流程与方法
本研究的设计与执行流程严谨，具体可分为以下核心步骤：
1. 数据准备与样本划分 研究选取了标准普尔100指数（S&P 100）中随机抽取的50只成分股作为研究池。数据时间跨度为2009年12月31日至2020年12月30日。每条数据包含每日股价、交易量以及年度更新的Refinitiv ESG评分。研究计算了七种技术指标（Technical Indicators） 作为特征输入，包括简单移动平均线（SMA）、指数移动平均线（EMA）、成交量加权平均价格（VWAP）、移动平均收敛发散指标（MACD）、相对强弱指数（RSI）以及布林带上下轨（Bollinger Bands）。为评估模型在不同市场环境下的表现，数据被划分为两个主要阶段：用于模型训练与投资组合构建的“样本内”期（截至2018年12月，共2265个交易日），以及用于测试的“样本外”期（2019年1月至2020年12月，共502个交易日）。样本外期又进一步细分为市场相对稳定的2019年（251天）和因新冠疫情导致高度波动的2020年（251天），以检验ESG整合在危机时期的有效性。
2. 第一阶段：基于机器学习的股票预选 此阶段的目标是从50只股票中预先筛选出表现预期较好的子集，以供后续优化。研究摒弃了使用历史平均回报的简单方法，因为短期回报受市场情绪影响大，历史均值预测效果不佳。转而采用五种主流的机器学习模型来预测每只股票次日的回报率。这些模型包括：支持向量回归（SVR, Support Vector Regression）、随机森林（RF, Random Forest）、极端梯度提升（XGBoost, Extreme Gradient Boosting）、多层感知机（MLP, Multi-Layer Perceptron） 和长短期记忆网络（LSTM, Long Short-Term Memory）。对于每种模型，均使用网格搜索（Grid Search）方法为每只股票单独优化超参数，并采用80/20的比例划分训练集和验证集进行调优。数据在训练前进行了归一化处理，且为防止数据泄露，归一化参数仅从训练集计算并应用于验证集和测试集。 此外，为了对比，研究还实施了ESG负面筛选策略：在预选开始时，直接剔除ESG评分排名后20的股票（即从50只中保留30只），然后再对这30只股票应用机器学习模型进行预选。最终，无论采用何种策略（纯机器学习预选或筛选后预选），都会选出预测表现最好的10只股票进入第二阶段。选择10只股票作为组合规模，既符合个人投资者常见的持仓数量，也与相关文献的建议保持一致。
3. 第二阶段：基于均值-CVaR的投资组合优化 在此阶段，研究聚焦于如何将选出的10只股票配置成最优投资组合，以最小化下行风险。核心优化模型是均值-CVaR。研究的创新之处在于对CVaR的标准定义进行了适应性修改，使其能够同时考虑ESG知情回报（用于优化目标） 和实际财务回报（用于约束条件）。 具体而言，对于线性ESG整合，研究者定义了“ESG知情回报” ε_i,t = λ * (c_i,t / d) + (1 - λ) * r_i,t。其中，r_i,t是股票i在t日的实际回报率，c_i,t是归一化到[-1,1]区间的ESG评分，d是缩放因子（设为252，代表年化交易日数），λ是亲和力参数（Affinity Parameter），代表投资者对ESG的偏好程度（λ=0代表完全不考虑ESG，λ=1代表完全依据ESG评分决策，研究中测试了λ=0.25, 0.5, 0.75, 0.99等值）。 优化问题的目标是：在给定置信水平（α=95%）下，最小化投资组合的CVaR（即尾部平均损失）。约束条件包括：投资权重之和为1（满仓）、禁止卖空、以及一个关键约束——投资组合基于实际历史回报计算出的预期回报必须不低于一个预设的最低要求回报率（r0）。这个约束确保了优化过程在追求ESG目标和下行风险最小化的同时，不会过度牺牲财务回报的竞争力。该优化问题被构建为一个线性规划问题，并使用CVXPY工具包和Clarabel求解器进行计算求解。
主要研究结果与分析
研究通过严谨的样本内和样本外测试，得出了多层次的重要发现。
1. 股票预选阶段的模型表现 在预测次日回报的均方根误差（RMSE）指标上，随机森林（RF）和XGBoost（XGB）模型在大多数ESG整合情景下（λ=0.25, 0.5, 0.75及筛选场景）表现最佳，其预测误差显著低于作为基准的“朴素预测器”（即假设明日回报等于今日回报）。长短期记忆网络（LSTM）在本研究设置下的预测表现普遍不佳。一个有趣的发现是，随着线性整合中λ值的升高（即ESG权重加大），大多数机器学习模型的RMSE会下降。这是因为ESG评分本身变化缓慢、波动性远低于日度股价回报，当λ趋近于1时，“ESG知情回报”的序列变得非常平滑，甚至使得简单的“朴素预测器”在λ=0.99时表现最优。这提示了高λ值下回报预测任务的性质发生了根本变化。
2. 样本内风险绩效分析 通过绘制CVaR有效前沿（Efficient Frontier） 图（即在不同目标回报率下所能达到的最小CVaR曲线），研究者比较了不同ESG整合策略的风险表现。关键结论包括： * λ = 0.99 的策略在所有组合规模下都表现出明显较差的有效前沿，表明过度偏重ESG而几乎忽视财务回报，会导致投资组合风险收益特性恶化。 * 在合理的λ值（0.25, 0.5, 0.75）中，λ = 0.5 的表现最为突出，其有效前沿 consistently（持续地）优于完全不整合ESG（Non-ESG）的基准组合，意味着适度的线性ESG整合能在样本内提供更好的下行风险保护。 * ESG负面筛选策略的表现则模棱两可，在与Non-ESG基准的比较中，时好时坏，且总体上不如λ=0.5和λ=0.75的线性整合策略有效。
3. 样本外风险绩效分析（核心发现） 样本外测试，尤其是在区分了稳定市场（2019年）和动荡市场（2020年）后，揭示了更具实践意义的洞见： * ESG线性整合的有效性得到证实：无论是在2019年还是2020年，大多数ESG知情回报配置（尤其是λ=0.5和λ=0.75）构建的投资组合，其CVaR都低于Non-ESG基准组合。这直接回答了RQ1：整合ESG（特别是通过线性方式）能够降低投资组合的极端投资风险。 * ESG在危机时期的作用凸显：在新冠疫情引发市场高度波动的2020年，ESG整合的风险缓释作用更为显著。一个关键的模式转变是：在稳定时期（2019年），λ=0.25和λ=0.5通常能带来最低的CVaR；而在动荡时期（2020年），更高权重的ESG整合（λ=0.75甚至λ=0.99）变得更为有效，能带来最低的CVaR。这表明在市场危机中，ESG因素所代表的企业韧性和风险管理能力成为了更重要的风险缓冲器。 * 负面筛选策略效果有限：与线性整合相比，ESG负面筛选策略在降低下行风险方面效果不稳定且整体较弱。在样本外测试中，它经常被λ=0.5和λ=0.75的线性整合策略超越。这回答了RQ2：在线性整合与筛选方法之间，线性整合对缓解极端风险更有效。研究者分析认为，负面筛选在预选阶段就缩小了投资范围，可能排除了某些财务表现良好但ESG评分略低的股票，从而牺牲了潜在的多元化收益和风险分散机会。
研究结论与价值
本研究的核心结论是：在一个结合了机器学习预选和均值-CVaR优化的两阶段投资组合构建框架中，以线性方式将ESG评分整合进预期回报（即ESG知情回报），能够有效降低投资组合的下行风险（极端损失风险）。这一效果在市场波动加剧的时期（如新冠疫情危机）表现得尤为突出，此时给予ESG因素更高权重（更高的λ值）的风险缓释效益更大。相比之下，简单的ESG负面筛选策略在本研究框架内对降低下行风险的效果不彰。
本研究的科学价值在于：它首次系统地将ESG整合、机器学习预测和先进的尾部风险优化模型（Mean-CVaR）结合在一个统一的、可操作的框架内，并进行了严格的样本内和跨市场周期的样本外检验，为“ESG如何影响投资组合风险”这一议题提供了新颖且细致的实证证据。它超越了简单的“筛选vs不筛选”或“高ESG vs低ESG”的二元比较，引入了连续可调的亲和力参数λ，使投资者能够量化其对ESG的偏好程度及其对风险收益特征的具体影响。
在应用价值上，该研究为资产管理从业者提供了清晰的指引：对于希望管理下行风险、尤其是为应对市场危机做准备的投资者而言，采用一种定量的、将ESG因素与财务回报相结合（而非简单排除）的整合策略，可能是比传统筛选更优的选择。它展示了现代计算工具（机器学习、优化算法）在实践可持续金融和精细化风险管理方面的强大潜力。
研究亮点与特色
方法论的创新性：提出了一个结构清晰、逻辑严谨的“机器学习预选 + Mean-CVaR优化”两阶段框架，专门用于评估ESG对下行风险的影响，这在已有文献中是首次尝试。
精细化的ESG整合比较：不仅对比了“整合”与“不整合”，还深入比较了“线性整合”与“负面筛选”这两种主流ESG整合方法的优劣，并引入了连续的偏好参数λ，使分析更具层次感和实用性。
对市场状态的区分检验：特意将测试期划分为稳定和动荡两个子阶段，揭示了ESG整合的风险缓释效应在不同市场环境下的差异性，特别是证明了其在危机时期的增强作用，这是本研究极具价值的发现。
全面的机器学习模型基准测试：系统评估了五种主流机器学习算法在ESG整合不同情景下的预测性能，为后续相关研究提供了技术选型的参考。
其他有价值的讨论
研究者在讨论部分也坦率指出了本研究的局限性及未来方向：例如，高计算成本限制了使用更复杂的机器学习模型（如深层LSTM）；ESG知情回报公式可能会平滑掉回报波动，未来可探索能保留更多原始波动信息的整合方式；可以进一步拆分研究ESG在预选阶段和优化阶段各自单独的影响等。这些思考为该领域的后续研究指明了有价值的改进路径。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问