全球视角下ESG评级与股票回报的关系研究

分享自：
全球视角下ESG评级与股票回报的关系研究

期刊:journal of corporate financeDOI:10.1016/j.jcorpfin.2025.102768
本研究发表于 Journal of Corporate Finance 第93卷（2025年），题为“Drawing up the bill: Are ESG ratings related to stock returns around the world?”，作者是 Rómulo Alves (SKEMA Business School - Université Côte d’Azur)， Philipp Krüger (University of Geneva, Swiss Finance Institute & European Corporate Governance Institute) 和 Mathijs van Dijk (Rotterdam School of Management, Erasmus University & Netspar)。
研究背景与目的“环境、社会及治理”（Environmental, Social and Governance, ESG）投资在过去几十年增长显著，至2020年全球管理资产规模超35万亿美元。一个核心且持续存在的争议是：将ESG因素纳入投资策略，究竟会提升还是损害财务回报？学术界和业界存在两种对立观点。一方面，许多研究和业界观点认为可以“行善致富”（doing well while doing good），基于ESG的投资具有坚实的实证基础。另一方面，也有理论研究和实证证据表明，由于投资者对可持续资产的需求增加可能推高其价格，导致其未来预期回报率降低，可持续性与股票回报之间可能存在负相关关系。文献综述指出，关于ESG投资是否有助于提高绩效，目前仍未达成共识。
先前研究存在一些局限性：大多使用单一ESG评级机构的数据（而不同机构间的评级差异可能很大）、样本期较短、局限于特定市场（如美国），其结果可能受到暂时的投资者需求效应驱动。为了综合现有证据，并克服这些局限，本研究旨在利用迄今为止最全面的全球数据库，系统地检验ESG评级与股票回报之间的关系。具体目标包括：1）在全球范围内检验ESG评级是否能预测股票横截面回报差异；2）探讨ESG不确定性（uncertainty）是否削弱了这一关系；3）评估国家层面的特征（如ESG社会规范、信息披露标准和监管严格度）是否会调节ESG与回报的关系。
详细研究流程本研究包含数据构建、基线关系检验、效应规模与统计功效分析、调节机制检验四个主要环节。
第一环节：数据构建。 研究者构建了一个覆盖2001年1月至2020年12月的全球月度股票回报与特征数据库。数据来源包括CRSP、Compustat North America和Compustat Global，覆盖全球超过98%的市值，并经过生存偏差处理和严格的数据清洗。样本最终包含48个国家的16,368只独特股票。股票层面的控制变量包括市场贝塔、市值、账面市值比、投资、盈利能力、动量、波动率、杠杆率、有形资产强度和研发强度等10个指标。
本研究的关键创新在于使用了七家主流ESG评级机构的数据：FTSE, ISS, MSCI Intangible Value Assessment (MSCI IVA), Refinitiv, RepRisk, S&P Global, 以及 Sustainalytics。这提供了评级机构间的异质性视角。研究者将各机构的ESG总分及其环境（E）、社会（S）、治理（G）分项评分统一重缩放至0-100（分值越高代表ESG表现越好）。对于RepRisk这类衡量ESG声誉风险（分值越高风险越大）的机构，则进行了反向处理以确保一致性。为避免前瞻性偏差，股票回报数据与滞后一个月的最新可用ESG评级相匹配。此外，研究者还构建了两种“复合”ESG指标：“复合6+”要求股票必须同时被除RepRisk外的六家机构评级；“复合3+”则要求至少被三家机构覆盖。构建前先将各机构评级转换为百分位排名以消除分布差异。
相关性分析显示，不同ESG评级机构之间的相关性在全球及各地区都远非完美，平均相关系数在0.5-0.6之间（若包含与其它机构负相关的RepRisk，则降至0.3-0.4）。这验证了在全球样本中同样存在显著的评级分歧。
第二环节：ESG评级与股票回报的基线关系检验。 研究采用Fama-Macbeth横截面回归作为主要方法。每月，将个股回报对滞后的ESG评级（及其它控制变量）进行横截面回归，得到该月ESG的溢价系数，再对时间序列上的月度系数进行统计推断。这种方法从投资者视角出发，其系数可解释为基于ESG评级信号构建的多空零投资组合的月度回报。研究者进行了极其广泛和细致的检验： 1. 基线全球回归：分别对十种ESG评分（七家个体机构评分加两种复合评分）进行回归。 2. 评级调整：考虑到ESG评分存在强烈的国家和行业成分，研究者使用经国家调整、行业调整、以及国家和行业双重调整后的ESG评分重复上述回归。 3. 分项检验：对E、S、G三个子维度评分分别进行检验。 4. 分地区检验：将全球样本分为亚太地区、新兴市场、欧洲、日本和北美五个主要区域分别进行回归。 5. 分时期检验：特别关注了《巴黎协定》签署后（2016-2020年）的时期，以检验在ESG关注度提升的近期关系是否增强。 6. ESG动量：检验过去12个月内ESG评级的最新变化（即ESG动量）是否能预测回报。 7. 评级调升与调降：分别检验ESG评级被调升或调降（使用虚拟变量标识）对股票回报的影响是否存在不对称性。 8. 最佳类别与排除策略：检验投资于行业内ESG评分前10%或20%（最佳类别）或排除后10%或20%（排除策略）的股票是否能产生显著回报。 9. 稳健性检验：使用市值加权Fama-Macbeth回归以避免结果被微市值股主导；采用投资组合排序法构建高ESG与低ESG组合，并计算其回报差相对于多种因子模型（如CAPM、Fama-French三因子、五因子等）的阿尔法（alpha）。
由于进行了海量检验（例如，仅投资组合排序就进行了近12,000次），研究者严肃对待多重假设检验问题，使用Benjamini等人（2006）的方法计算了锐化的错误发现率q值，对统计显著性进行了校正。
第三环节：效应规模与统计功效分析。 鉴于基线结果普遍不显著，研究者深入分析了这不显著是源于真实关系微弱，还是统计功效不足。他们计算了每个检验中ESG系数的经济效应规模（以ESG评分一个标准差的变化所对应的年化股票回报变化百分比来衡量），并计算了最小可检测效应规模（Minimum Detectable Effect Size, MDES），即在80%的统计功效和5%的显著性水平下，能够被可靠检测出的最小效应值。
第四环节：调节机制检验。 为了探究ESG与回报关系微弱的原因，研究者检验了文献中提出的两个主要调节机制： 1. ESG不确定性：基于Avramov等人（2022）的模型，检验对于ESG不确定性较低的股票，其ESG评级与回报的负相关关系是否更强。具体方法是在回归中加入ESG评分与“低ESG不确定性”虚拟变量的交互项。 2. 国家特征：收集了关于国家层面ESG社会规范、ESG信息披露标准质量和ESG监管严格度的多种代理变量。通过在全球回归中加入ESG评分与这些国家特征的交互项，来检验它们是否能解释ESG-回报关系的跨国差异。
主要研究结果1. 基线关系结果：普遍缺乏显著关联。 全球样本的Fama-Macbeth回归结果显示，在十种ESG评分中，仅有一种（ISS）的系数在10%的水平上显著为正，其余九种均不显著，且系数估计值在正负之间波动，绝对值很小。例如，唯一的显著系数（0.007）意味着ESG评分一个标准差的提升仅对应年化约1.26%的额外回报，而其他评级的效应规模通常更小。这一“缺乏关系”的核心发现在后续所有细致检验中表现出惊人的一致性： * 经过国家/行业调整后的评分、E/S/G分项评分，结论不变。 * 分区域检验中，在未经多重检验校正前，仅有零星显著结果（50个系数中7正1负），且不同地区显著的评级机构各不相同。经过错误发现率校正后，所有结果均不再显著。 * 在《巴黎协定》后的子样本期（2016-2020年），结果与全样本期类似，未发现关系系统性增强的证据。 * ESG动量、评级调升级调降虚拟变量、以及最佳类别/排除策略虚拟变量，几乎全部不显著。 * 市值加权回归和投资组合排序法的结果与等权回归结论一致。投资组合排序法在经过多重检验校正后，产生的显著阿尔法几乎为零。
2. 效应规模与统计功效结果。 对效应规模的分析显示，绝大多数检验的效应规模估计值分布围绕零值，且中位数和均值通常小于1%（年化）。虽然有些检验（如美国的环境子评分、最佳类别策略）的效应规模中位数接近或略高于1%，但整体而言经济意义不大。同时，置信区间分析表明，对于许多检验，可以正式拒绝中等至较大的效应规模（如年化1.9%或以上）。 统计功效分析表明，虽然研究设计对检测相对于股票回报波动率而言较大的效应具有足够的功效，但考虑到股票回报固有的高噪声，检测较小经济效应（如年化1-2%）的功效在某些子样本检验（如分地区、使用虚拟变量策略）中可能不足。然而，这种功效局限不足以解释在拥有大量股票-月度观测值的全球基线回归中也普遍缺乏显著性的现象。因此，研究者认为，未能拒绝ESG与回报无关的原假设，更可能源于真实关系本身就非常微弱。
3. 调节机制检验结果。 * ESG不确定性：研究者仅能在美国样本的前半段复制出Avramov等人（2022）的发现，即ESG不确定性较低时，ESG与回报的负相关更强。但在美国样本的后半段以及其他任何主要地区，这一交互效应均不显著。因此，ESG不确定性只能非常有限地解释全球范围内ESG-回报关系的缺失。 * 国家特征：研究未发现一致的证据表明，国家的ESG社会规范强弱、信息披露标准质量或监管严格度，能够显著调节ESG评级与股票回报之间的关系。这些假设对于理解跨国差异帮助不大。
研究结论与意义核心结论： 基于2001年至2020年涵盖48个国家、超过1.6万只股票及七家ESG评级机构数据的综合分析，本研究未发现ESG评级与全球股票回报之间存在统计显著或经济意义显著的关系。这一结论在不同评级机构、地区、时间段、ESG子维度、ESG动量、评级变动事件以及常见ESG投资策略中均保持稳健。
科学价值与应用价值： * 对学术界：本研究通过使用迄今为止最全面、多样化的全球数据集，对ESG与回报关系的证据进行了重要整合。结果表明，先前一些暗示二者存在关联的研究结论（如美国市场的“绿色溢价”或ESG不确定性的调节作用）在全球样本、其他时期或其他评级下并不系统性地成立。这提高了未来针对特定情境下发现显著关系的研究的证据门槛，并凸显了考虑多重假设检验问题的必要性。 * 对投资者与业界：研究结果对投资者而言具有“安慰”作用，表明在过去二十年中，将主流ESG评级纳入投资决策并未以牺牲财务回报为代价。同时，这也意味着由大规模ESG投资流动引发“绿色泡沫”的风险可能有限。 * 对政策与公司金融的启示：研究结果也提出了一个严峻问题：基于当前主流ESG评级的投资，似乎并未有效降低高ESG表现公司的股权融资成本或提高低ESG表现公司的成本。这可能削弱了通过资本市场定价机制促使企业内化气候和社会外部性的动力，呼应了关于ESG评级质量的政策讨论（如IOSCO和欧盟委员会的关注）。
研究亮点数据与样本的全面性与代表性：研究构建并使用了当前该领域最广泛的全球数据库，覆盖时间长、国家多、股票数量大，并首次同时集成了七家主要ESG评级机构的数据，极大地提高了结论的普适性和稳健性。
检验的深度与广度：研究设计极为周密，不仅检验了ESG总评分与回报的基线关系，还从多个维度（子评分、地区、时期、动量、事件、策略）进行了深入挖掘，并严肃处理了多重假设检验问题，结论可靠。
超越简单关联，探究潜在机制：研究不仅回答了“是否相关”的问题，还进一步分析了“为什么不相关”的可能解释（效应规模、统计功效、ESG不确定性、国家特征），提供了更丰富的见解。
方法论严谨：综合运用Fama-Macbeth回归、投资组合排序、效应规模分析、统计功效计算等多种方法，相互印证，确保了研究发现的稳健性。
其他有价值内容研究也明确了其局限性与未来研究方向： 1. 本研究关注已实现股票回报，而未直接分解预期回报、现金流冲击和折现率冲击。区分短期需求效应和长期预期回报效应是重要的未来课题。 2. 研究聚焦于广泛使用的综合ESG评级，不排除更具体的ESG变量（如碳排放）、特定公司类型、特定国家或在特定条件下存在更微妙的关系模式。然而，本研究发现的普遍“无关系”结果，对这些特定发现提出了更高的证据要求。 3. 研究者指出，尽管使用统计聚合技术（如工具化主成分分析）可能从嘈杂的ESG评级中提取出有效的投资信号，但本研究关注的是ESG评级“本身”与回报的关系，因为前者是当前业界更普遍的使用方式。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问