本文由Ricardo Henriquez-Salman(所属机构:Kedge Business School, France;Aix-Marseille Université, France)撰写,于2025年9月13日在线发表于期刊 Research in International Business and Finance 第80卷。
1. 学术背景与研究目的
本研究聚焦于环境、社会及治理(ESG) 投资领域的一个核心方法论问题:投资组合构建过程中的方法学选择(如数据提供商的选择、行业调整方法、地区划分、样本周期等)如何影响对ESG与回报率关系的推断,进而影响ESG评分作为市场信号的有效性。
学术背景:近年来,ESG投资快速增长,但关于ESG是否能带来超额回报(风险溢价),学术研究结论不一。一些研究认为ESG能改善财务表现,另一些则发现没有显著影响,甚至存在负面影响。这种“混合发现”(mixed findings)可能源于多方面因素:不同ESG评级机构(如MSCI、Refinitiv (Asset4)、S&P Global)的方法论存在显著差异,导致对同一家公司的评分相关性很低(“评级分歧”,disagreement);ESG的影响可能因行业、地理区域和时间段而异;此外,研究者在构建ESG投资组合时所做的众多选择(例如,是采用行业内最佳(best-in-class)还是全宇宙最佳(best-in-universe)排序,是否包含金融或公用事业公司,使用等权重还是市值加权等)会引入额外的变异性。
本研究从信号理论(Signaling Theory) 的视角切入。该理论认为,公司通过ESG评分这类可观察的信号,向市场传递其不可观察的可持续发展承诺。然而,如果信号(即ESG评分)的构建和解读高度依赖于方法学选择,其可靠性和清晰度就会受损。因此,本研究旨在系统性地量化这些方法学选择所引入的不确定性,即非标准误差(Non-Standard Errors, NSE),并探究何种ESG信号能提供更稳健、更可信的市场指引。
研究目的:本研究旨在系统地检验不同的投资组合构建选择如何影响基于ESG评分的回报率分布。具体目标包括:(1) 量化ESG投资组合回报估计中的非标准误差;(2) 比较传统ESG评分与替代性ESG特征(如“分歧”和“差异”)的信号稳健性;(3) 从信号理论的角度解释方法学不确定性如何削弱ESG评分的市场信号作用。
2. 详细研究流程
本研究是一项基于大规模投资组合排序(Portfolio Sorts)和“分叉路径”(Forking Paths)框架的计算金融实证研究,不涉及实验室实验,其核心流程是数据获取、变量构建、投资组合模拟与统计分析。
研究流程一:数据准备与样本构建 * 研究周期:2007年1月至2022年12月。 * 数据来源: * 回报率数据:美国公司来自CRSP/Compustat North America,其他国家公司来自Compustat Global。国际回报率均转换为美元计价。 * ESG数据:来自三家主流提供商——MSCI ESG Ratings、Refinitiv Asset4 (后称Asset4) 和S&P Global ESG Scores。研究整合了每家公司的总体ESG评分及环境(E)、社会(S)、治理(G)三个支柱的细分评分。 * 样本筛选:遵循Jensen等人(2023)的标准,确保每月每只证券只有一个观测值,仅包含普通股、主要交易所上市、主要挂牌的股票,并排除股价低于5美元的股票。通过标识符(如GVKEY, ISIN, CUSIP)将ESG数据与公司-月度层面数据匹配。
研究流程二:构建排序变量 本研究定义了 34个排序变量(Sorting Variables) ,分为两大类: 1. 基础ESG评分:来自三家评级机构的总体ESG、E、S、G评分,共16个变量。 2. 构造的ESG特征:共18个变量,包括: * ESG差异(Disparity):衡量一家公司在E、S、G三个支柱上表现的不一致性。采用平均绝对偏差(Mean Absolute Deviation, MAD) 计算,即每个支柱得分与公司总体ESG得分之差的绝对值的平均值。低差异值表示公司在ESG各维度表现均衡。 * ESG分歧(Disagreement):衡量不同ESG评级机构对同一家公司评分的离散程度。计算所有可用评级机构得分的标准差。低分歧值表示各机构对公司评价较为一致。 * ESG动量(Momentum):计算过去12个月ESG评分的变化。但在后续分析中,由于ESG评分更新频率低导致投资组合构成稀疏,该策略被排除在主要分析之外。 此外,还计算了跨评级机构的平均ESG、E、S、G得分。
研究流程三:定义“分叉路径”决策节点 为了捕捉方法学选择带来的不确定性,研究采用了类似于Menkveld等人(2024)和Walter等人(2024)的“分叉路径”框架。对于每一个排序变量,研究设定了9个决策节点,每个节点代表一个常见的投资组合构建选择,从而形成大量(1,152条)不同的研究设计路径。这9个节点是: 1. 包含金融公司? (是/否) 2. 包含公用事业公司? (是/否) 3. 排序变量滞后 (1个月/6个月/FF滞后) 4. 投资组合再平衡频率 (每月/每年) 5. 主要投资组合数量 (3组/5组) 6. 排序方法 (单变量排序/独立双变量排序/依赖双变量排序) 7. 次级投资组合数量(用于双排序) (2组/5组) 8. 地区与行业调整 (无调整/按地区调整/Fama-French 12行业调整/Fama-French 49行业调整) —— 这模拟了“最佳全宇宙”(无调整或按地区)和“最佳行业内”(行业调整)方法。 9. 加权方式 (等权重/市值加权)
研究流程四:生成投资组合并计算风险溢价 对于34个排序变量中的每一个,遍历其1,152条可能的研究路径。对每条路径: 1. 根据该路径的特定参数(如包含哪些行业、滞后多长、如何排序、是否行业调整等),每月将股票按排序变量分为若干组(如最高组和最低组)。 2. 构建一个多空投资组合(Long-minus-Short Portfolio),即做多ESG表现最好的一组股票,做空ESG表现最差的一组股票。 3. 计算该多空投资组合在整个样本期内的平均月度回报率,即估计的ESG风险溢价(Premium)。 最终,总共生成了 34个变量 × 1,152条路径 = 39,168个 独特的投资组合回报序列(实际为41,472个,计算方式略有差异)。
研究流程五:数据分析与非标准误差计算 核心分析围绕 非标准误差(NSE) 展开。 1. 计算NSE:对于一个给定的排序变量(如MSCI ESG评分),将其所有1,152条路径下估计出的风险溢价(1,152个数值)视为一个分布。该分布的四分位距(Interquartile Range, IQR) 即定义为该变量的非标准误差(NSE)。NSE量化了由于方法学选择不同而导致的结果变异幅度。 2. 计算比率:将估计溢价分布的标准差除以所有路径下时间序列标准误的平均值,得到一个比率。该比率若大于1,表明方法学变异超过了典型的统计估计误差。 3. 统计显著性:对于每个排序变量,计算在所有路径中,估计溢价为正的比例、t统计量显著(大于1.96)的比例,以及投资组合回报呈现单调递增趋势的比例。 4. 风险因子调整:为进一步检验稳健性,研究还计算了多空投资组合经资本资产定价模型(CAPM)、Fama-French五因子模型(FF5) 和Hou-Xue-Zhang q5因子模型(Q5) 调整后的阿尔法(Alpha)。 5. 分组分析:研究还进行了分组分析,以考察:(a) 地区差异:分别在美国和欧洲样本中重复上述分析;(b) 时间窗口敏感性:使用滚动时间窗口,考察样本期选择对结果的影响;© 行业调整影响:对比“最佳全宇宙”与不同精细度(FF12, FF49)“最佳行业内”调整的结果。
3. 主要研究结果
结果一:传统ESG评分与支柱评分的方法学不确定性巨大,信号微弱且不稳定。 * 总体ESG评分(跨三家机构平均)的平均月度非标准误差(NSE)为0.112%,超过了其平均估计溢价(0.018%)。这意味着,由于方法学选择的不同,估计出的ESG溢价有很大可能在正负值之间摆动。例如,总体ESG溢价的分布显示,50%的估计值落在-0.03%至0.07%之间。 * 不同ESG支柱的表现各异:治理(G)支柱显示出相对最一致的正向溢价(平均0.083%),且84.2%的路径为正。环境(E)和社会(S)支柱的平均溢价接近于零,且正负比例相当。 * 不同评级机构的结果差异显著。例如,MSCI ESG的溢价分布相对集中且略偏正,而S&P Global ESG的溢价分布更分散且略偏负(社会支柱尤为明显)。 * 假设H1得到支持:ESG投资组合回报的分布在不同的方法学选择下表现出显著的非标准误差,表明观察到的ESG回报溢价对投资组合构建决策高度敏感,缺乏跨研究设计的稳健性。
结果二:行业调整(最佳行业内方法)显著增加估计结果的方差,可能助长“ESG粉饰”。 * 使用“最佳行业内”(Best-in-Class)调整,特别是采用更细的Fama-French 49行业分类时,会显著放大非标准误差和估计溢价的波动范围。 * 例如,对于Asset4的ESG评分,采用FF49行业调整路径的NSE(0.240%)远高于“最佳全宇宙”路径(0.059%)。 * 这揭示了“ESG粉饰”(ESG-Washing)的一种途径:通过选择特定的行业分类和调整方法,研究者或投资者可以人为地制造出看似表现优异(或低劣)的ESG投资组合。 * 假设H2得到支持:与最佳全宇宙方法相比,采用行业调整(最佳行业内)的ESG排序会显著增加估计回报溢价的方差,从而放大了产生误导性信号的风险。
结果三:基于ESG差异(低MAD)和低分歧的排序能够产生更稳健、更积极的风险溢价。 * 这是本研究最关键的发现。当投资组合根据ESG差异(MAD) 进行排序(即做多在E、S、G三个维度表现均衡的公司,做空表现失衡的公司)时,结果发生了根本性变化。 * 低ESG差异组合持续产生正向溢价。例如,基于MSCI数据计算的MAD排序,其平均月度溢价为0.114%,且高达98.7%的路径为正,NSE相对较低(0.059%)。跨评级机构的MAD分歧(Disag MAD)排序也显示出一致的高正向溢价(0.160%)和显著为正的阿尔法。 * 同样,基于低ESG分歧(Disagreement)(即各评级机构看法一致)的排序,也倾向于产生正向且相对稳定的溢价。 * 这些结果在经CAPM、FF5、Q5等因子模型调整后依然稳健,表明这些溢价并非源于已知的风险因子。 * 假设H3得到支持:与基于传统加总ESG评分的投资组合相比,基于ESG差异和分歧度量的投资组合能产生更稳定、更持续的正向回报溢价,且非标准误差更低。这表明,均衡的ESG表现和一致的评级信号能向投资者传递更可信的信息。
结果四:地区与时间窗口敏感性。 * 地区差异:在美国,S&P Global ESG评分产生的平均溢价为负(-0.102%),而MSCI和Asset4的为正。在欧洲,三家机构的ESG溢价分布则更为相似且接近零。这证实了ESG信号的有效性存在地域依赖性。 * 时间敏感性:ESG策略的表现在不同样本期波动剧烈。例如,基于MSCI ESG的排序,在2010-2012年间估计溢价高达0.31%,而在2017-2019年间则低至-0.46%。这凸显了市场周期和ESG认知演变对结果的影响。
4. 研究结论与价值
结论:本研究系统性地证明,方法学不确定性是塑造关于ESG-回报关系推论的一个重要因素。传统ESG评分和单一支柱评分产生的风险溢价估计接近零、高度敏感且常改变符号,其非标准误差常超过时间序列标准误。这解释了文献中为何存在大量相互矛盾的结论,并揭示了通过选择性投资组合构建可能引入偏见。相反,基于低ESG差异(即公司在E、S、G三方面表现均衡)的投资策略,能够产生更稳健、更持续的正向风险溢价和阿尔法。
从信号理论角度看,研究结论意义深远: 1. 方法学不确定性本身是一种“元信号”:当ESG溢价估计值在不同投资组合构建选择下大幅波动时,市场参与者会将其解读为底层ESG信息存在噪音且具有条件性,从而削弱ESG评分作为可信市场信号的效力。 2. 均衡优于单一突出:相较于在某个单一ESG维度(如环境)表现突出,在环境、社会和治理三个维度均表现平衡且一致的公司,能向市场发送更高质量、更可信的信号。这种平衡性降低了信息不对称,增强了ESG作为市场信号的可信度。
研究价值: * 理论贡献:将非标准误差(NSE)的分析框架引入ESG投资研究,为理解该领域实证结果的异质性提供了量化工具。深化了信号理论在ESG语境下的应用,强调了信号一致性(跨维度平衡和跨评级一致)比信号强度(单一高分)更重要。 * 实践意义: * 对投资者:应警惕仅依赖单一ESG评分或特定构建方法得出的结论。建议将评级分歧和ESG差异作为风险评估和组合筛选的补充指标。关注ESG表现均衡的公司可能获得更稳健的回报。 * 对企业:不应只追求在某个ESG“热点”领域获得高分,而应致力于提升在E、S、G三个维度的均衡表现和持续改进,以向市场传递更清晰、更可信的可持续发展承诺信号。 * 对评级机构与政策制定者:呼吁提高方法论透明度,促进评级体系的协调可比性,并鼓励披露能反映ESG表现平衡度的指标。
5. 研究亮点
6. 其他有价值的内容