基于机器学习方法比较CAPM与Fama-French三因子模型的学术研究报告
第一部分:研究作者、机构及发表信息
本项研究由两位越南学者共同完成。第一作者是来自胡志明市工业大学(Industrial University of Ho Chi Minh City)商业与旅游学院的 Bui Thanh Khoa。第二作者是来自河内FPT大学(FPT University)数学系的 Tran Trong Huynh。该研究成果以论文形式发表于期刊 “Journal of Eastern European and Central Asian Research”,具体刊载于该期刊2023年的第10卷第7期。
第二部分:研究的学术背景
本研究属于金融计量经济学与金融数据分析的交叉领域,具体聚焦于资产定价模型的有效性验证与预测能力提升。研究的核心动机源于越南股市近年来的快速增长,吸引了大量个人投资者入市。精准预测投资组合的收益率对于降低投资风险、提升回报至关重要。在这一背景下,该研究旨在评估和比较两个在学术界与实务界被广泛认可的经典资产定价模型:资本资产定价模型(Capital Asset Pricing Model,简称 CAPM)和 Fama-French 三因子模型(Fama-French 3-factor model,简称 FF3)。
研究背景基于几个关键的知识点:首先,传统的 CAPM 模型假设市场是有效的,仅用市场风险因子(Beta)来解释资产或投资组合的预期超额回报。然而,大量实证研究发现,CAPM 的假设在现实市场(特别是新兴市场)中难以完全满足,其解释力有限。其次,由 Fama 和 French 提出的三因子模型在 CAPM 的基础上增加了两个因子:规模因子(SMB,小市值股票组合收益减去大市值股票组合收益)和价值因子(HML,高账面市值比股票组合收益减低账面市值比股票组合收益),旨在更好地解释股票横截面收益率的差异。已有研究表明,FF3 模型在多数市场(包括部分亚洲市场)的解释力优于 CAPM。
然而,传统的计量经济学方法,如普通最小二乘法(Ordinary Least Squares,简称 OLS)回归,通常假设变量间为线性关系,这在复杂的金融市场中可能并非最佳选择。近年来,机器学习(Machine Learning)算法,特别是支持向量回归(Support Vector Regression,简称 SVR)算法,因其在处理非线性关系方面展现出的强大能力,在金融预测领域受到重视。SVR 算法已被证明在许多连续变量预测任务中具有高效率。
基于此,本研究设定了明确的目标:1) 在越南河内证券交易所(Hanoi Stock Exchange,简称 HNX)验证 FF3 模型相对于 CAPM 模型的优越性;2) 将机器学习中的 SVR 算法引入 FF3 模型框架(构建 FF3-SVR 模型),以提升对投资组合收益率的预测精度,并与传统的 OLS 估计方法进行比较。
第三部分:研究的详细工作流程
本研究的工作流程系统且严谨,主要包括数据准备、模型构建、模型评估与比较等几个关键步骤。每个步骤均有明确的处理对象、方法和实验设计。
步骤一:数据收集与处理 研究收集了河内证券交易所(HNX)从2010年1月到2022年12月共13年的月度数据。具体数据包括:HNX市场中各上市公司的股票价格(用于计算收益率)、市值(用于确定规模)、以及账面价值(用于计算账面市值比,即 B/M 比率)。同时,还收集了市场指数(HNX指数)的月度收益率以及越南1年期国债的收益率作为无风险利率(rf)。数据处理首先遵循 Fama-French 的经典方法构建 SMB 和 HML 因子。具体而言,每年6月末,根据公司市值和 B/M 比率对所有股票进行双重排序,构建不同的投资组合,进而计算月度规模的溢价(SMB)和价值溢价(HML)。市场因子(MKT)则计算为 HNX 指数月度超额收益率(即市场指数收益率减去无风险利率)。
步骤二:投资组合构建 为了测试模型在不同风险敞口下的表现,研究并未直接对个股进行测试,而是构建了多样化的投资组合。具体做法是:每月根据股票的 Beta 值(对市场因子的敏感度)从低到高排序,然后平均划分为10个等权重投资组合(P1到P10)。投资组合的收益率即为组合内所有股票收益率的平均值。这种构建方法使得每个组合具有不同的风险特征,便于检验模型在不同风险水平下的解释和预测能力。数据集最终包含了这10个投资组合在156个月(2010年1月至2022年12月)内的月度超额收益率(投资组合收益率减去无风险利率),以及对应的 MKT、SMB、HML 因子值。
步骤三:模型构建与比较(CAPM 与 FF3 的 OLS 估计) 此步骤旨在比较 CAPM 和 FF3 模型在 HNX 市场的传统解释力。研究采用时间序列回归方法。 1. CAPM 模型回归:对每个投资组合 i,使用 OLS 算法估计以下方程:ri,t - rf,t = αi + βiMKTt + εi,t。其中,左侧为投资组合 i 在 t 月的超额收益率,MKTt 为 t 月的市场超额收益率。通过分析各组合回归结果的调整后决定系数(Adjusted R²)和 Beta 系数的显著性,来评估 CAPM 的解释能力。 2. FF3 模型回归:同样对每个投资组合 i,使用 OLS 算法估计以下方程:ri,t - rf,t = αi + β1MKTt + β2SMBt + β3HMLt + εi,t。通过比较各组合 FF3 回归的调整后 R² 与 CAPM 的调整后 R²,判断 FF3 是否提供了更优的解释力。
步骤四:机器学习预测模型构建(FF3-SVR 模型) 为了提升预测能力,研究创新性地将机器学习算法引入资产定价模型的估计过程。具体方法是将 FF3 模型的框架与支持向量回归(SVR)算法相结合。研究并未发明新的算法,而是巧妙地应用了成熟的 SVR 工具来解决传统线性回归的局限性。研究将整个数据集按照 70%:30% 的比例划分为训练集和测试集。训练集使用2010年1月至2018年12月的数据,测试集则使用2019年1月至2022年12月的数据。对于每个投资组合,在训练集上,以 MKT、SMB、HML 三个因子作为输入特征(自变量),以投资组合的超额收益率作为输出目标(因变量),使用 SVR 算法进行训练,构建预测模型。研究报告中提到,所使用的 SVR 算法采用了线性核函数(Linear Kernel),并设置了特定的成本参数(Cost=0.5)和不敏感损失参数(Epsilon=0.5),这些参数设置参考了作者先前的研究工作(Khoa et al., 2021)。
步骤五:模型预测性能评估与统计检验 此步骤旨在量化比较三个预测模型的准确性:基于 OLS 的 CAPM 模型、基于 OLS 的 FF3 模型和基于 SVR 的 FF3 模型(FF3-SVR)。评估采用测试集上的预测误差。 1. 评估指标:使用均方根误差(Root Mean Square Error,简称 RMSE)作为衡量预测精度的主要指标。RMSE 值越小,表明模型的预测值与实际值之间的平均偏差越小,预测效果越好。研究计算了每个投资组合在测试集上,分别由 CAPM、FF3 和 FF3-SVR 模型预测产生的 RMSE。 2. 统计检验:为了判断三个模型的平均 RMSE 是否存在统计上的显著差异,研究进行了方差分析(Analysis of Variance,简称 ANOVA),并执行了 F 检验。零假设(H0)为三个模型的平均预测误差没有差异。若 F 统计量大于临界值(或 p 值小于 0.05),则可以拒绝零假设,认为至少有一个模型的平均误差与其他模型不同。
第四部分:研究的主要结果
研究按照上述工作流程,得出了层层递进、相互印证的一系列重要结果。
结果一:描述性统计与市场概况 数据显示,在研究期间(2010-2022年),HNX 市场因子(MKT)的平均超额收益率为 -0.005%,标准差为 0.92,表明市场整体超额回报为负且波动剧烈。10个投资组合的平均超额收益率有正有负,范围从 -0.394%(P6组合)到 0.287%(P4组合),其中部分组合(如 P3, P6, P10)平均收益为负,研究将其归因于新冠疫情等危机的影响以及银行存款利率上升带来的资本压力。
结果二:CAPM 与 FF3 模型解释力对比(OLS 估计结果) 时间序列回归结果清晰地支持了 FF3 模型的优越性。从调整后决定系数(Adjusted R²)来看,CAPM 模型在所有10个投资组合上的值介于 0.049 到 0.107 之间,解释力非常有限。而 FF3 模型的调整后 R² 则显著更高,范围在 0.189 到 0.406 之间。这表明,加入规模(SMB)和价值(HML)两个因子后,模型对投资组合收益率变动的解释比例大幅提升。此外,CAPM 模型中,有3个投资组合的截距项(α)在统计上显著不为零,这与 CAPM 理论预测(α 应为零)相悖,进一步削弱了其在 HNX 市场的适用性。相反,在 FF3 模型中,市场因子(MKT)的系数在所有组合中均显著为正,规模因子(SMB)也显示出显著影响,验证了“小市值效应”在越南市场的存在。价值因子(HML)的符号在不同组合间有正有负,揭示了更为复杂的价值效应。
结果三:FF3-SVR 预测模型的有效性验证 预测性能的对比结果更为直接地展示了机器学习算法的优势。对测试集数据的预测误差(RMSE)计算显示,基于 OLS 的 CAPM 模型的平均 RMSE 为 3.147,基于 OLS 的 FF3 模型的平均 RMSE 为 2.947,而基于 SVR 的 FF3 模型(FF3-SVR)的平均 RMSE 最低,为 2.674。这意味着 FF3-SVR 模型在预测未来投资组合收益率时,平均误差最小,预测精度最高。具体到每个投资组合,FF3-SVR 模型在10个组合中的7个都取得了最低的 RMSE 值。
结果四:统计显著性检验 为了确认上述误差差异并非偶然,研究进行了方差分析(ANOVA)和 F 检验。检验结果显示,F 统计量(6.176)大于临界值(3.354),且 p 值(0.006)远小于 0.05 的显著性水平。因此,研究可以有力拒绝“三个模型平均预测误差无差异”的零假设。这一统计检验从数学上证实,CAPM、FF3-OLS 和 FF3-SVR 三个模型的预测性能存在显著差异,从而支持了“FF3 模型优于 CAPM”以及“在 FF3 框架下 SVR 算法优于 OLS 算法”的结论。
第五部分:研究的结论、意义与价值
本研究的结论明确而具有启发性:首先,在越南河内证券交易所(HNX)这一新兴市场,Fama-French 三因子模型(FF3)对投资组合收益率的解释力显著优于传统的资本资产定价模型(CAPM),这验证了 FF3 模型在解释越南股市横截面收益率差异方面的适用性和优越性。其次,更为重要的是,将机器学习中的支持向量回归(SVR)算法应用于 FF3 模型的估计过程,能够构建出比传统最小二乘法(OLS)预测精度更高的收益率预测模型(FF3-SVR)。
研究的科学价值主要体现在方法论层面:它成功地将先进的机器学习工具(SVR)与传统金融理论模型(FF3)相结合,为解决金融时间序列预测中的非线性、高噪声问题提供了一个有效范例。这为金融计量经济学领域探索“理论模型+数据驱动算法”的混合研究方法提供了实证支持。
研究的应用价值非常直接:对于 HNX 市场的投资者和风险管理者而言,研究建议使用 FF3-SVR 模型替代广泛使用的 CAPM 模型甚至传统的 FF3-OLS 模型,以获取更准确的投资组合收益率预测,从而辅助投资决策和风险管理。此外,研究也指出了 FF3 模型尽管有所改进,但解释力仍有提升空间(调整后 R² 最高约0.4),因此未来的研究方向可以是将模型扩展到更全面的多因子模型(如 Fama-French 五因子模型),并继续结合更高级的机器学习算法(如长短期记忆网络 LSTM)进行预测。
第六部分:研究亮点
本研究的亮点突出体现在以下几个方面: 1. 研究对象的特殊性:聚焦于越南河内证券交易所(HNX)这一相对较少被国际学术界深入研究的东南亚新兴市场,其研究成果对理解新兴市场的资产定价规律具有补充价值。 2. 方法论的创新性:创造性地将机器学习算法(SVR)与经典金融理论模型(FF3)进行“嫁接”,构建了混合预测模型(FF3-SVR)。这种“理论指导+数据驱动”的思路是当前金融科技(FinTech)研究的前沿方向。 3. 比较研究的系统性:研究设计严谨,不仅比较了 CAPM 和 FF3 的理论解释力,还比较了 OLS 和 SVR 两种估计技术的预测性能,并通过严格的统计检验(ANOVA)来支撑比较结论,逻辑链条完整。 4. 实证过程的透明性:研究详细报告了数据来源、投资组合构建方法、模型参数设置(如 SVR 的核函数和参数)以及评估指标,具有良好的可复现性。
第七部分:其他有价值的补充内容
研究在讨论部分还结合了越南市场的具体实践,深入分析了经典模型假设失效的原因。例如,指出在越南,借贷利率并非统一的无风险利率、股票交易存在手续费和最小交易单位限制、投资者预期并非同质等,这些现实条件都导致了 CAPM 和 FF3 的严格假设难以满足,从而解释了它们在该市场表现相对低效的深层原因。这一分析增强了研究结论的现实说服力。同时,研究也坦诚地指出了自身模型的局限性,即 FF3 模型本身的解释因子仍不完整,为后续研究指明了清晰的改进方向——探索包含更多因子的模型与更强大的机器学习算法的结合。这种对研究局限性的认识和对未来工作的展望,体现了研究的严谨性和开放性。