基于机器学习和特征参数化的公司债定价研究

分享自：
基于机器学习和特征参数化的公司债定价研究

期刊:系统工程理论与实践DOI:10.12011/setp2024-1887
这篇学术论文报告了一项单一、原创的实证研究。以下是基于要求生成的学术报告：
引言 由合肥工业大学经济学院的屠雪永、武汉大学经济与管理学院的李斌以及合肥工业大学经济学院的谭常春三位研究人员共同完成的原创性研究，以《基于机器学习和特征参数化的公司债定价研究》为题，发表于《系统工程理论与实践》（Systems Engineering — Theory & Practice）期刊2025年12月刊。该研究属于金融工程与资产定价领域，特别是在中国公司信用债市场的定价机制研究范畴。
研究的动因根植于中国债券市场近年来的结构性变化与现实需求。随着政府隐性担保的逐步消失和债券市场刚性兑付被打破，公司债市场的信用风险定价机制日趋合理，市场有效性不断提高。在此背景下，深入探究债券市场的定价规律，对于投资者进行理性投资、企业优化资本结构以及监管者防范系统性金融风险均具有突出的现实意义。然而，现有的公司债定价研究文献存在明显分歧：一部分研究采用经典的因子模型（如Fama-French五因子模型），认为只有少数几个“强因子”能够有效解释债券风险溢价；另一部分研究则发现了数十个能够显著预测债券收益的特征，形成了一个类似于股票市场的“因子动物园”现象。这两种结论的矛盾，部分源于传统研究方法（如组合排序法和简单线性回归）的局限性：它们难以有效处理高维特征、无法捕捉特征与收益之间可能存在的复杂非线性关系，并且在变量选择或聚合过程中容易损失“弱因子”的定价信息。另一方面，尽管神经网络等高级机器学习技术能够处理高维和非线性问题，但其“黑箱”特性导致模型缺乏经济可解释性。为了克服这些挑战，本研究旨在提出一种新的公司债定价框架，该框架既能充分利用高维债券特征中的线性与非线性定价信息，又能保持模型的经济可解释性，从而为前述学术分歧提供一种可能的解释。具体而言，本研究提出了“参数化定价方法”，并试图回答三个核心问题：1）该方法能否比经典因子模型提取更多定价信息？2）哪些债券特征对定价最重要，其重要性是否随时间变化？3）该方法的定价效力在不同类型的债券（异质性）和不同宏观经济状态下是否存在差异？
研究流程详述 本研究包含一个系统性的理论构建与实证分析流程，主要可分为数据处理、模型构建、实证检验和机制分析四个主要阶段，涉及中国交易所公司债市场的海量数据。
第一阶段是研究数据的准备与预处理。研究样本时间跨度为2007年1月至2022年12月，覆盖了中国公司债市场从起步到发展的重要时期。研究对象为中国交易所市场的所有公司债和企业债。为了确保数据质量，研究团队参考国际通行做法进行了严格筛选：仅保留公司信用类债券，剔除未上市、剩余到期日不足30天、月交易额低于10万元以及浮动利率债券，最终得到8,143只债券，共计114,586个“债券-月”观测值。在特征构建方面，研究综合现有文献，计算了涵盖债券基本特征、风险类特征、流动性类特征和收益类特征四大类共36个债券特征。此外，为了探究发行主体信息的影响，还计算了45个公司基本面财务特征。所有特征数据均来自CSMAR数据库。在每期（月）分析前，对每个特征进行横截面上的1%和99%缩尾处理，并进行标准化（均值为0，方差为1），以消除量纲影响和极端值干扰，并确保由特征决定的投资组合权重之和为零。债券收益率采用考虑应计利息和利息支付的精确算法计算日度收益后转化为月度超额收益（减去一年期定存利率）。最终，将t-1期的债券特征与t期的债券超额收益配对，形成用于模型训练和测试的面板数据。
第二阶段是核心理论模型与机器学习算法的构建，即“参数化定价方法”的开发。该方法创新性地将资产定价中的随机贴现因子（Stochastic Discount Factor, SDF）理论与参数化投资组合（Parametric Portfolio Policies）方法相结合，并引入了两种特定的机器学习技术以实现高维特征下的稳定求解。首先，研究从最一般的定价理论——随机贴现因子理论出发，将SDF表示为市场收益的线性函数，其载荷（权重向量）待估。直接估计该权重向量会面临“维度诅咒”，因为协方差矩阵的待估参数数量随债券数量激增。为此，研究对SDF的权重向量进行了“特征参数化”，即假设权重是债券特征的线性函数，从而将估计问题从资产维度（n）降至特征维度（k）。理论证明显示，在特定的风险厌恶水平（γ=1）下，这种参数化SDF的估计过程与最大化均值-方差效用的参数化投资组合优化过程完全等价。这为理解SDF提供了新的视角（其载荷可视为投资组合权重），并提供了新的求解路径。
基于参数化投资组合框架，为了应对高维特征带来的多重共线性和估计不稳定问题，并同时捕捉线性和非线性关系，研究引入了两种具有解析解的机器学习方法： 1. 完全子集回归（Complete Subset, CS）方法：这是一种处理高维线性关系的集成学习方法。其工作流程是：每次从全部k个特征中随机抽取k个特征（k < k）构建一个子模型，估计特征权重；然后对所有可能（或大量）特征子集的结果进行平均。这种方法通过对高维特征进行多次随机采样和平均，有效缓解了共线性问题，整合了所有特征的信息，减少了模型选择偏差，并增强了对“弱因子”信息的提取能力。基于此构建的因子称为“子集因子”（SF，不考虑市场基准）和“子集组合”（SP，包含等权市场基准）。 2. 随机特征（Random Feature, RF）方法：这是一种用于逼近非线性核函数的技巧，旨在捕捉特征与收益之间的复杂非线性关系。其工作流程是：首先随机生成一组服从正态分布的权重向量；然后使用这些随机权重对原始债券特征进行非线性变换（具体采用傅里叶变换，即计算原始特征与随机权重的正弦和余弦值），从而将原始特征空间映射到一个更高维的随机特征空间；最后在这个新的特征空间中进行线性参数化回归。为了防止过拟合，在求解过程中加入了L2正则化约束。基于此构建的因子称为“随机因子”（RF）和“随机组合”（RP）。
这两种方法构成了本研究的核心创新算法，它们共同的特点是：能获得解析解（可解释性强）、能利用所有高维特征（减少弱因子信息损失），并且分别专注于线性和非线性定价信息的提取。
第三阶段是实证评估与分析。研究采用滚动窗口方式进行样本外测试：以5年数据为训练集，估计模型参数（并通过网格搜索和五折交叉验证确定最佳超参数，如CS方法中每次抽取的特征数k*，RF方法中的随机权重标准差η、特征数p和正则化强度λ），随后在接下来1年的测试集上形成样本外投资组合收益，如此逐年滚动。为了评估模型表现，研究选取了Fama-French五因子模型（FF5）和李勇等（2021）提出的五因子模型（LZZ5）作为基准竞争模型。评估标准包括：1）收益表现：计算各因子（包括参数化因子和基准因子）的月度平均收益、波动率和夏普比率。2）回归检验：将参数化因子（SF， RF）对基准因子进行时间序列回归，检验截距项α是否显著不为零。显著的α表明参数化因子包含了基准模型无法解释的定价信息。3）夏普比率检验：构建均值-方差有效组合，比较仅使用基准因子、仅使用参数化因子以及同时使用两者的投资组合夏普比率，并检验加入参数化因子后夏普比率的提升是否统计显著。
第四阶段是经济机制分析。在证实参数化模型有效性后，研究进一步深入分析了其特征重要性、以及定价效力的异质性。通过分析模型估计的特征权重θ，可以识别出对定价贡献最大的特征类别。同时，研究将全样本债券按信用评级、流动性、久期、发行人性质（国企/非国企、上市/非上市）等维度进行分组，然后在每个子样本内分别构建参数化因子，比较其收益表现，以检验模型在不同类型债券上的定价能力差异。此外，还分析了宏观经济状态（扩张期与紧缩期）对模型定价能力的影响。
主要研究结果 实证分析基于中国公司债市场数据，得出了系统且富有洞察力的结果，有力地回答了研究提出的三个核心问题。
首先，关于参数化定价方法的整体有效性（问题一）。样本外测试结果表明，无论是线性模型（完全子集）还是非线性模型（随机特征）构建的参数化因子，其收益表现均显著优于经典因子模型。具体数据支持如下：在样本外期间（2012-2022年），表现最好的经典因子是LZZ5模型中的债券市场因子（MKTB），其夏普比率为1.445。而本研究提出的子集因子（SF）和随机因子（RF）的夏普比率分别达到1.824和1.848。更为突出的是，包含了市场基准的子集组合（SP）夏普比率高达2.049，远高于所有基准因子。这一结果直接证明了参数化方法能够从高维特征中提取出更强的定价信息。回归检验进一步强化了这一结论：SF和RF经过LZZ5或FF5因子调整后的月度超额收益α均在0.2%左右，且t值大于4，在1%水平上高度显著，而回归的R²较低（SF对LZZ5的R²为0.248， RF对LZZ5的R²仅为0.029），说明基准因子只能解释参数化因子收益的一小部分，大部分收益是增量信息。夏普比率检验显示，将参数化因子加入基准因子组合中，能够显著提升投资组合的夏普比率。例如，在样本外，将SF加入LZZ5因子组合，夏普比率提升了约1.69倍（检验显著）。这些结果共同表明，参数化定价模型成功提取了经典因子模型所遗漏的定价信息。研究进一步指出，这种提升主要源于机器学习技术对高维特征中“复杂定价关系”和“弱因子信息”的充分挖掘。这也就为文献中的分歧提供了解释：传统方法因无法有效处理高维和弱因子，可能低估了有效特征的数量和定价信息的丰富性。
其次，关于特征重要性与时变性（问题二）。通过对模型权重的分析，研究发现，对公司债定价最重要的特征类别是债券收益类特征（如动量、反转等）和债券流动性类特征。这一发现表明，在中国公司债市场中，交易摩擦、流动性风险以及基于历史收益的交易行为仍然是驱动价格和风险溢价的关键因素，反映出市场定价机制仍有待进一步完善。一个有趣的发现是，发行主体的基本面财务特征对于债券定价的贡献非常微弱，无法提供超越债券自身特征（如期限、评级、流动性等）之外的增量定价信息。这意味着在债券定价中，市场更多关注的是债券作为特定金融工具的合约属性与市场交易属性，而非其发行公司的整体财务面貌。此外，研究强调，不同特征的重要程度及其对收益的预测方向（权重θ的正负）呈现出较强的时变性，并非固定不变。这提示我们，公司债的定价规律是一个动态演变的过程，需要模型具备适应这种变化的能力。
最后，关于定价效力的异质性与宏观影响（问题三）。异质性分析揭示了参数化定价模型在某些特定类型的债券上表现尤为出色。具体而言，模型在高久期、高波动、低信用评级、低流动性、由非国有企业发行以及非上市公司发行的债券组合中，所构建的因子投资回报更高。这类债券通常蕴含更高的利率风险、信用风险和流动性风险，因此需要更高的风险溢价作为补偿。参数化模型能够更有效地挖掘这部分被市场可能错误定价或补偿不足的风险溢价。宏观经济状态的影响分析显示，参数化定价模型在经济扩张期的定价能力略有减弱，而在经济紧缩期则有所增强。一种可能的解释是，经济繁荣时期市场情绪乐观，各类信息充分反映，定价更有效，模型获取超额收益的难度增加；而在紧缩期，市场压力增大，定价可能更不充分，为基于特征的模型提供了更多机会。但总体来看，模型受宏观因素的影响相对较小，表现出较强的稳定性。
结论与价值 本研究的主要结论是，成功提出并验证了一种基于机器学习和特征参数化的公司债定价新方法。该方法通过融合随机贴现因子理论、参数化投资组合框架以及完全子集、随机特征两种机器学习技术，构建了一个兼具强大定价能力、经济可解释性并能同时处理线性和非线性关系的定价模型。实证表明，该模型能够显著超越经典因子模型，更充分地挖掘中国公司债市场中的定价信息，特别是从高维特征和弱因子中提取增量信息。
本研究的价值体现在多个层面：在理论价值上，第一，它拓展了公司债定价乃至资产定价的研究框架，为处理高维“因子动物园”和复杂非线性关系提供了新的、可解释的解决方案。第二，它通过理论证明，将参数化随机贴现因子与参数化投资组合等价起来，极大地丰富了随机贴现因子的经济内涵（其载荷即投资权重）和估计路径。第三，它深化了弱因子信息提取的相关研究，实证证明了忽略弱因子会导致定价信息损失。在应用价值上，第一，该研究有助于投资者（尤其是债券基金、FOF基金管理人）开发更有效的量化投资策略，构建高夏普比率的投资组合。第二，研究揭示的定价规律（如流动性特征的重要性、异质性定价差异）能帮助市场参与者更好地理解中国公司债的风险收益结构。第三，研究结论可为监管机构监测市场定价效率、识别潜在风险积聚领域（如低评级、低流动性债券板块）提供参考。
研究亮点 本研究的突出亮点在于其高度的方法创新性与系统性。具体体现在：1）新颖的模型框架：创造性地将资产定价核心理论（SDF）、资产配置方法（参数化投资组合）与前沿机器学习技术（CS， RF）进行有机结合，形成了逻辑自洽、步骤清晰的全新定价流程。2）兼顾性能与可解释性：所选用的两种机器学习方法并非“黑箱”，都能给出解析解，使得模型结果可以进行经济解释，这在应用复杂机器学习模型的金融研究中尤为可贵。3）全面的实证检验：研究不仅证明了模型相对于基准模型的优越性，还深入分析了特征重要性、时变性和异质性，形成了从模型构建、有效性验证到机制挖掘的完整证据链，结论扎实。4）聚焦中国现实问题：研究紧密围绕中国债券市场“打破刚兑”后的定价有效性这一重大现实问题展开，所有分析基于中国本土数据，结论对中国市场具有直接的参考意义。
其他有价值内容 研究在数据处理的严谨性、对比模型的代表性（同时选取了国际经典的FF5和国内学者提出的LZZ5模型）以及稳健性检验（虽然报告正文未详细展开第五部分“稳健性检验”，但指出其存在）方面都做得较为周全。此外，研究对样本进行了详细的描述性统计（如表3），揭示了中国公司债市场的一些结构性特征，如评级分布极度不均衡（投资级占绝大多数）、公司债与企业债在评级、久期等方面的差异，这些背景信息对于理解后续实证结果也很有帮助。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问