在预测超重核α衰变半衰期这一核物理研究的前沿领域,传统经验模型面临着在数据稀疏区域外推能力不足的挑战。S. Madhumitha Shree与M. Balasubramaniam合作,在《Nuclear Physics, Section A》期刊上发表了一项研究,创新性地将机器学习与符号回归技术相结合,旨在建立更准确、更具物理可解释性的预测模型。本报告将详细介绍此项研究的背景、方法、结果与意义。
本研究由印度巴拉蒂尔大学物理系的S. Madhumitha Shree(通讯作者)和M. Balasubramaniam共同完成。该研究于2025年修订,2026年1月被接受,并以期刊预校样(journal pre-proof)形式在线发布,最终将刊载于《Nuclear Physics, Section A》。
学术背景 超重元素的合成是现代核物理的重大进展。然而,这些元素(通常指原子序数 Z≥105)寿命极短、产量极低,其发现与鉴定高度依赖于α衰变链的特性。α衰变半衰期是理解原子核结构、能级和壳效应的重要探针,对其进行精确预测对于指导实验和核数据评估至关重要。长期以来,预测α衰变半衰期主要依赖基于盖革-努塔尔定律及其各种修正的经验公式,如Viola-Seaborg模型、Brown模型、Royer模型等。这些模型虽然对已知核素拟合良好,但通常包含较多拟合参数,在向未知区域(尤其是超重核区域)外推时,其灵活性和准确性受到限制。近年来,机器学习方法在核物理领域(如核质量预测)展现出巨大潜力,提供了数据驱动的新途径。然而,以神经网络为代表的“黑箱”模型虽然预测精度高,但缺乏物理可解释性。本研究旨在弥合这一差距:一方面利用高效的集成学习算法XGBoost获取高精度预测,另一方面结合符号回归工具PySR,从数据中自动推导出简洁、可解释的解析表达式,以实现对超重核α衰变半衰期的高精度外推预测。
详细工作流程 本研究遵循一个清晰的双重建模策略,其核心流程可分为数据准备、XGBoost模型构建与优化、模型解释与外推评估、以及基于符号回归的解析公式推导四个主要环节。
首先,数据准备与特征工程。研究团队从一个已发表的数据集(参考文献[28])中收集了总计344个实验测定的基态α衰变核素的半衰期数据。这些数据覆盖了质量数A从106到261、原子序数Z从52到107的宽广范围,并按核子配对类型细分,包括136个偶-偶核、84个偶-奇核、76个奇-偶核和48个奇-奇核。数据集中未提供实验误差,因此模型训练直接使用报告值。为了提高模型性能和物理相关性,研究选取了一组特征:质量数(A)、中子数(N)、衰变能(Q)的倒平方根(1/√Q)以及质子数的平方根(√Z)。这些特征的选择基于其对α衰变机制的已知物理影响,例如1/√Q直接关联于量子隧穿概率,√Z则与库仑位垒相关。数据集被随机划分为训练集(275个核素,占80%)和测试集(69个核素,占20%)。
其次,XGBoost模型构建与超参数优化。研究采用极端梯度提升(XGBoost)算法,这是一种高效的、正则化的梯度提升决策树实现,能有效处理复杂非线性关系并防止过拟合。为确保模型达到最佳性能,研究进行了详尽的超参数网格搜索(GridSearchCV)。搜索范围覆盖了7个关键超参数,共4032种组合,并使用5折交叉验证进行验证。优化后的关键超参数包括:提升轮数(n_estimators)为700,树的最大深度(max_depth)为4,最小损失减少(gamma)为0,学习率(learning_rate)为0.2,最小子节点权重(min_child_weight)为1,每棵树使用的数据子采样比例(subsample)为0.6,以及每棵树使用的特征比例(colsample_bytree)为0.8。使用这些优化参数训练的最终XGBoost模型在独立的测试集上进行了评估。
第三,模型解释与外推性能评估。为了理解XGBoost模型的决策依据并识别关键特征,研究者使用了SHAP(Shapley Additive Explanations)分析。结果显示,特征1/√Q对预测的影响最为显著,这印证了半衰期与衰变能之间的强相关物理关系。特征√Z、N和A也对预测有重要贡献。这一分析不仅验证了特征选取的物理合理性,也为后续符号回归提供了输入特征的依据。为了评估模型的外推能力,研究者将训练好的模型应用于原子序数Z=107和Z=110的超重核素,预测了其α衰变半衰期,并将预测值与现有的实验数据(参考文献[31])以及其他经典经验模型的预测结果进行了比较。这种在训练数据范围之外(最高Z=107的训练数据扩展到Z=110的预测)的测试是检验模型泛化能力的关键。
第四,基于PySR的符号回归建模。为了获得一个可解释的解析公式,研究采用了符号回归(Symbolic Regression, SR)工具PySR。PySR通过进化算法(如遗传编程)在允许的数学操作符(本研究中限定为+、-、×)空间中搜索最能拟合数据关系的数学表达式。它通过一个权衡预测精度(使用均方误差MSE作为损失函数)与表达式复杂度(通过最大表达式大小maxsize等参数控制)的优化过程来寻找“简洁而准确”的公式。研究者使用了与XGBoost相同的数据集(344个核素)。基于SHAP分析的洞察,他们不仅输入了原始特征(Z, N, A, Q_α),还加入了衍生特征(√Q_α, √Z, 1/√Z, Z/√Q_α),为PySR提供了更丰富的特征空间以发现物理意义明确的表达式。通过设置适当的超参数(如最大表达式大小ms=15,种群大小ps=40,迭代次数ni=500等),PySR从数据中自动推导出了最佳拟合公式。
主要结果 本研究在各个流程中均取得了明确且相互支撑的结果。
在模型预测精度方面,优化后的XGBoost模型在测试集上表现出色,其均方根误差(RMSE)仅为0.022。与之相比,一系列经典经验模型的RMSE分别为:Viola-Seaborg模型1.271,Brown模型1.561,Royer模型0.530,Denisov-Khudenko模型0.859,Akrawy模型0.703。XGBoost模型的预测精度显著优于所有对比模型,这证明了机器学习方法结合物理特征在处理该问题上的优越性。
在模型解释与外推方面,SHAP分析定量地确认了1/√Q是最具影响力的特征,其次是√Z等。这一结果为后续符号回归聚焦于关键物理量提供了直接依据。在对外推至Z=107和Z=110超重核的预测结果进行比较时(详细数据见原文表4和表5),XGBoost和PySR模型的预测值与部分可得的实验值展现出合理的一致性。虽然在某些核素上存在偏差,但整体趋势正确,且在多个核素上,其预测比某些传统经验模型更接近实验值。这初步证明了两种模型在实验数据稀缺区域具有一定的外推可靠性。
在符号回归结果方面,PySR为整个344个核素的数据集推导出了以下最优解析表达式: log₁₀ T₁/₂ = a (Z/√Q_α) - b √Z - c 其中,a = 1.6, b = 3.503, c = -18.898。 该公式具有清晰的物理意义:第一项Z/√Q_α主导了半衰期对原子序数和衰变能的依赖关系,这与XGBoost中SHAP分析揭示的重要性相符;第二项- b√Z体现了核结构(壳效应等)对α衰变的系统性影响;常数项c是基准调整。该公式在全体数据上的RMSE为0.976,虽然略高于XGBoost,但它以极其简洁的形式(仅3项)捕捉了α衰变半衰期的主要物理依赖关系,实现了可解释性与准确性的平衡。该公式的成功推导,是本研究将“黑箱”机器学习转化为透明物理公式的核心成果。
结论与价值 本研究成功地应用XGBoost和符号回归PySR,对344个基态α衰变核素的半衰期进行了建模。XGBoost模型获得了极高的预测精度(RMSE=0.022),显著优于传统经验公式。更重要的是,通过SHAP分析,研究识别出1/√Q和√Z等关键物理特征,并以此为基础,利用PySR自动发现了一个简洁、物理意义明确的解析表达式(RMSE=0.976)。该表达式为理解α衰变系统学提供了新的视角。
研究的科学价值在于:第一,方法论创新:展示了“高精度黑箱模型(XGBoost)+ 可解释符号回归(PySR)”组合策略在核物理领域的有效性,为复杂物理现象的建模提供了新范式。第二,物理洞察:符号回归得到的公式本身即是一项发现,它以数据驱动的方式验证并量化了α衰变半衰期对Z/√Q_α和√Z的核心依赖,为理论模型提供了参考。第三,应用潜力:模型(包括XGBoost和解析公式)在向超重核区域(Z=107, 110)外推时表现出合理的预测行为,表明其可用于指导实验数据极其有限或完全缺失区域的核数据评估和衰变链分析,为超重元素合成与鉴定实验提供了有价值的理论工具。
研究亮点 本研究的亮点突出体现在以下几个方面: 1. 双重建模策略的巧妙结合:研究并非单一地追求预测精度或可解释性,而是将高性能的XGBoost与可解释的PySR相结合。先用XGBoost达到高精度并借助SHAP识别关键物理特征,再用这些特征引导PySR发现解析公式,实现了从“黑箱”到“白箱”的贯通。 2. 面向外推的设计与验证:研究的核心目标之一是预测超重核。研究者明确地将模型应用于训练数据范围之外(Z=107至Z=110)的核素,并与实验值及其他模型进行系统对比,直接检验并展示了模型的外推能力,这对超重核物理研究具有现实意义。 3. 数据驱动的物理公式发现:通过符号回归自动推导出的公式log₁₀ T₁/₂ = 1.6 (Z/√Q_α) - 3.503 √Z - 18.898,是一个简洁、优美且物理意义清晰的经验关系。它超越了单纯拟合,成为一种从数据中“发现”物理规律的新尝试。 4. 严谨的模型优化与评估流程:从特征工程、大规模网格搜索超参数优化、交叉验证到独立的测试集评估,整个机器学习建模流程严谨、规范,确保了结果的可信度。
其他有价值内容 研究还指明了后续工作的方向。作者提到,一项旨在利用符号回归为不同核子配对组合(偶-偶、奇-A等)分别推导α衰变半衰期经验关系的更详细研究正在进行中。这表明本研究是更系统研究计划的一部分。此外,文中提供的详细超参数表(表1、2、3)和完整的对比数据表(表4、5),为其他研究者复现或借鉴此工作提供了充分的信息。研究也获得了巴拉蒂尔大学的资助支持,并声明无其他利益冲突。