神经网络方法对β衰变寿命的研究

分享自：
神经网络方法对β衰变寿命的研究

期刊:中国科学:物理学力学天文学DOI:10.1360/sspma-2021-0299
近日，《中国科学：物理学 力学 天文学》期刊2022年第5期发表了一篇由李鹏、白景虎、牛中明和牛一斐*（*为通讯作者）共同完成的原创性研究论文，题为《神经网络方法对β衰变寿命的研究》。这篇论文来自兰州大学核科学与技术学院以及安徽大学物理与材料科学学院的研究团队。文章旨在利用机器学习技术，特别是单隐层神经网络，对原子核的β衰变半衰期进行高精度预测，以期为天体物理中的快中子俘获过程（r-过程）研究提供更可靠的核物理输入数据。
本研究的学术背景植根于核物理与天体物理学的交叉领域——核天体物理学。宇宙中从铁到铀约一半的重元素被认为是通过r-过程产生的。r-过程发生在中子密度极高的极端环境中，涉及大量远离稳定线的丰中子原子核。模拟这一过程的关键核物理输入量之一便是这些不稳定原子核的β衰变寿命，它直接决定了r-过程的时间标度。然而，由于实验上测量这些短寿命、难以合成的丰中子核极其困难，理论预测变得至关重要。传统的理论模型主要分为宏观唯象模型（如Gross理论）和微观理论模型（如壳模型、无规相位近似RPA及其扩展QRPA）。其中，基于有限程小液滴模型的准粒子无规相位近似理论（FRDM+QRPA）是目前广泛用于提供全核素图β衰变寿命数据的理论工具，但其预测精度仍有待提高。近年来，人工智能与机器学习的迅猛发展为处理复杂数据关系和进行高精度预测提供了新途径。已有先驱工作尝试将神经网络应用于β衰变寿命预测，取得了不错的效果。本研究正是在此背景下，旨在利用更新、更丰富的实验数据集（NUBASE2020），构建更优化的神经网络模型，以显著提升对β衰变寿命，尤其是对r-过程路径上短寿命核素的预测精度。
研究工作的核心是构建和训练三种不同的单隐层神经网络模型，其详细工作流程如下： 首先，研究团队从NUBASE2020数据库中筛选出质子数和中子数均大于等于8、β-衰变分支比为100%、且半衰期小于等于10^6秒的原子核数据，共计1044个，作为研究的基础数据集。这些数据点构成了训练和验证神经网络的“地面实况”。为了评估模型的泛化能力，研究者采用随机抽样方式，将数据集划分为包含920个核素的训练集和包含124个核素的验证集。验证集中的核素在核素图上的分布覆盖了数据区域内部和边缘，以测试模型的外推能力。
其次，研究者设计了三种具体的神经网络结构，其核心区别在于输入变量和激活函数的选择。所有网络均采用单隐层结构，输出变量均为β衰变半衰期以10为底的对数值lgT1/2。在训练前，对输入数据进行了归一化处理，以消除量纲影响，加速网络收敛。神经网络的训练目标是最小化预测值与实验值之间的均方根误差（RMS），采用梯度下降法迭代更新网络中的权重和偏置参数。具体网络设计如下： 1. 网络一（NN-lgQβ(48)）：输入变量为原子核的质子数Z、中子数N、奇偶性参数δ（用于区分偶偶核、奇奇核和奇A核）以及β衰变能Qβ的常用对数值lgQβ。这里Qβ值取自WS4核质量模型。该网络隐层神经元个数为48。输入层到隐层的激活函数采用Softsign（f(x) = x / (|x|+1)），隐层到输出层的激活函数采用Sigmoid（f(x) = 1/(1+e^{-x})）。这种激活函数组合是在该输入变量下寻找到的最优配置。 2. 网络二（NN-Qβ(48)）：输入变量为Z, N, δ，以及未经对数的Qβ本身。隐层神经元个数仍为48。其激活函数组合则为：输入层到隐层采用Softmax（将输出转化为概率分布），隐层到输出层采用Softplus（f(x) = ln(1+e^x)）。此组合是针对输入Qβ（非对数）优化后的选择。 3. 网络三（NN-Qβ(41)）：输入变量和激活函数与网络二完全相同，唯一的区别是隐层神经元个数减少至41个。此设计的目的是为了探究神经元数量对预测结果的影响。
为了获得稳定的预测结果并估计不确定性，研究者采用了一种独特的训练策略。他们将权重矩阵的初始值设置为从高斯分布中随机抽取，并重复此过程2500次，从而得到了2500组不同的初始神经网络。对这2500个网络分别进行训练后，通过物理合理性筛选（例如，要求在同一同位素链中，β衰变寿命随中子数增加而减少的趋势不被违反），最终保留了100组优质的训练结果。对这100组结果的预测值取平均，作为该模型对每个原子核β衰变寿命的最终预测值。同时，计算这100个预测值的标准差σ，并以此给出每个预测值在95%置信区间下的误差范围（±1.96σ）。这种方法不仅提供了预测值，还定量给出了预测的不确定性，这是传统理论模型通常不具备的优点。
本研究取得了一系列重要成果，具体体现在对不同神经网络模型的评估、与现有理论的对比以及对核素图系统性预测的分析上。 首先，研究团队系统评估了三种神经网络模型的预测精度，并与当前广泛使用的FRDM+QRPA理论模型进行了对比。评估指标为半衰期对数值的均方根偏差σrms(lgT1/2)。结果表明，无论是训练集还是验证集，三种神经网络模型在所有半衰期范围内的预测精度均显著优于FRDM+QRPA模型。对于训练集，神经网络模型对寿命≤1秒、≤10^3秒和≤10^6秒的原子核的预测精度分别比FRDM+QRPA提升了约4.6倍、2.8倍和2.5倍；对于验证集，提升倍数分别约为3.6倍、2.9倍和4倍。这强有力地证明了机器学习方法在提升β衰变寿命预测精度方面的有效性。
其次，通过比较不同网络结构的结果，研究者得出了关于模型优化的重要结论。比较网络二和网络三的结果发现，当隐层神经元数量达到41个时，预测结果已相当可靠，继续增加神经元数量至48个对精度的改善微乎其微，这表明网络结构存在一个“饱和点”。比较网络一和网络二的结果更具物理启发性。由于理论上β衰变寿命T1/2近似正比于Qβ^5，因此lgT1/2与lgQβ之间存在近似的线性关系。将输入变量从Qβ改为lgQβ（网络一），并配合使用Softsign和Sigmoid激活函数，得到了最优的预测效果。最优模型NN-lgQβ(48)对全部1044个核素的预测值与实验值的总体均方根偏差为10^0.43（约2.69倍），相较于FRDM+QRPA，精度提升了约2.6倍。特别关键的是，对于r-过程路径上典型的、寿命小于1秒的原子核，预测精度达到了10^0.22（约1.66倍），这是一个非常重要的提升。此外，验证集中位于核素图数据区域边缘的19个原子核，其预测偏差（0.30）甚至低于整个验证集的平均偏差，初步显示了该模型具有一定的外推能力。
第三，研究者利用最优模型NN-lgQβ(48)详细分析了若干代表性同位素链和同中子素链的预测结果，并与实验数据进行了直观对比。如图2和图3所示，神经网络模型能够很好地复现Ni、Sn、Pb同位素链以及N=50, 82, 126同中子素链的β衰变寿命实验趋势。预测结果不仅给出了中心值，还以误差带的形式展示了95%置信区间。在实验数据丰富的区域，误差带很窄，表明预测置信度高；在远离实验数据的外推区域，误差带自动变宽，反映了预测不确定性的增加。模型成功捕捉到了原子核幻数（如Sn同位素链N=82处，N=82同中子素链Z=50处）导致的β衰变寿命突然跃变（“跳变”）现象，也再现了Pb同位素链中由于核子配对效应导致的寿命奇偶振荡现象。这表明神经网络并非简单地拟合数据，而是学习到了背后深刻的物理规律，如壳效应和配对效应。
最后，研究给出了基于NN-lgQβ(48)模型的全核素图β衰变寿命预测。图4展示了预测值与实验值的对数差在核素图上的分布，大部分区域的偏差在0.4个数量级以内，偏差较大的核素主要集中在稳定线附近特定区域（Z=28至50之间）。图5则展示了对所有丰中子侧（Qβ≥0）原子核β衰变寿命的系统性预测值分布图，清晰显示了随着中子数增加（向滴线靠近），β衰变寿命迅速变短的整体趋势。该模型能够为r-过程模拟提供超过6000个原子核的高精度β衰变寿命数据及其误差估计。
本研究的主要结论是，通过构建和优化单隐层神经网络，成功实现了对原子核β衰变寿命的高精度、系统性预测。与主流的FRDM+QRPA理论模型相比，整体预测精度提升了约2.6倍，均方根偏差达到10^0.43。对于r-过程至关重要的短寿命（秒）原子核，预测精度达到10^0.22（约1.66倍以内）。研究还发现，当神经网络结构（神经元数量）达到一定复杂度后，继续增加复杂度收益有限；输入变量的物理形式（如使用lgQβ而非Qβ）对模型性能有影响，且需要配合恰当的激活函数。模型不仅给出了预测值，还通过多次初始化训练提供了预测误差范围，增强了结果的可信度。
本研究的科学价值和应用价值都十分显著。在科学价值上，它展示了机器学习作为强大工具在解决复杂核物理多体问题中的潜力，为核物理理论研究提供了新的范式。研究揭示的最优网络结构和输入变量形式，对后续利用机器学习研究其他核物理观测量（如原子核质量、裂变产额等）具有借鉴意义。在应用价值上，其最直接且重要的贡献在于为核天体物理中的r-过程模拟提供了精度显著提高的核物理输入数据。更精确的β衰变寿命将直接降低r-过程模拟的理论不确定性，从而帮助科学家更好地理解重元素的合成场所（如中子星并合）、时间尺度以及最终的元素丰度分布，对于解开宇宙重元素起源之谜具有重要推动作用。
本研究的亮点在于：第一，预测精度的显著提升：相较于传统主流理论模型，将β衰变寿命的预测精度系统性提升了约2.6倍，对短寿命核素的预测达到了1.66倍以内的优异水平。第二，模型的不确定性量化：创新性地采用多次随机初始化训练并取平均及标准差的方法，为每个预测值提供了可靠的误差范围，这是许多机器学习应用中所欠缺的。第三，物理驱动的模型设计：并非盲目堆叠网络复杂度，而是深入考虑了物理关系（如T1/2 ∝ Qβ^5），通过将输入变量Qβ转换为lgQβ并与特定激活函数配合，获得了最优性能，体现了“物理信息”融入机器学习的思路。第四，强大的外推与物理规律捕捉能力：模型在验证集边缘核素上表现良好，并能成功复现壳效应（幻数跳变）和奇偶振荡等关键的核结构特征，证明其学习到了内在物理规律而非简单的数据映射。第五，提供了可直接使用的数据库：研究产出了覆盖全核素图丰中子核的、包含误差估计的β衰变寿命预测数据集，可直接服务于天体物理界的r-过程模拟研究，具有很高的实用价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问