基于卷积神经网络的原子核质量预测

分享自：
基于卷积神经网络的原子核质量预测

期刊:Physical Review CDOI:10.1103/physrevc.111.014325
本文档发表于《Physical Review C》111卷（2025年），标题为《Nuclear Mass Predictions Based on a Convolutional Neural Network》。研究团队由陆艳华、尚天帅、杜鹏翔、李建（通讯作者，jlu.edu.cn，吉林大学）以及梁浩昭（东京大学、理研iTHEMS项目）和牛中明（安徽大学）组成。这是一项关于利用机器学习技术，特别是卷积神经网络（Convolutional Neural Network, CNN），来高精度预测原子核质量的原创性研究。
研究背景与目标原子核质量是核物理的基础观测量，它携带了丰富的核结构信息（如壳效应、形变），是提取核有效相互作用（如平均场作用、对相互作用）的关键输入，并决定了核反应能，在理解天体物理中的核合成过程（如快中子俘获过程，r过程）中扮演着至关重要的角色。尽管实验测量（如AME2020数据库）和理论模型（如宏观-微观模型、密度泛函理论模型）均已取得长足进步，但理论模型的预测精度（约0.3 MeV）仍无法完全满足某些前沿研究（例如r过程要求精度优于0.1 MeV）的需求。
现有核质量模型主要分为两类：全局型理论模型（如WS4模型）能够系统性地描述核基态性质的变化，擅长于数据稀少区域的外推预测；局域型理论模型（如Garvey-Kelson关系）则侧重于利用相邻核素质量间的关联，在已知数据区域能达到极高的精度（约0.2 MeV）。机器学习方法已被广泛应用于核质量预测，但大多数研究精度停留在约200 keV的水平。为了突破此瓶颈，研究者认为需要在模型中融入更多物理信息。
本研究的目标是发展一个兼具全局理论与局域特征优势的“全局-局域”（global-local）混合模型，以期在已知区域获得前所未有的高精度，同时保持在外推区域的良好稳定性。其核心创新在于首次将卷积神经网络（CNN）引入核质量预测，利用CNN擅长提取输入数据空间局部特征的能力，来捕捉目标核与邻近核之间的物理关联。
详细工作流程研究流程主要分为四个关键步骤：数据准备与划分、CNN模型的构建与初步训练（CNN-I3/I4）、与全局模型结合构建CNN-WS4模型、以及模型的验证与性能测试。
第一步：数据准备与划分 研究使用AME2020（原子质量评估2020版）的核质量数据作为基准。对于已知核素区域（质子数Z≥8，中子数N≥8）的3456个核素，研究采用两种策略划分数据集以评估模型性能： 1. 时间外推检验：借鉴AME评估方法，使用AME2016中已存在的核素（其质量数据取自更新的AME2020值）作为训练集，而AME2020中新出现的核素（即2016年后新增的测量或评估值）作为外推检验集，用于模拟预测未知新核素的能力。 2. 随机划分验证：为了进一步验证模型的稳健性，将所有3456个核素按8:2的比例随机分为训练集（2765个核）和测试集（691个核），重复进行30次随机划分和训练，以获取统计意义上的性能指标。
第二步：构建基于CNN的局域特征提取模型（CNN-I3/I4） 研究设计了一个专门用于回归任务的卷积神经网络，其超参数见表I。网络结构包含两个卷积层（均使用3x3卷积核、步长为1、72个滤波器），每个卷积层后接ReLU激活函数，最后连接一个全连接层输出单个预测值。网络使用Adam优化器和均方误差（Mean Square Error, MSE）作为损失函数进行训练。
关键创新在于输入层的设计。受到广义Garvey-Kelson局域质量关系的启发，研究者将目标核及其邻近核的信息组织成一个5x5的二维矩阵（共25个核素），作为CNN的输入。每个核素的信息通过多个“通道”输入： * CNN-I3模型（三通道）：输入包含三个通道：质子数（Z）、中子数（N）以及质量（M）。其中，目标核的质量在输入时设为0（待预测），而其邻近核的质量作为已知输入。 * CNN-I4模型（四通道）：在CNN-I3的基础上，增加了第四个通道，即核配对效应（δ）。δ根据核子的奇偶性定义：δ = [(-1)^N + (-1)^Z] / 2。当质子数和中子数均为偶数时，δ=1；均为奇数时，δ=-1；一奇一偶时，δ=0。这一设计旨在让网络显式地学习核子配对能带来的奇偶效应。
对于位于核素图边缘的核素，其部分邻近核可能没有实验数据，这些缺失值用所有核素质量的平均值填充。
第三步：构建全局-局域混合模型（CNN-WS4） 这是本研究的核心创新。研究者不满足于仅用CNN直接预测绝对质量，而是将其作为一个“校正器”。具体做法是：将CNN的输出层设计为预测实验核质量与一个现有全局理论模型预测值之间的差值（Δm = M_exp - M_th）。这里选择的全局模型是著名的WS4模型（Weizsäcker-Skyrme模型第四版），它是目前最精确的核质量模型之一。 由此，最终的核质量预测值为：M_pred = M_WS4 + CNN_Output(Δm)。该模型被命名为CNN-WS4，它结合了WS4模型提供的全局系统学描述和CNN从邻近核数据中提取的局域特征修正。
第四步：模型性能评估与分析 研究对CNN-I3、CNN-I4和CNN-WS4三个模型的性能进行了全面评估，主要指标是预测质量与实验值的均方根误差（Root-Mean-Square Error, RMSE）。此外，还通过绘制核素图上的质量偏差分布、分析特定同位素链/同中子素链的预测情况、以及与其他经典全局模型结合的效果，来深入验证模型的准确性、稳定性和物理可靠性。
主要结果CNN-I3与CNN-I4模型的初步结果：
CNN-I3模型在训练集上的RMSE为0.535 MeV。质量偏差分布图显示出明显的奇偶摆动（odd-even staggering），即预测偏差与核子数的奇偶性强烈相关。这表明CNN能够从邻近核质量中学习到局域关联，但无法充分学习到隐含在数据中的复杂配对效应。
引入配对效应通道后，CNN-I4模型的预测精度大幅提升，训练集RMSE降至0.291 MeV，比CNN-I3提高了46%。更重要的是，其质量偏差分布图中的奇偶摆动现象基本消失。在Ca、Ni、Sn、Pb等幻数附近的同位素链上，预测精度也有显著改善。这证明，通过精心设计的输入层将关键物理信息（如配对效应）显式地提供给CNN，可以有效提升其学习能力和预测精度。
CNN-WS4模型的卓越性能：
CNN-WS4模型在已知实验数据区域达到了惊人的0.070 MeV的RMSE。这是目前理论模型预测核质量所达到的最高精度之一（对比其他先进方法如KRR的0.128 MeV和BML的0.084 MeV）。质量偏差分布图（颜色标尺比CNN-I4的图小5倍）显示偏差整体上非常小且均匀。
模型在某些特定区域（如N≈60， Z≈40的形变区，以及N=Z线的Wigner能区）预测偏差稍大。这与传统局域质量关系在这些区域的失效原因一致，恰恰反证了CNN-WS4模型成功捕捉到了这些已知的物理复杂性，其预测行为与物理认知相符。
在超重核区域（Z≥104），CNN-WS4模型的预测偏差仅为0.046 MeV，显示出在该区域同样具有优异的预测能力。
外推预测能力与稳健性检验：
在对AME2020中新出现核素（时间外推）的预测中，CNN-WS4模型的RMSE为0.211 MeV。考虑到这些新核素多位于核素图的边缘（CNN难以获取完整的邻近核信息），此结果显示了模型良好的外推稳定性。
图4以Mt同位素链和N=174同中子素链为例，直观对比了各模型的预测表现。WS4模型存在系统性偏差，CNN-I3/I4在已知区域（学习区）表现尚可，但在外推区波动较大。而CNN-WS4模型在学习和外推区域均表现最佳，大部分核素的预测偏差在±0.2 MeV以内（黄色高亮区）。
随机划分验证（8:2划分，重复30次）结果显示，CNN-WS4模型在训练集上的平均RMSE为0.095 MeV（标准差0.020 MeV），在测试集上的平均RMSE为0.167 MeV（标准差0.035 MeV），进一步证明了模型的稳健性（robustness）。
方法的普适性验证：
研究者还将CNN校正框架应用于其他五个著名的全局质量模型（Bhagwat, KTUY, DZ28, FRDM12, HFB-31）。结果显示，经CNN校正后，这些模型的预测精度均获得显著提升，RMSE分别降至0.126, 0.096, 0.131, 0.138, 0.192 MeV。这证明CNN提取局域特征进行校正的方法具有普适性，不依赖于特定的底层全局模型。
结论与意义本研究成功开发了一种新颖的、基于卷积神经网络的“全局-局域”混合核质量预测模型（CNN-WS4）。通过将WS4全局模型与能够高效提取邻近核素间局域关联的CNN相结合，该模型在已知核素区域实现了0.070 MeV的极高预测精度，同时在外推预测中展现了良好的稳定性。研究结果表明，精心设计网络输入（融入配对效应）和输出（预测与理论模型的差值）是提升机器学习模型物理可靠性和预测精度的关键。
这项工作的科学价值在于：第一，开创性地将CNN用于核质量预测，为核物理领域应用深度学习提供了新范式。第二，成功验证了“全局理论模型 + 机器学习局域校正”这一混合框架的有效性，为弥合全局模型外推优势与局域模型高精度优势提供了切实可行的方案。第三，所达到的亚100 keV量级的精度，接近或满足了诸如r过程核合成等前沿领域对核数据精度的苛刻要求，具有重要的应用前景。
研究亮点方法新颖：首次将卷积神经网络（CNN）应用于核质量预测问题，利用其强大的空间局部特征提取能力。
物理设计精妙：并非“黑箱”操作，而是进行了深入的物理引导设计，包括：基于邻近核思想构造5x5输入矩阵；显式引入配对效应（δ）作为输入通道；将CNN输出定义为对现有高精度全局模型（WS4）的修正量。这种设计显著提升了模型的可解释性和性能。
精度突破：最终构建的CNN-WS4模型在已知区域达到了0.070 MeV的RMSE，是目前核质量理论预测的最高精度水平之一。
稳健且普适：模型在时间外推和随机数据划分测试中均表现稳健。方法具有普适性，可方便地与其他全局质量模型结合，均能带来精度提升。
物理一致性：模型在已知物理规律失效的区域（如形变区、N=Z线）预测误差较大，这反而与物理预期相符，说明模型学习到了真实的物理关联，而非单纯的数据拟合。
其他有价值的内容研究在讨论中指出，未来可通过在神经网络中引入更多物理效应或约束（如形变、壳修正等）来进一步提升预测能力。同时，神经网络的“可解释性”仍是一个开放问题，如何更清晰地理解CNN所学习到的“局域特征”的具体物理内涵，是值得深入探索的方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问