本文档发表于《Physical Review C》111卷(2025年),标题为《Nuclear Mass Predictions Based on a Convolutional Neural Network》。研究团队由陆艳华、尚天帅、杜鹏翔、李建(通讯作者,jlu.edu.cn,吉林大学)以及梁浩昭(东京大学、理研iTHEMS项目)和牛中明(安徽大学)组成。这是一项关于利用机器学习技术,特别是卷积神经网络(Convolutional Neural Network, CNN),来高精度预测原子核质量的原创性研究。
原子核质量是核物理的基础观测量,它携带了丰富的核结构信息(如壳效应、形变),是提取核有效相互作用(如平均场作用、对相互作用)的关键输入,并决定了核反应能,在理解天体物理中的核合成过程(如快中子俘获过程,r过程)中扮演着至关重要的角色。尽管实验测量(如AME2020数据库)和理论模型(如宏观-微观模型、密度泛函理论模型)均已取得长足进步,但理论模型的预测精度(约0.3 MeV)仍无法完全满足某些前沿研究(例如r过程要求精度优于0.1 MeV)的需求。
现有核质量模型主要分为两类:全局型理论模型(如WS4模型)能够系统性地描述核基态性质的变化,擅长于数据稀少区域的外推预测;局域型理论模型(如Garvey-Kelson关系)则侧重于利用相邻核素质量间的关联,在已知数据区域能达到极高的精度(约0.2 MeV)。机器学习方法已被广泛应用于核质量预测,但大多数研究精度停留在约200 keV的水平。为了突破此瓶颈,研究者认为需要在模型中融入更多物理信息。
本研究的目标是发展一个兼具全局理论与局域特征优势的“全局-局域”(global-local)混合模型,以期在已知区域获得前所未有的高精度,同时保持在外推区域的良好稳定性。其核心创新在于首次将卷积神经网络(CNN)引入核质量预测,利用CNN擅长提取输入数据空间局部特征的能力,来捕捉目标核与邻近核之间的物理关联。
研究流程主要分为四个关键步骤:数据准备与划分、CNN模型的构建与初步训练(CNN-I3/I4)、与全局模型结合构建CNN-WS4模型、以及模型的验证与性能测试。
第一步:数据准备与划分 研究使用AME2020(原子质量评估2020版)的核质量数据作为基准。对于已知核素区域(质子数Z≥8,中子数N≥8)的3456个核素,研究采用两种策略划分数据集以评估模型性能: 1. 时间外推检验:借鉴AME评估方法,使用AME2016中已存在的核素(其质量数据取自更新的AME2020值)作为训练集,而AME2020中新出现的核素(即2016年后新增的测量或评估值)作为外推检验集,用于模拟预测未知新核素的能力。 2. 随机划分验证:为了进一步验证模型的稳健性,将所有3456个核素按8:2的比例随机分为训练集(2765个核)和测试集(691个核),重复进行30次随机划分和训练,以获取统计意义上的性能指标。
第二步:构建基于CNN的局域特征提取模型(CNN-I3/I4) 研究设计了一个专门用于回归任务的卷积神经网络,其超参数见表I。网络结构包含两个卷积层(均使用3x3卷积核、步长为1、72个滤波器),每个卷积层后接ReLU激活函数,最后连接一个全连接层输出单个预测值。网络使用Adam优化器和均方误差(Mean Square Error, MSE)作为损失函数进行训练。
关键创新在于输入层的设计。受到广义Garvey-Kelson局域质量关系的启发,研究者将目标核及其邻近核的信息组织成一个5x5的二维矩阵(共25个核素),作为CNN的输入。每个核素的信息通过多个“通道”输入: * CNN-I3模型(三通道):输入包含三个通道:质子数(Z)、中子数(N)以及质量(M)。其中,目标核的质量在输入时设为0(待预测),而其邻近核的质量作为已知输入。 * CNN-I4模型(四通道):在CNN-I3的基础上,增加了第四个通道,即核配对效应(δ)。δ根据核子的奇偶性定义:δ = [(-1)^N + (-1)^Z] / 2。当质子数和中子数均为偶数时,δ=1;均为奇数时,δ=-1;一奇一偶时,δ=0。这一设计旨在让网络显式地学习核子配对能带来的奇偶效应。
对于位于核素图边缘的核素,其部分邻近核可能没有实验数据,这些缺失值用所有核素质量的平均值填充。
第三步:构建全局-局域混合模型(CNN-WS4) 这是本研究的核心创新。研究者不满足于仅用CNN直接预测绝对质量,而是将其作为一个“校正器”。具体做法是:将CNN的输出层设计为预测实验核质量与一个现有全局理论模型预测值之间的差值(Δm = M_exp - M_th)。这里选择的全局模型是著名的WS4模型(Weizsäcker-Skyrme模型第四版),它是目前最精确的核质量模型之一。 由此,最终的核质量预测值为:M_pred = M_WS4 + CNN_Output(Δm)。该模型被命名为CNN-WS4,它结合了WS4模型提供的全局系统学描述和CNN从邻近核数据中提取的局域特征修正。
第四步:模型性能评估与分析 研究对CNN-I3、CNN-I4和CNN-WS4三个模型的性能进行了全面评估,主要指标是预测质量与实验值的均方根误差(Root-Mean-Square Error, RMSE)。此外,还通过绘制核素图上的质量偏差分布、分析特定同位素链/同中子素链的预测情况、以及与其他经典全局模型结合的效果,来深入验证模型的准确性、稳定性和物理可靠性。
CNN-I3与CNN-I4模型的初步结果:
CNN-WS4模型的卓越性能:
外推预测能力与稳健性检验:
方法的普适性验证:
本研究成功开发了一种新颖的、基于卷积神经网络的“全局-局域”混合核质量预测模型(CNN-WS4)。通过将WS4全局模型与能够高效提取邻近核素间局域关联的CNN相结合,该模型在已知核素区域实现了0.070 MeV的极高预测精度,同时在外推预测中展现了良好的稳定性。研究结果表明,精心设计网络输入(融入配对效应)和输出(预测与理论模型的差值)是提升机器学习模型物理可靠性和预测精度的关键。
这项工作的科学价值在于:第一,开创性地将CNN用于核质量预测,为核物理领域应用深度学习提供了新范式。第二,成功验证了“全局理论模型 + 机器学习局域校正”这一混合框架的有效性,为弥合全局模型外推优势与局域模型高精度优势提供了切实可行的方案。第三,所达到的亚100 keV量级的精度,接近或满足了诸如r过程核合成等前沿领域对核数据精度的苛刻要求,具有重要的应用前景。
研究在讨论中指出,未来可通过在神经网络中引入更多物理效应或约束(如形变、壳修正等)来进一步提升预测能力。同时,神经网络的“可解释性”仍是一个开放问题,如何更清晰地理解CNN所学习到的“局域特征”的具体物理内涵,是值得深入探索的方向。