分享自:

神经网络在原子核质量预测中的应用

期刊:中国科学:物理学 力学 天文学DOI:10.1360/sspma-2021-0301

本文是对田大川、陈寿万、牛中明等研究团队于2022年发表在《中国科学: 物理学 力学 天文学》期刊上的一项关于利用神经网络方法预言原子核质量的原创性研究的学术报告。

研究团队与发表信息 本研究由安徽大学物理与光电工程学院的陈寿万、牛中明(通讯作者,zmniu@ahu.edu.cn)与北京师范大学天文系的田大川共同完成。相关论文《神经网络方法对原子核质量的预言》发表于《中国科学: 物理学 力学 天文学》2022年第52卷第5期,网络版于2022年4月19日发布。研究得到了国家自然科学基金(编号: 11875070, 11711540016)的资助。

学术背景与研究目的 原子核质量是原子核最基本的物理性质之一,它不仅蕴藏着丰富的核结构信息(如壳效应、形变等),是检验和发展各类核模型的基础,还在天体物理的核合成过程中扮演着至关重要的角色,例如直接影响核反应能并决定天体物理r-过程等核合成路径。尽管实验测量(如《原子质量评估 AME2020》)已积累了约3000个原子核的质量数据,但由于核相互作用的复杂性和量子多体计算的困难,发展能够全局、精确预言原子核质量(特别是远离稳定线的未知核区)的理论模型始终是核物理领域的一大挑战。

现有的全局核质量模型主要分为宏观模型(如液滴模型)、宏观-微观模型(如有限程液滴模型FRDM、Weizsäcker-Skyrme模型)和微观模型(如基于Skyrme或Gogny相互作用的Hartree-Fock-Bogoliubov模型,以及相对论平均场模型)。这些模型的预言精度已从最初的约3 MeV提高到了约500 keV水平,但仍无法满足奇特核结构研究和精密天体物理计算(要求精度优于100 keV)的需求。此外,在未知核区,不同模型的预言差异巨大,可达几十MeV,亟需发展新方法提高模型精度和外推能力。

近年来,机器学习(Machine Learning, ML)凭借其强大的数据拟合与模式识别能力,在多个科学领域取得突破。在核物理领域,机器学习也开始被用于预言原子核质量、半径、衰变寿命等多种性质。其中,神经网络是实现机器学习的重要工具。本研究旨在探索并改进神经网络方法在原子核质量预言中的应用。具体目标是:通过巧妙设计神经网络的输入层(引入物理信息)和输出层(结合现有核模型),构建能够更精确、更可靠地预言原子核质量的神经网络模型,并比较前馈神经网络(Feedforward Neural Network, FNN)与贝叶斯神经网络(Bayesian Neural Network, BNN)的性能差异,分析参数优化方法对预言效果的影响。

详细研究流程 本研究的工作流程主要包括神经网络模型设计、数据处理与准备、模型训练、结果验证与比较分析几个核心步骤。

  1. 神经网络模型设计:研究构建了一个包含输入层、一个隐藏层和输出层的全连接前馈神经网络。激活函数选用tanh函数。研究的核心创新点在于对输入和输出层的精心设计。

    • 输入层设计:研究比较了两种输入方案。一种是仅包含质子数(Z)和中子数(N)的双输入网络。另一种是四输入网络,在Z和N的基础上,额外引入了两个直接关联原子核关键物理效应的物理量:对效应参数δ(δ = [(-1)^N + (-1)^Z]/2,用于描述核子的奇偶性)和壳效应参数P(P = V_p * V_n / (V_p + V_n),其中V_p和V_n分别表示质子数或中子数与最近幻数的距离,用于量化核子远离闭壳层的程度)。引入这两个物理量旨在让网络能够直接“学习”到对效应和壳效应这些对质量有重要贡献的微观修正。
    • 输出层设计:研究同样比较了两种方案。一种是直接以实验质量M_exp作为网络学习目标。另一种是以现有核模型(本文选用简单的Bethe-Weizsäcker (BW) 液滴模型)的预言质量M_BW与实验质量M_exp之间的残差ΔM = M_exp - M_BW作为学习目标。这种设计让神经网络不是从头开始学习完整的质量公式,而是学习对现有粗略模型的修正项,被认为可以更高效地利用已知物理知识,提高学习效率和精度。
    • 网络结构:对于双输入网络,隐藏层神经元个数设为42个;对于四输入网络,隐藏层神经元个数设为28个。这使得两种网络的总参数量保持一致(均为169个),以确保比较的公平性。最终,研究对比了四种网络结构:FNN-I2a(输入Z,N, 输出M_exp)、FNN-I2(输入Z,N, 输出ΔM)、FNN-I4(输入Z,N,δ,P, 输出ΔM)和BNN-I4(结构与FNN-I4相同,但采用贝叶斯框架)。
    • 参数优化方法:对于FNN,研究使用均方根偏差作为损失函数,并尝试了Adam、SGD和RMSprop三种优化器,最终确定Adam优化器(学习率0.001)效果最佳。为减小随机初始化的影响,对每种FNN结构都从100组随机初始参数出发进行训练,最终取其预测平均值作为结果。对于BNN,其网络参数被视为概率分布。研究采用高斯分布作为参数先验和似然函数,利用马尔可夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)方法对参数的后验分布进行采样,从而获得预测值的均值(期望值)和不确定性(标准差)。
  2. 数据准备与处理:训练和测试所使用的原子核质量实验数据取自最新的《原子质量评估 AME2020》。为确保数据有效性,只选取了质子数和中子数均大于等于8的原子核,共计2457个。同时,按照标准方式拟合得到了BW质量公式(结合能公式)的参数,用于计算所有核的M_BW和残差ΔM。

  3. 模型训练与评估

    • 训练与内部验证:使用上述2457个原子核的全部数据,分别训练FNN-I2a、FNN-I2、FNN-I4和BNN-I4模型。训练完成后,计算各模型预言的质量以及由此导出的单中子分离能与实验值的方均根偏差(Root Mean Square deviation, RMS),作为评估模型精度的核心指标。
    • 外推能力检验:为测试模型对未知核区的预言(外推)能力,研究设计了严格的检验方案。以较早的《原子质量评估 AME2012》中包含的原子核作为训练集,以AME2020相较于AME2012新增的原子核作为独立的验证集。分别用神经网络模型和几个主流全局核质量模型(如DZ28, FRDM2012, HFB-31, KTUY, RMF, WS4)进行学习与预测,比较它们在验证集上的表现。
    • 深入分析与比较:为了探究FNN与BNN性能差异的根源,研究进行了一项关键实验:将BNN-I4训练得到的最优参数集,作为FNN-I4的初始化参数进行训练,该模型记为FNN-I4s。通过比较FNN-I4(随机初始化)、BNN-I4和FNN-I4s的性能,可以判断精度差异是源于网络结构本身还是参数优化算法。

主要研究结果 1. 神经网络显著提升了质量预言精度:如图1所示,与基础的BW模型(质量RMS偏差为3.068 MeV)相比,所有合理设计的神经网络模型都大幅降低了偏差。其中,直接学习质量的FNN-I2a效果提升有限,而学习残差的FNN-I2将质量RMS降至1.181 MeV,提升了61%。在输入层引入δ和P的FNN-I4进一步将RMS降至0.680 MeV,提升了78%。表现最佳的BNN-I4更是将RMS降至0.333 MeV,相比BW模型提升了89%。单中子分离能的预言精度也呈现类似的提升趋势。这充分证明了“输出层学习模型残差”和“输入层引入物理量”两个策略的有效性。

  1. 贝叶斯方法在参数优化上优势显著:FNN-I4与BNN-I4的网络结构完全相同,但BNN-I4的精度(0.333 MeV)远高于FNN-I4(0.680 MeV)。图2和后续分析揭示了原因:FNN使用的梯度下降类优化算法(如Adam)容易陷入局部最优,特别是对于与δ和P相关的参数,难以找到全局最优解。而BNN采用的MCMC采样方法能够在参数空间进行更全面、更鲁棒的探索。当把BNN-I4找到的优秀参数作为FNN-I4的初始值(即FNN-I4s模型)时,FNN-I4s能达到与BNN-I4几乎相同的精度(0.333 MeV)。这一结果直接表明,贝叶斯方法在优化此类复杂非线性网络的参数方面具有传统优化算法难以比拟的优势。

  2. 模型对核结构效应的描述得到改进:图3展示了BW模型的质量残差(M_exp - M_BW)在核素图上的分布,显示出明显的系统性偏差:在双幻核附近严重高估质量(负残差),在幻数之间的核区(如Z=40附近)则低估质量(正残差)。图4(a)-©对比了三种神经网络模型的质量残差(M_exp - M_pred)。可以看到,所有神经网络模型都显著减小了整体偏差。但FNN-I4的残差图中仍能看到在幻数核区存在残余偏差,并且有明显的奇偶振荡条纹。而BNN-I4和FNN-I4s(图4b,c)则几乎完全消除了这些系统性偏差和振荡,表明它们更好地捕捉并修正了对效应和壳效应。图4(d)-(f)展示了神经网络学习到的修正项S(Z,A)的分布,直观显示了神经网络是如何修正BW模型的不足的。

  3. 对具体核素链的预言与比较:研究选取了铅(Pb)同位素链和N=120同中子素链进行详细分析(图5,6)。对于Pb同位素链,BW模型在幻数N=126附近偏差超过10 MeV,且存在剧烈振荡。三种神经网络模型都大幅改善了预言,但FNN-I4的结果仍存在可见的奇偶波动,而BNN-I4和FNN-I4s的结果则与实验值符合得非常好。对于N=120同中子素链,BW模型的偏差高达20 MeV以上,同样被神经网络有效修正。

  4. 外推能力与主流模型对比:在外推能力测试中,以AME2012为训练集、AME2020新增核为验证集,FNN-I4和BNN-I4在验证集上的RMS分别为1.048 MeV和0.586 MeV。虽然相比学习集(0.685 MeV和0.302 MeV)有所上升(这是模型外推时的普遍现象),但其精度仍然优于或相当于DZ28、FRDM2012、HFB-31、KTUY和RMF等多个主流全局核质量模型。图7以锡(Sn)同位素链为例,展示了在极端丰中子区域,BNN-I4与其他模型预言的差异。虽然各模型在已知区预言接近,但在外推区差异显著(可达几十MeV),凸显了进一步改进模型的重要性,也展示了BNN-I4作为一种新方法的潜力。

研究结论与意义 本研究系统性地探索并成功应用了前馈神经网络和贝叶斯神经网络来高精度预言原子核质量。研究的主要结论是:通过将原子核对效应和壳效应的物理知识以特征量(δ, P)的形式嵌入神经网络输入层,并让网络学习现有核质量模型(BW模型)的残差而非质量本身,可以极大提升神经网络模型的预言精度和物理可靠性。更为重要的是,研究发现,对于此类复杂问题,贝叶斯神经网络框架相比传统前馈神经网络结合梯度下降优化具有显著优势,其采用的MCMC参数采样方法能更有效地找到全局优解,从而获得更稳定、更精确的预言结果,并能够量化预言的不确定性。

本研究的科学价值在于:第一,为高精度预言原子核质量提供了一种新的、有效的机器学习框架,其精度(~300 keV)已接近当前核物理研究的需求。第二,揭示了在机器学习模型中引入领域知识(物理引导)的重要性,这为将机器学习应用于其他核物理乃至更广泛的科学问题提供了方法论借鉴。第三,明确了贝叶斯方法在优化复杂神经网络参数、避免过拟合和陷入局部最优方面的实用价值。从应用角度看,本研究发展的高精度核质量预言模型,可用于改善天体物理r-过程核合成网络计算所需的核素输入数据,提高模拟的可靠性。同时,研究指出的未来方向,如引入更多物理约束、研究超重核的α衰变能等,对探索核素存在的极限具有重要意义。

研究亮点 1. 物理信息嵌入的创新设计:研究并非“黑箱”式地使用Z和N作为唯一输入,而是创造性地引入了直接表征对效应和壳效应的物理量δ和P,并将学习目标设定为对现有物理模型(BW公式)的修正。这种“物理引导的机器学习”策略显著提升了模型的精度、可解释性和外推可靠性。 2. 系统性的方法比较:研究不仅比较了不同输入输出结构,更关键的是深入对比了传统FNN与BNN的性能差异,并通过巧妙的“参数移植”实验(FNN-I4s),将性能差异的原因明确归因于参数优化算法,而非网络结构本身,突出了贝叶斯方法的优势。 3. 严谨的外推能力评估:研究采用了“用旧数据训练,预测新测量数据”的方式来严格评估模型的外推能力,并与多个主流微观、宏观-微观模型进行了横向对比,证明了本方法在实际应用中的竞争力和价值。 4. 对核结构效应的成功描述:研究通过分析残差图、修正项分布图以及对特定同位素/同中子素链的详细拟合,直观且有力地证明了优化后的神经网络模型(特别是BNN-I4和FNN-I4s)能够有效捕捉并修正传统液滴模型在壳层结构和奇偶效应上的系统性偏差。

其他有价值内容 论文在展望部分指出,未来可以通过在神经网络中考虑更多物理效应或约束(如形变、同位旋不对称性等)来进一步提升预言能力。此外,将发展的质量预言方法应用于计算超重核的α衰变能,对于理解原子核的存在极限具有重要价值。这为后续研究指明了清晰且有意义的路径。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com