深度学习在核质量与α衰变半衰期预测中的应用研究
一、 研究团队与发表信息
本项研究由李晨祺*(陈-祁 李*,Key Laboratory of Quark & Lepton Physics (MOE) and Institute of Particle Physics, Central China Normal University, China; Physics Department, University of California, Berkeley, USA)、童朝南、杜洪静和庞龙岗†(Key Laboratory of Quark & Lepton Physics (MOE) and Institute of Particle Physics, Central China Normal University, China)合作完成。研究成果以题为“Deep learning approach to nuclear masses and α-decay half-lives”的学术论文形式,发表于物理学领域的权威期刊 Physical Review C 第105卷第064306期,于2022年6月17日正式出版(收稿日期2022年3月2日,修订日期2022年5月8日,接受日期2022年5月31日)。
二、 研究背景与目标
本研究属于核物理与人工智能交叉领域。研究的核心科学问题是:如何利用先进的计算方法,更精确地预测原子核的基本性质,特别是核质量(结合能)和α衰变半衰期。
学术背景:原子核的基态质量(结合能)和α衰变半衰期是核物理中的关键基本量。精确计算和预测这些量对于检验第一性原理量子多体计算、验证液滴模型和壳模型等唯象模型至关重要。在天体物理中,例如理解宇宙中重元素产生的快中子俘获过程(r过程),需要极其精确的核质量数据。此外,这些性质的研究也关乎核稳定性,可能指引我们发现更多的超重核乃至“超重岛”。
然而,随着质子数(Z)和中子数(N)的增加,对重核进行第一性原理计算变得异常困难,面临着量子多体模拟中的“维度灾难”挑战。传统的机器学习方法,如贝叶斯神经网络(BNN)、径向基函数(RBF)、LightGBM等,已被用于预测核质量,通过修正现有唯象模型(如有限程液滴模型FRDM、Weizsäcker-Skyrme质量模型等)的残差,取得了显著进展。深度神经网络(DNN)因其强大的非线性变换和特征表示能力,在诸多科学领域表现出色,但在核质量预测任务上,先前的研究成果(均方根误差RMSD > 1 MeV)仍远逊于其他方法(如LightGBM可达~0.170 MeV)和最好的唯象模型(如改进的WS模型为0.336 MeV)。一个悬而未决的问题是:对于核质量(约2500个数据点)和α衰变半衰期(不足500个数据点)这类“小数据”回归问题,深度神经网络能否有效学习而不产生严重过拟合?此外,在核质量预测任务中学到的知识或模式,能否迁移并帮助α衰变半衰期的预测?
研究目标:本研究旨在探索深度神经网络在核物理小数据问题上的应用潜力。具体目标包括:1)设计并优化深度神经网络架构,显著提升核质量(结合能残差)的预测精度,超越此前DNN的表现并媲美其他先进方法;2)创新性地利用核质量预测任务中训练得到的DNN隐藏层输出,构建原子核的“词向量”(word-vector)表示,并将这种表示用于α衰变半衰期的预测,验证知识迁移的有效性;3)将DNN应用于改进针对偶偶核的α衰变半衰期三参数Gamow公式,探索其在小数据集上的泛化能力。
三、 详细研究流程
本研究主要包含三个核心流程:核质量(结合能残差)预测、基于核表示(词向量)的全局α衰变半衰期预测、以及针对偶偶核的α衰变半衰期预测改进。
流程一:核结合能预测 这是一个监督回归问题,目标是预测实验核质量与半经验模型(本研究使用了Bethe-Weizsäcker模型和液滴模型LDM)计算值之间的残差。 1. 数据与输入特征:使用了来自FRDM(2012)的2149个核素的质量数据。输入特征分为两种类型:第一种是3个原生特征(质子数Z、中子数N、质量数A);第二种是26个具有物理先验知识的特征(详见附录),包括Z、N、A、各壳层上的质子/中子数、价质子/中子数、N-Z、A^(2⁄3)、A^(-1⁄3)、Z/N是否为幻数、对能等。引入物理先验旨在帮助DNN在小数据集上更好地学习。 2. 神经网络架构与训练:采用了全连接前馈神经网络。网络结构具有可调性:总隐藏层数为N+2,其中第一个和最后一个隐藏层宽度为4×M个神经元,中间N个隐藏层宽度为M个神经元。研究者系统扫描了N(0, 2, 4, 6, 8, 10, 16)和M(8, 64, 256, 512)的组合以寻找最优结构。网络采用随机梯度下降算法优化,并在每层之间使用了批归一化(Batch Normalization)来加速训练并避免梯度消失/爆炸问题。 3. 性能评估方法:采用10折交叉验证来评估模型性能,以避免过拟合并得到稳健的误差估计。最终选择在验证集上均方根误差(RMSE)最小的网络结构。
流程二:全局α衰变半衰期预测(利用核词向量) 此流程旨在验证从核质量预测任务中学习到的核表示(词向量)对α衰变半衰期预测的帮助。 1. 词向量获取:使用在流程一中训练好的最优核质量预测DNN。将一个核素的输入(26维特征)送入网络,从某个隐藏层(如第一层)提取出的高维激活值向量(例如256维)即作为该核素的“词向量”。该向量被视为编码了核素基态信息的密集表示。 2. 数据与输入特征:使用了两个数据集:一个包含350个核素的α衰变数据,另一个包含486个核素的数据(附带实验Q值)。对于α衰变预测,输入特征需要包含母核和子核的信息。研究者比较了多种输入设置: * 原生特征:例如64维特征(母核和子核各自的30维特征,加上α粒子的Z、N、A,以及网络预测的Q值)。 * 词向量特征:例如517维特征(母核和子核各自的256维词向量,加上母核的奇偶性特征,以及网络预测的Q值)。 3. 网络架构与训练:针对α衰变任务使用了较小的网络结构(输入层,128, 256, 256, 256, 256, 1),并使用了tanh和ReLU激活函数。由于数据量更小,为了可靠评估性能,采用了 100次10折交叉验证,即重复随机划分数据100次,每次进行10折验证,最终得到1000个验证分数,以其分布来衡量模型性能。 4. Q值预测:α衰变能Q值(母核与子核及α粒子质量差)是半衰期预测的关键输入。研究者首先利用流程一训练好的质量预测网络来计算母核和子核的质量,进而得到Q值的网络预测值。结果表明,对于486个核素,Q值预测的平均RMSD仅为0.15 MeV。
流程三:偶偶核α衰变半衰期预测改进 此流程专注于偶偶核这一特定类型,旨在测试DNN对已有半经验公式的改进能力。 1. 基线模型:采用三参数Gamow公式:log10 T1/2 = a * Z/√Q + b * √Z + c。该公式对偶偶核的半衰期已有较好的预测能力(残差约为0.3627)。 2. 方法:使用DNN来预测Gamow公式计算值与实验值之间的残差。输入特征采用与流程二类似的64维原生特征,网络结构相同。 3. 对比方法:同时尝试用多项式拟合来修正Gamow公式的残差,以与DNN的性能进行对比。
四、 主要研究结果
1. 核结合能预测结果: * 架构优化:性能扫描表明,网络性能对宽度(M)敏感,对深度(N)相对不敏感。当使用26维物理先验特征时,网络宽度从M=8增加到M=64,RMSE从约1.5 MeV显著下降至约0.3 MeV。进一步增加宽度收益不大。最优网络结构为(N=8, M=256),即10个隐藏层(首尾层1024神经元,中间8层256神经元)。 * 预测精度:使用最优网络和26维特征进行10折交叉验证,得到的平均RMSD为 0.263 MeV。若仅使用3个原生特征(Z, N, A),RMSD为0.332 MeV。这表明引入物理先验知识为预测精度带来了约69 keV的提升。 * 外推能力:研究测试了网络对AME2020数据库中322个未参与训练(也未用于拟合LDM)的新核素的预测能力。DNN的预测RMSD为0.605 MeV,虽然高于训练时的验证误差,但远低于液滴模型LDM本身的误差(2.542 MeV)。这证明了DNN即使参数众多(约百万级),在此问题上仍表现出比参数较少的半经验模型更好的泛化(外推)能力。
2. 全局α衰变半衰期预测结果: * 词向量的有效性:在350个核素的数据集上,使用从核质量预测网络第一隐藏层提取的词向量作为输入,其预测性能(100次10折交叉验证平均RMSD约0.797 on log10 T1/2)优于使用64维原生特征的表现。这证实了从质量预测任务中学习到的核表示能够有效迁移并提升α衰变预测任务。 * 词向量来源深度的影响:研究比较了从不同隐藏层提取的词向量性能。发现浅层(如第一层)的词向量表现最好,随着层数加深,词向量对α衰变任务的帮助减弱。这表明深层网络更专注于学习与质量残差预测高度相关的特异性特征,而浅层特征则保留了更通用、可迁移的核素信息。 * 大规模数据集结果:在包含486个核素(附带实验Q值)的更大数据集上,使用64维原生特征进行预测,得到了 0.7315 的平均RMSD(100次10折交叉验证)。当数据集中有较多核素未出现在质量预测训练集中时(占比29%),其词向量质量下降,导致在此任务上原生特征表现更优。
3. 偶偶核α衰变半衰期预测改进结果: * DNN改进:使用DNN修正Gamow公式的残差,可将预测误差从0.3627显著降低至 0.2297(100次10折交叉验证平均)。 * 与多项式拟合对比:使用多项式拟合修正相同残差,最佳结果(二阶多项式)仅能将误差降至0.3052,且高阶多项式因过拟合导致性能更差。这证明了在小数据问题上,DNN的泛化能力优于传统的多项式拟合。 * 公式启发:研究者尝试用二阶多项式拟合DNN的预测结果,得到了一个解析表达式。基于此,他们提出了一个修正的Gamow公式:log10 T1/2 = a * Z/√Q + b * √Z + c * Z^2 + d * Z*N + e * Q + f * Z + g。该公式在交叉验证中将误差降低至约0.25,性能优于原始Gamow公式,虽略逊于DNN,但提供了更具物理可解释性的形式。
4. 相关分析与讨论: * 特征相关性:通过计算皮尔逊相关系数,分析了26个特征与质量残差(针对LDM和BWM)的关联性。发现壳层结构(特别是第8壳层中子数、第7壳层质子数)和幻数特征与残差有强相关性,价核子数也相关。这从数据角度验证了这些物理先验的重要性,也解释了为何将其作为输入能提升DNN性能。 * 结合能每核子与价核子数的关系:图表显示,结合能每核子(BE/A)的残差与价质子/中子数呈带状分布,不同带对应于不同的价壳层。进一步分析发现,轻核的BE/A与价核子数呈负相关,而重核呈正相关,揭示了质量公式中壳修正随质量区域变化的复杂性。
五、 研究结论与价值
结论:本研究成功证明,通过精心设计的网络架构和引入物理先验,深度神经网络能够在核质量预测这一小数据问题上达到很高的精度(σ = 0.263 MeV),其外推能力甚至优于传统液滴模型。更重要的是,研究提出并验证了一种“表示学习”的新途径:利用在核质量预测任务上预训练的DNN生成原子核的“词向量”表示。这种表示编码了核素的量子属性信息,能够有效迁移到α衰变半衰期预测等关联任务中,提升预测性能。此外,DNN在改进偶偶核α衰变半衰期经验公式方面也显示出强大能力。
科学价值: 1. 方法论价值:为核物理中的“小数据”问题提供了深度学习解决方案的新范式,特别是展示了迁移学习和表示学习在核物理领域的应用潜力。通过预训练-微调或特征共享,可以整合不同任务(如质量、衰变、半径等)的异构数据,缓解单一任务数据不足的困境。 2. 预测工具价值:提供了高精度的核质量与α衰变半衰期预测模型。精确的核质量数据对于核天体物理(如r过程模拟)和超重核探索至关重要。可靠的α衰变半衰期预测有助于实验规划和新核素鉴定。 3. 物理洞察:通过分析DNN所依赖的特征及其学习到的表示,可以反哺我们对核结构物理的理解。例如,特征相关性分析定量化地确认了壳效应和幻数在核质量系统学中的关键作用。从DNN中提取修正项可能启发新的唯象公式(如修正的Gamow公式)。
六、 研究亮点
七、 其他有价值内容
本研究附录详细列出了用于网络输入的各种特征组合,为后续研究者复现或改进工作提供了明确的信息。这些特征包括26维核素特征、4维奇偶性特征、以及为α衰变任务设计的11维、14维、64维原生特征和517维词向量特征组合。这种透明度有利于学术共同体的验证和发展。
此外,研究团队公开了所使用的数据来源,包括FRDM(2012)、AME2020以及两个α衰变数据集,确保了研究的可重复性。文末的致谢部分提到了国家自然科学基金和华为技术有限公司的支持,以及在中国华中师范大学核科学计算中心进行的计算,体现了研究的基础设施和资源背景。