本综述论文发表于《中国科学:物理学 力学 天文学》2022年第52卷第5期,由复旦大学现代物理研究所及核物理与离子束应用教育部重点实验室的何万兵、马余刚,以及中国科学院上海应用物理研究所与中国科学院大学的何俊杰、王睿共同撰写。文章系统地梳理和介绍了机器学习技术在原子核物理研究领域中的应用现状、方法和具体案例,旨在向物理学界同仁展示这一交叉领域的巨大潜力和发展方向。
文章首先从宏观层面阐述了机器学习的崛起及其在粒子物理与高能物理领域广泛应用的背景下,为何核物理研究同样可以并应该引入机器学习方法。其核心论点是,核物理研究,无论是实验数据分析还是理论计算,都面临着从海量复杂数据中提取信息、求解高难度多体问题等挑战,而机器学习正是处理这类问题的有力工具。文章将机器学习的基本概念分解为数据、模型、学习策略和任务四个部分进行阐述,为后续的具体应用案例提供了清晰的理论框架。
在数据类型方面,文章指出核物理研究中的数据形式多样,包括多维空间矢量(如探测器多通道信号)、二维/三维图像(如能量沉积分布)、点云(如离散粒子轨迹)以及拓扑图(如反应路径关系)。文章特别强调,针对不同数据结构选择适当的表示方法和网络模型(如图像用卷积神经网络CNN,点云用点云网络,拓扑关系用图神经网络GNN)是有效应用机器学习的关键前提。
关于算法模型,文章回顾了从传统的K均值聚类、主成分分析(PCA)、决策树、支持向量机(SVM)到当前主流的各类神经网络模型的发展。文章指出,深度神经网络,特别是卷积神经网络,因其强大的特征提取能力,已逐渐成为物理数据分析中最主要的模型。文中还提及了在模型中嵌入物理先验知识可以提升性能,以及循环神经网络(RNN)、长短时记忆网络(LSTM)在处理序列或喷注(jet)结构数据中的优势。
在学习策略部分,文章详细区分了监督学习、无监督学习、弱/半监督学习和强化学习。监督学习依赖带标签的数据(通常来自理论模拟),是实验数据分析中应用最广泛的策略,用于径迹重建、事例筛选等。无监督学习则直接从数据本身发现模式,适用于数据预处理(如聚类、降维)或探索新物理现象。弱监督学习在仅有部分标签或已知数据整体分布比例的情况下发挥作用。强化学习则适用于与环境动态交互的决策问题,如在粒子加速器控制中的应用。
关于任务,文章列举了机器学习在物理学中的典型应用场景:1) 数据预处理,如聚类和降维;2) 分类,如在高能对撞实验中从海量本底中筛选出稀有信号事例;3) 回归,如精确刻度探测器响应、估计喷注在核介质中的能量损失;4) 函数近似,如构建快速模拟模型、生成对抗网络(GAN)和标准化流(Normalizing Flows)用于数据生成、以及进行无似然推断等。
文章的核心部分,通过五个具体的应用案例,详细展示了机器学习在核物理不同方向上的实践。
第一个案例展示了监督学习在提取原子核初始结构信息中的应用。研究者使用AMPT模型模拟了具有不同α团簇结构(如三角形构型)和传统Woods-Saxon分布的碳-12(¹²C)和氧-16(¹⁶O)核与金-197(¹⁹⁷Au)靶在相对论能量下的对撞。他们将末态带电π介子的横动量-方位角分布转化为二维图像作为输入,构建了一个结合深度卷积神经网络(用于特征提取)和贝叶斯全连接层(用于防止过拟合)的混合模型。该模型成功以高准确率(¹²C达95%,¹⁶O达99%)区分了初始核的不同结构,证明了在相对论重离子碰撞中观测初始核子分布非均匀性(即α团簇效应)是可行的。然而,当任务从分类转为定量回归(即预测初始状态中团簇结构与均匀结构的混合比例)时,模型预测的涨落较大,表明该任务的难度更高。
第二个案例展示了无监督学习在分析实验数据以研究原子核液气相变中的应用。研究直接使用美国TAMU K500装置上47 MeV/u的⁴⁰Ar轰击²⁷Al和⁴⁸Ti靶的实验数据。他们构建了一个自编码器(Autoencoder),输入是类弹碎片(quasi-projectile)的带电粒子多重数分布谱。自编码器成功地将高维分布数据压缩成一个一维的“隐变量”(latent variable)。分析发现,该隐变量随反应温度(由碎片横向动能涨落提取)和激发能的变化呈Sigmoid函数特征,清晰地将低温低激发能区与高温高激发能区识别为两种不同的“相”,中间过渡区对应两相混合。此外,研究者还采用了一种基于“假设标签”的贝叶斯神经网络方法,通过不断试探不同的临界温度标签来训练网络,最终根据网络分类准确率随假设临界温度的变化曲线,确定了液气相变的临界温度约为(9.24 ± 0.04) MeV,与传统的量热曲线法结果一致。这个案例是无监督学习直接从实验数据中提取物理相变信息的典范。
第三个案例介绍了机器学习在理论计算中的应用——神经网络量子态。该方法用人工神经网络(如受限玻尔兹曼机RBM或深度神经网络)直接表示量子多体系统的波函数,作为变分法中的试探波函数。通过蒙特卡洛采样计算能量期望值,并利用反向传播算法优化网络参数以最小化系统能量,从而求解基态。文章以氘核和几个Ξ超核为例,展示了该方法能有效求解薛定谔方程,得到与实验值(氘核结合能-2.23 MeV)或其他数值方法(如超球谐展开HHE)相符的结果。这为求解复杂的原子核多体问题提供了一种全新的、有潜力的途径。
第四个案例探讨了贝叶斯神经网络在原子核性质拟合与预测中的应用。与传统神经网络输出确定值不同,贝叶斯神经网络的权重和偏置是概率分布,其训练目标是优化这些分布的参数。这种特性使其能天然地给出预测结果的不确定度(误差),并具有更好的泛化能力,在小数据集上也能有效工作。研究者以原子核电荷半径为例,将核子的质子数、中子数、结合能、分离能等作为输入,电荷半径实验值作为输出进行训练。模型在测试集上预测的均方根误差约为0.0265 fm,优于许多传统经验公式。更重要的是,模型成功学习到了原子核的壳层效应,在同位素链(如Sr, Ba)的半径变化趋势中,在幻数附近出现了预期的拐点,显示出其捕捉物理规律的能力。
第五个案例介绍了机器学习在探测器数据分析中的实际应用——活性靶时间投影室(AT-TPC)中的事件鉴别。AT-TPC能产生包含粒子径迹三维信息的复杂数据。研究者利用Geant4模拟了12C束流与甲烷气体的反应,生成带电粒子径迹的二维投影图像。他们采用了在大型图像数据库ImageNet上预训练好的VGG16卷积神经网络模型,并利用模拟数据对其进行微调(fine-tuning)。该模型在区分束流与氢核还是碳核发生反应的事件中,达到了接近100%的鉴别精度,展示了迁移学习在解决核物理实验特定问题中的高效性。
文章最后对机器学习在核物理中的应用进行了总结与展望。作者指出,机器学习已在径迹重建、事例筛选等方面展现出超越传统方法的性能,并正在向探测器电子学(如FPGA上的实时触发算法)、无监督数据分析、量子多体问题求解等更广阔领域拓展。同时,文章也指出了当前面临的挑战,例如对数据涨落和模型不确定性的量化仍需加强(贝叶斯方法计算成本高),以及如何将物理先验更有效地整合到模型中以提升其可解释性和物理发现能力。文中提到的概率编程框架(如Edward)和图神经网络在下一代高粒度探测器中的应用,代表了未来重要的技术发展方向。
本综述的重要价值在于:1) 系统性:为核物理研究者提供了一个从机器学习基础概念到具体应用的清晰路线图。2) 前瞻性:不仅总结了已有成果,更指出了该交叉领域的未来发展方向和关键挑战。3) 示范性:通过五个涵盖理论、实验、不同学习策略的详实案例,具体而微地展示了如何将机器学习工具“落地”到实际的核物理研究问题中,极具参考和启发意义。该文有力地论证了机器学习正在成为推动核物理前沿研究不可或缺的重要力量。