文献信息

类型:文献全文
标题:高能物理喷注标记的深度学习模型综述
DOI:
状态:
已完成
补充信息:
备注:
积分奖励:200
发布时间:2026-01-04 10:03:34
应助内容
文献解读

高能物理喷注标记的深度学习模型综述

《高能物理喷注标记的深度学习模型综述》学术报告

作者高六龙、黄正坤、姜晓巍、*孙功星、李佳枫来自中国科学院高能物理研究所和中国科学院大学,该综述于2026年1月2日在《计算机工程》(ISSN 1000-3428,CN 31-1289/TP)网络首发,DOI:10.19678/j.issn.1000-3428.0252689。

本文系统回顾了深度学习在高能物理(High Energy Physics, HEP)喷注标记(jet tagging)领域近十年的发展历程。随着大型强子对撞机(LHC)产生海量碰撞数据,传统基于量子色动力学(QCD)的手工特征提取方法面临效率瓶颈。深度学习在计算机视觉和自然语言处理等领域的成功,促使研究者探索其在喷注分类任务中的应用,旨在通过自动化特征学习提升标记效率,从而更高效地从实验数据中提取物理信息。

喷注表示方法的演进
综述首先分析了三种主流喷注表示范式:基于图像的表示将喷注转化为二维灰度图像,利用卷积神经网络(CNN)处理,但存在信息稀疏性问题;基于序列的表示受自然语言处理启发,通过循环神经网络(RNN)或递归神经网络(RecNN)处理有序粒子序列,但人为排序违背量子力学原理;基于集合的表示将喷注视为粒子云(particle cloud),采用Deep Sets框架或动态图卷积(EdgeConv)处理,其中ParticleNet模型通过k近邻图结构捕获局部几何特征,而Particle Transformer(ParT)创新性地引入粒子相互作用矩阵,通过注意力机制实现全局特征交互。实验数据显示,在顶夸克标记任务中,ParT的AUC达0.9858,背景拒绝率(rej30%)较传统方法提升近两个数量级。

等变性神经网络的技术突破
针对喷注的洛伦兹对称性(Lorentz symmetry),研究者开发了多种等变神经网络(equivariant neural networks)。Lorentz Group Network(LGN)通过Clebsch-Gordan张量积层实现群等变变换,但计算复杂度高;LorentzNet采用闵可夫斯基内积构建不变特征,在参数量减少90%的情况下保持等效性能;基于克利福德代数的CGENN和L-GATR模型进一步将几何代数融入架构设计,其中L-GATR在JetClass数据集上实现86.5%准确率,较基准模型提升4.3个百分点。这些模型通过数学约束确保物理一致性,显著提升了从模拟数据到真实探测器的泛化能力。

喷注基础模型的探索
受大语言模型(LLMs)启发,研究者开始构建喷注基础模型(foundation models)。OmniJet-α通过矢量量化变分自编码器(VQ-VAE)将喷注离散化为token,结合自回归Transformer实现生成与分类任务迁移;Masked Particle Modeling(MPM)采用掩码预训练策略,在微调阶段分类性能提升12%;OmniLearn模型通过共享表示模块实现多任务协同,在CMS真实数据上的训练效率提升2倍。这些模型展现出处理亿级样本的潜力,但面临计算资源消耗大的挑战,如OmniLearn预训练需128块GPU运行200个epoch。

性能对比与局限分析
通过对Top、Quark-Gluon和JetClass三大基准数据集的系统测试(表5-7),Pelican模型在顶夸克标记中AUC达0.9870,L-GATR在JetClass十类分类任务中背景拒绝率最高达37736倍,但现有模型对夸克-胶子分辨的准确率仍不足85%。模型复杂度分析(表8)显示,Mipart通过注意力优化将参数量压缩至720k,计算量降低53%,而轻量化设计如动态稀疏注意力可使推理速度提升4倍。

未来研究方向
综述提出三个关键发展方向:1)构建更完备的真实喷注数据集,需整合CERN开放数据中的PB级原始信息;2)改进等变网络架构,需引入动量-能量守恒等更多物理对称性,同时降低几何代数运算开销;3)优化基础模型训练范式,重点解决喷注token化方法与多模态特征融合问题。值得注意的是,二进制分词技术BBT-Neutron通过数值编码创新,为处理科学数据提供了新思路。

该综述的价值在于首次系统梳理了喷注标记深度学习的理论框架与技术路线,揭示了物理先验与模型架构的协同优化规律。其提出的"表示-对称-基础模型"三维发展体系,不仅指导高能物理实验的数据分析,也为强关联系统的机器学习研究提供了范式参考。随着LHC升级计划(HL-LHC)的实施,这类方法将在新物理探测中发挥更重要作用。