大型语言模型在漏洞检测与修复中的应用：文献综述与未来展望

分享自：
大型语言模型在漏洞检测与修复中的应用：文献综述与未来展望

软件工程
工程学
信息科学
人工智能
计算机科学
期刊:ACM Trans. Softw. Eng. Methodol.DOI:10.1145/3708522
【点击此处】阅读全文、收藏及针对性提问
本文献属于一篇系统性的文献综述（Systematic Literature Review）论文，因此我将根据类型b的要求，为您撰写一篇学术报告。
大型语言模型（LLMs）在漏洞检测与修复领域的应用：文献综述与发展路线图 学术报告
本文题为《Large Language Model for Vulnerability Detection and Repair: Literature Review and the Road Ahead》，由来自新加坡管理大学的Xin Zhou和David Lo，以及中国扬州大学的Sicong Cao和Xiaobing Sun共同撰写，于2024年发表在学术期刊《ACM Transactions on Software Engineering and Methodology》上。论文的核心主题是对现有利用大型语言模型进行软件漏洞检测与修复的研究工作进行全面的梳理、分析与总结，旨在填补该领域尚无系统性综述的空白，并为未来的研究方向绘制清晰的路线图。
一、 研究现状与文献概况 本文首先通过一个精心设计的系统文献综述流程，汇集并筛选了58篇核心研究论文，时间跨度为2018年至2024年3月。分析发现，该领域的研究兴趣呈显著增长态势，尤其是2024年发表的研究占据了相当大的比重。其中，顶级软件工程会议ICSE是发表相关研究最多的平台。这58项研究共涉及37种不同的大型语言模型，但在不同任务中呈现不同的偏好：在漏洞检测任务中，编码器架构（Encoder-only）的轻量级模型（如CodeBERT）占主导地位，使用频次达到47.8%；而在漏洞修复任务中，商用模型（如GPT-3.5/4）和解码器架构（Decoder-only）的大参数量模型表现更为突出，合计占比超过三分之二。这种差异揭示了两种任务的不同特性：检测任务更依赖对代码的精确理解（适合编码器模型），而修复任务则对代码生成能力要求更高（适合生成式解码器模型）。
二、 漏洞检测中的大型语言模型适配技术 针对“如何使大型语言模型适应漏洞检测任务”这一核心问题，论文对现有技术进行了系统分类。研究发现，绝大多数研究（约73%）采用微调的方法。在微调的基础上，研究者们发展出多种优化策略：1) 以数据为中心的创新：旨在解决数据集中的类别不平衡、标签噪声等问题。例如，采用过采样技术、仅从“阳性”（漏洞）和“未标记”数据中学习的PU学习框架，以及通过扰动代码标识符生成对抗性训练样本以增强模型鲁棒性的方法。2) 与程序分析结合：为了弥补大型语言模型对代码结构信息捕捉的不足，研究者们将静态分析工具（如Joern）提取的程序依赖图、控制流图等信息融入模型，或直接将其作为模型预训练的目标，以增强模型对程序逻辑的理解。3) 与其它深度学习模块结合：主要是将大型语言模型与图神经网络或双向长短期记忆网络结合，以更好地处理代码的结构特征或解决长代码输入的模型限制。4) 领域特定的预训练：在通用代码语料库预训练的基础上，使用漏洞相关数据或代码分析任务（如掩码语言建模、对比学习、预测程序依赖关系）进行二次预训练，使模型更“精通”漏洞领域知识。5) 因果学习：针对大型语言模型可能学到与漏洞标签虚假相关的非鲁棒特征的问题，有研究引入因果学习理论，通过识别并消除这些伪特征，提升模型在面对分布外数据或扰动数据时的鲁棒性。此外，还有约17%的研究采用提示工程，通过精心设计的指令、角色描述、漏洞信息注入及链式思维等方法，引导大型语言模型进行零样本或少样本漏洞检测。另有约10%的研究探索了检索增强技术，通过从知识库或训练集中检索相似漏洞代码及其信息，作为上下文提示大型语言模型进行更准确的判断。
三、 漏洞修复中的大型语言模型适配技术 在漏洞修复任务中，主流技术同样分为微调（约63%）和提示工程（约37%）两大类。微调方面的创新包括：1) 以数据为中心的创新：认识到仅输入漏洞代码片段是不够的，研究者尝试融入额外相关信息以提升修复质量，如抽象语法树、漏洞描述、CWE网站上的漏洞示例、诱发漏洞的提交记录等。对于超出模型长度限制的长函数，还采用了分块输入、代码精简等技术。2) 以模型为中心的创新：改进模型架构本身，例如借鉴视觉Transformer中的查询机制来定位漏洞代码区域，或训练模型同时执行修复和生成解释说明的双重任务。3) 领域特定的预训练：利用大规模的错误修复数据进行预训练，再将模型迁移到漏洞修复任务上。4) 强化学习：使用包含语法和语义奖励的强化学习框架来优化模型，使其生成的补丁在代码相似度和语义一致性上更优。提示工程方面，则主要通过在提示中整合漏洞描述、漏洞位置、漏洞相关的语义信息以及程序分析得到的模式等，来提升大型语言模型在零样本或少样本情况下的修复能力。
四、 数据集特性与部署策略的现状分析 论文从数据准备和部署实施两个阶段对现有研究的实践进行了评估。在数据层面，输入粒度上，当前研究高度集中于函数级或行级分析，对类级或仓库级等更大粒度的探索严重不足，限制了模型处理跨函数复杂漏洞的能力。数据质量上，漏洞检测数据集普遍依赖基于提交历史启发的自动标注方法，存在标签噪声问题；而漏洞修复数据集则大多缺乏配套的测试用例，难以全面评估生成补丁的正确性。在部署层面，当前研究存在明显短板：几乎所有研究都仅停留在使用静态历史数据进行离线评估的阶段，未能与开发者的工作流（如IDE）集成；同时，绝大多数方案缺乏与开发者的有效交互机制（如提供可理解的解释），这阻碍了其在真实场景中获得开发者信任和广泛应用。
五、 当前研究的局限性与未来路线图 基于上述综述，论文提炼出当前领域的六大核心局限：1) 输入粒度过小，局限于函数/行级别；2) 缺乏高质量数据集，特别是带测试用例的修复基准；3) 漏洞数据的复杂性（如跨过程、罕见CWE类型）给模型带来挑战；4) 过度依赖轻量级大型语言模型，对大模型的探索不足；5) 缺乏对部署的考量，如用户交互与工作流集成；6) 准确性与鲁棒性有待提升。为了指明未来方向，论文提出了一个清晰的三阶段发展路线图。第一阶段是逐个探索未充分研究的模块，例如：构建高质量的、经过人工验证的漏洞检测测试集；利用新型长上下文大型语言模型探索仓库级检测与修复；开发面向漏洞领域的定制化大型语言模型；尝试更高级的大型语言模型使用范式（如智能体模式、工具调用）和适配技术；以及为模型增添支持部署的功能。第二阶段是将这些新的模块与现有成熟路径结合，探索全新的组合，例如使用定制化模型结合智能体技术实现仓库级修复，并将结果与开发者工具集成。第三阶段则是在积累了足够多的探索成果后，总结经验，系统性设计并最终实现能够在多个粒度上有效工作、易于部署且高度可靠的下一代大型语言模型驱动的漏洞管理解决方案。
六、 论文的意义与价值 本文的意义和价值主要体现在以下几个方面：首先，它首次系统地、结构化地对大型语言模型在软件安全关键任务——漏洞检测与修复——中的应用研究进行了全景式扫描与深度剖析，为学术界和工业界提供了一个宝贵的知识地图。其次，论文不仅总结了“是什么”和“怎么做”，更通过严谨的分析指出了“做得怎么样”以及“哪里还不够”，揭示了研究现状与理想目标之间的关键差距。最后，也是最具前瞻性的一点，论文超越了简单的总结，创造性地提出了一个分阶段的、模块化的未来研究路线图，这不仅为研究者提供了具体、可操作的创新思路，也为整个领域的演进描绘了清晰的愿景，具有重要的战略指导意义。通过这篇综述，作者们不仅梳理了过去，更旨在积极地塑造该领域的未来研究方向，推动大型语言模型技术更扎实、更有效地服务于软件安全保障的实践。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问