软件安全中的大语言模型：漏洞检测技术与见解综述

分享自：
软件安全中的大语言模型：漏洞检测技术与见解综述

工程学
信息科学
人工智能
计算机科学
软件工程
期刊:acm comput. surv.DOI:10.1145/3769082
【点击此处】阅读全文、收藏及针对性提问
关于《LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights》的学术报告
本文是由Ze Sheng、Zhicheng Chen、Shuning Gu（均来自Texas A&M University）、Heqing Huang（来自City University of Hong Kong）、Guofei Gu和Jeff Huang（均来自Texas A&M University）共同撰写的综述文章，发表于《ACM Computing Surveys》期刊，出版时间为2025年11月。
论文主题与发表背景 本文聚焦于一个新兴且快速发展的交叉领域：利用大语言模型进行软件漏洞检测。随着软件系统日益复杂，传统的静态和动态分析方法在效率、误报率和可扩展性方面面临严峻挑战。与此同时，以Transformer架构为核心的大语言模型在自然语言处理任务中展现出强大能力，并迅速扩展到代码理解与生成领域。这一趋势引发了安全研究社区的极大兴趣，例如DARPA在2024年举办的AIxCC竞赛，就旨在探索基于通用LLM的漏洞检测、复现和修复。然而，尽管相关研究论文数量激增（尤其在2023-2025年），但缺乏对这一领域进行系统性梳理和审视的综述文章。本文正是为了填补这一空白，旨在对LLM在漏洞检测中的应用进行全面、结构化的分析，总结现有技术、评估方法、挑战，并指明未来研究方向。
论文主要观点与论述
观点一：LLM已成为漏洞检测领域变革性工具，研究趋势正从编码器架构转向大型仅解码器模型。 文章指出，LLM通过代码结构分析、模式识别和修复建议生成，为漏洞缓解提供了一种新颖的方法。通过对超过80篇论文（其中约60篇高度相关）的分析，作者观察到该领域研究数量在近三年（2023-2025年）呈现快速增长。在模型选择上，研究趋势发生了明显转变。早期研究多依赖编码器（Encoder-only）模型（如CodeBERT、GraphCodeBERT）或编码器-解码器（Encoder-decoder）模型（如CodeT5），这类模型在代码理解任务上表现良好。然而，近期的研究越来越多地采用大型仅解码器（Decoder-only）模型，如GPT系列和Code Llama。据统计，在微调实验中，仅解码器模型的使用占比高达65%。这一转变主要归因于这些大型模型强大的泛化能力和代码生成潜力。文章特别指出，GPT-4是应用最广泛的模型，在58项研究中出现了29次。这种转变意味着研究者正从依赖专门化、小规模预训练模型，转向利用通用、大规模LLM的强大能力，并通过提示工程（Prompt Engineering）和微调（Fine-tuning）来适应特定安全任务。
观点二：现有研究在目标编程语言和数据集上存在显著不平衡与局限性，制约了LLM的实际应用能力。 文章通过系统分析揭示了当前研究生态的两个关键瓶颈。首先，语言分布高度集中：约50%的研究专注于C/C++语言，21.1%针对Java，11.8%针对Solidity（智能合约语言），其他语言（如Python、PHP、Go）仅占16.6%。这种分布反映了内存安全漏洞（C/C++）和特定应用领域（如区块链、企业级应用）的迫切需求，但也意味着LLM在其他广泛使用的语言（如JavaScript、Python）上的漏洞检测能力研究不足。其次，数据集存在“范围缺口”。当前绝大多数基准数据集（如Big-Vul、Devign）集中在函数级（Function-level）或文件级（File-level）的漏洞检测。虽然这些数据集便于模型训练和评估，但它们与真实软件开发场景严重脱节。在现实中，漏洞往往涉及跨文件依赖、长调用链和复杂的项目间交互。文章尖锐地指出，缺乏能够反映真实世界复杂性的仓库级（Repository-level）数据集，是阻碍LLM从实验室走向实际应用的主要障碍之一。此外，现有数据集普遍面临数据泄露、标签错误、规模有限和漏洞类型覆盖不均（例如，内存相关漏洞数据远多于逻辑漏洞）等问题，影响了模型评估的可靠性和泛化性。
观点三：LLM用于漏洞检测的技术体系可归纳为三大类：代码预处理、提示工程和模型微调，每种技术各有其适用场景与挑战。 文章对现有技术进行了系统性的分类和评述： 1. 代码预处理技术：旨在优化LLM有限上下文窗口的利用并增强其对代码语义的理解。常用方法包括： * 抽象语法树分析：将代码转换为树状结构，保留语法关系，用于代码分割或结合图神经网络进行分析。 * 数据流/控制流分析：通过构建数据流图和控制流图，为LLM提供程序内部数据依赖和执行路径的额外上下文信息，已被证明能显著提升漏洞识别性能。 * 检索增强生成：为LLM引入外部知识库（如CWE数据库、漏洞报告），以弥补模型在特定领域知识的不足，并减少“幻觉”。 * 程序切片：通过提取与潜在漏洞触发点相关的关键代码行，过滤无关代码，帮助模型聚焦。 * LLVM中间表示：将不同语言的源代码统一转换为LLVM IR，提升检测方法的通用性。 文章指出，约41.3%的研究采用了此类技术。然而，其有效性在处理复杂的跨文件漏洞时会显著下降。随着LLM本身上下文窗口的扩大和能力增强，模型自身性能的提升可能逐渐超越这些预处理技术带来的收益。 2. 提示工程技术：通过精心设计输入指令来引导LLM输出更准确的结果，是成本较低且广泛使用的策略。关键方法包括： * 思维链提示：引导模型进行分步推理（如先总结功能，再评估潜在错误，最后判断是否脆弱），对于大型模型（>100亿参数）效果显著，能提升生成结果的精确度。 * 少样本学习：在提示中提供少量带标签的示例，帮助模型快速理解任务要求，对于能力有限的较小模型更为有效。 * 多智能体与模板：使用多个具有特定角色（如代码总结、漏洞识别）的提示模板，分工协作完成复杂的检测任务。 文章发现，提示工程的效果与模型规模密切相关。大模型更适合思维链等复杂提示，而小模型则更适合零样本或少样本等简洁提示。 3. 模型微调技术：通过在特定漏洞数据集上对预训练LLM进行额外训练，使其适应漏洞检测任务。主要分为： * 全参数微调：更新模型所有权重，适应性强但计算成本高，通常用于参数量较小的模型（如CodeBERT）。 * 参数高效微调：仅训练一小部分参数（如LoRA, QLoRA），在保持大部分预训练知识的同时高效适配新任务，是目前微调大型LLM（如Code Llama）的主流方法。 * 判别式与生成式微调：判别式微调将任务视为分类问题（输出是否脆弱），而生成式微调则让模型生成漏洞描述或修复代码。 研究表明，对大型模型（>100亿参数）进行参数高效微调能取得接近0.9的F1分数，效果最佳。然而，微调的成功高度依赖于高质量、大规模的数据集，而计算资源和数据质量仍是主要挑战。
观点四：LLM在漏洞检测领域面临四大核心挑战，并对应提出了明确的未来研究方向。 文章基于现有研究的不足，凝练出以下挑战及解决思路： 1. 研究问题范围狭窄：当前研究过度集中于“给定代码片段是否脆弱”的二元分类，忽略了真实开发中的完整工作流。未来方向应拓展至：全量/增量检测（分析整个代码库或新提交的代码）、漏洞复现（生成触发漏洞的输入以验证检测结果）、漏洞修复（生成并通过测试的补丁），以及针对特定漏洞类型（如内存错误、注入漏洞）的专项检测和漏洞分类与严重性评估。 2. 漏洞语义表示复杂：复杂漏洞涉及跨文件依赖、长调用栈和 intricate 控制流，超出了当前LLM主要处理的函数级代码片段的范畴。未来方向包括：动态代码知识扩展（让LLM能访问和理解整个仓库代码）、优化代码表示（探索更高效的图表示融合方法）、开发专用LLM智能体进行任务分解，以及与外部工具（如静态分析器）深度集成。 3. LLM的内在局限性：包括对数据扰动的鲁棒性不足、输出结果的随机性以及可解释性差（即使判断正确，也常给出错误的解释）。未来方向在于：对前沿LLM进行针对性微调（如针对特定漏洞类型或特定代码库），采用集成学习结合多个模型预测，以及引入自适应学习机制以持续更新模型知识应对新型威胁。 4. 高质量数据集匮乏：这是制约领域发展的根本性问题。现有数据集存在标签错误、数据泄露、规模小、范围窄等缺陷。未来方向是构建更高质量、更具针对性的数据集：创建包含详细调用序列和控制流信息的仓库级数据集；针对不同的研究问题（如修复、复现）构建专项数据集；利用合成数据生成技术缓解数据泄露并覆盖长尾漏洞类型；整合来自多个研究的已验证样本，形成社区维护的可靠基准。
论文的价值与意义 本文作为该领域的首篇系统性综述，具有重要的学术价值和实践指导意义。其贡献主要体现在三个方面： 1. 提供了系统化的分析框架：文章通过构建一个统一的框架（围绕四个核心研究问题：模型、评估、技术、挑战），系统性地梳理和分析了LLM在漏洞检测中的应用模式与变体，为后续研究者提供了清晰的知识图谱和分类体系。 2. 揭示了关键差距与挑战：文章不仅总结了技术进步，更深刻指出了当前研究在数据集（范围窄、质量低）、问题定义（脱离实际）、模型能力（处理复杂上下文不足）等方面的核心瓶颈。这些洞察对于引导未来研究资金和努力投向最亟需解决的问题至关重要。 3. 指明了清晰的未来路径：基于对挑战的分析，文章提出了具体、可行的研究方向，如构建仓库级数据集、发展面向真实工作流（检测-复现-修复）的集成方法、探索神经符号结合等。这些建议为学术界和工业界的后续工作提供了宝贵的路线图。
这篇综述及时地捕捉并梳理了一个快速演进领域的研究现状，既肯定了LLM为软件安全带来的变革潜力，也清醒地指出了将其应用于实际、复杂安全场景所必须跨越的鸿沟。它不仅是当前研究状态的“快照”，更是推动该领域迈向更成熟、更实用阶段的“导航图”。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问