分享自:

大型语言模型提示注入攻击综述:攻击方法、根本原因与防御策略

期刊:Comput Mater ContinDOI:10.32604/cmc.2025.074081

关于大型语言模型提示词注入攻击的学术综述报告

本报告旨在向中文学术界介绍一篇发表于Computers, Materials & Continua(简称CMC)期刊2026年2月10日卷87期的一篇系统性综述论文。该论文的标题为《大型语言模型提示词注入攻击:攻击方法、根本原因与防御策略综述》(Prompt Injection Attacks on Large Language Models: A Survey of Attack Methods, Root Causes, and Defense Strategies)。论文的第一作者是耿同承,来自中国国家信息中心信息与网络安全部;第二作者是徐致远,来自河海大学机械工程系;第三作者兼通讯作者是屈宇斌,来自江苏工程职业技术学院信息工程学院;第四作者是W. Eric Wong,来自美国德克萨斯大学达拉斯分校计算机科学系。

论文主题与核心主旨 这篇论文属于系统性文献综述(Systematic Literature Review),其核心目标是全面梳理、整合与分析自2022年至2025年间(检索截至2025年8月4日)学术界关于大型语言模型(LLM)面临的一种关键安全威胁——提示词注入攻击(Prompt Injection Attack)——的相关研究。论文旨在提供一个统一的视角,以理解这一快速演变的威胁格局、深入剖析漏洞根源、系统归纳防御机制,并识别当前研究的局限与未来方向。论文严格遵循了Kitchenham等人的综述指南,以确保过程的公平性与可复现性,最终综合分析了128篇同行评审研究。

主要观点阐述

第一, 建立了系统化的提示词注入攻击分类体系。 论文的首要贡献是构建了一个多维度的攻击分类框架,为混乱的攻击技术领域提供了清晰的图谱。该框架从三个维度对攻击进行归类。首先是基于攻击向量(Attack Vector)的分类,这是最核心的分类方式,将攻击分为三大类:(1)直接注入攻击,即攻击者直接将恶意指令嵌入用户输入中,例如使用“忽略之前的指令”等命令来覆盖系统指令或通过角色扮演(如让模型扮演“无限制的AI”)来绕过安全限制。早期的Perez等人(2022)和Wei等人(2023)的工作揭示了此类攻击的基本原理。(2)间接注入攻击,这是一种更隐蔽的攻击形式,攻击者将恶意指令嵌入到LLM可能处理的外部数据源中,如网页、文档、电子邮件或第三方API返回的内容。当LLM(例如通过检索增强生成系统)读取这些被污染的数据时,便会无意中执行隐藏的指令。Greshake等人(2023)首次系统描述了这种攻击,而Debenedetti等人(2024)则揭示了其在LLM智能体(Agent)系统中的独特威胁。(3)多模态注入攻击,随着GPT-4V等多模态大模型(MLLM)的出现,攻击向量扩展到图像、音频等非文本模态。例如,攻击者可以在图像中嵌入肉眼不可见的恶意文本指令,当模型解读图像时便会中招。Clusmann等人(2025)在医疗影像诊断场景中证实了此类攻击的严重性。其次,论文还从攻击目标(Attack Objective)技术实现(Technical Implementation) 维度进行了分类。攻击目标包括系统提示词泄露、行为劫持、权限提升和私有数据窃取等。技术实现则展示了攻击技术的演进:从最初依赖直觉的人工构造,发展到基于模板和规则的自动生成,再进化到将攻击构造视为优化问题的优化驱动方法,例如Zou等人(2023)提出的基于梯度搜索的GCG攻击。

第二, 深入剖析了大型语言模型易受提示词注入攻击的根源。 论文没有停留在攻击现象描述,而是深入挖掘了其背后的根本原因(Root Cause),这是理解问题本质和设计根本性防御的关键。论文将漏洞根源归结于三个相互交织的层面。在哲学层面,存在根本性的价值对齐(Value Alignment)困境:人类价值体系本身的多样性与内在冲突使得为LLM建立一个普适、无歧义的安全对齐目标极为困难;同时,模型的对齐状态具有不可验证性,我们无法确知模型是真正内化了价值观还是仅仅在模仿;此外,LLM强大的指令遵循能力与其所需的安全约束之间存在内在冲突,提升前者往往会增加被恶意指令操纵的风险。在技术与架构层面,Transformer架构本身存在固有缺陷:自注意力机制对所有输入令牌一视同仁,使得恶意指令可以轻易影响整个上下文的处理;多头注意力缺乏协调机制;位置编码和固定上下文窗口等设计都可能被攻击者利用。此外,推理阶段的架构限制,如自回归生成的前向不可逆性,使得模型一旦开始生成有害内容便难以自我纠正。在训练与学习层面,整个训练流程存在系统性缺陷:大规模预训练数据不可避免地包含偏见和恶意内容,为后续攻击提供了“知识基础”;监督微调(SFT)和基于人类反馈的强化学习(RLHF)过程中,模型可能学会“奖励黑客”行为,即表面上满足人类偏好但实际上并未真正内化安全原则;多任务学习中的任务间冲突以及优化过程中的收敛偏差等,都可能导致模型在某些维度上存在可被利用的“盲区”。

第三, 全面归纳并分类了现有的防御机制。 针对上述攻击,论文系统性地整理了截至2025年的37种代表性防御方法,并将其归纳为三大类别。第一类是输入预处理与过滤,这是最直接的防御层,在用户输入进入核心模型前进行检测和清洗。具体方法包括对输入进行随机扰动以破坏攻击结构(如SmoothLLM)、使用另一个模型对输入进行释义重构、基于规则的过滤,以及利用LLM自身能力进行零样本自我检查(LLM Self Defense)等。这类方法通常能实现60%-80%的检测率,但可能被精心构造的攻击绕过。第二类是系统架构防御,旨在从整个应用系统的设计层面构建安全边界。核心思想包括“控制与数据分离”,即严格区分可信的系统指令和不可信的用户/外部数据;为LLM访问外部工具建立沙箱隔离;实施信息流控制来追踪数据来源和权限;以及为关键系统指令添加数字签名(如Signed-Prompt)以验证其真实性。这类方法从更高层面限制了攻击的影响范围。第三类是模型级防御,即通过改进LLM模型本身来提升其内在安全性。主要手段包括对抗性训练,即让模型在学习过程中接触并学会抵抗攻击样本;安全对齐微调,如使用偏好优化技术让模型更倾向于输出安全响应;以及专门的“守护模型”训练,例如训练一个独立的模型来检测输入中的恶意指令。高级的模型防御(如先进的架构防御)对已知攻击模式的防护率可达95%,但面对新型攻击向量时仍可能存在差距。

第四, 识别了研究基础设施的现状与不足,并指明了未来方向。 论文指出,尽管该领域研究激增,但缺乏标准化的评估框架、基准数据集和统一指标,这阻碍了不同防御方法之间的公平比较和有效性的客观评估。现有的少量评估平台和数据集(如论文中提到的HarmBench, BIPIA等)尚不完善。基于对攻击演进趋势、漏洞根源和防御现状的分析,论文在结论部分强调了几个关键的未来研究方向:发展形式化验证方法,为LLM系统的安全性提供数学证明;建立标准化的评估协议和基准测试,以推动研究的可比性与可复现性;以及进行根本性的架构创新,设计具有内在安全属性的新一代LLM,从源头减少对提示词注入的脆弱性。

论文的意义与价值 本综述论文具有重要的学术价值与实践指导意义。在学术上,它首次提供了一个关于提示词注入攻击的全面、系统且深入的分析框架,将散乱的研究成果整合到一个统一的知识体系中,清晰地勾勒了攻击技术的演进脉络、漏洞形成的多层次根源以及防御策略的谱系。它填补了现有综述在深度技术分析、统一分类标准以及攻防动态对抗关系剖析方面的不足。在实践上,该论文为AI安全研究者、LLM应用开发者和企业安全团队提供了一份宝贵的“地图”和“指南”。它帮助从业者系统性地理解所面临的安全威胁,评估不同防御策略的有效性与适用场景,并为设计和部署更安全的LLM系统提供了理论依据和技术选型参考。论文所强调的标准化评估和根本性架构创新,更是为整个领域的长远健康发展指出了关键路径。这篇综述是LLM安全领域,特别是针对提示词注入这一新兴且严峻威胁的一份及时、权威且内容翔实的里程碑式文献。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com