大型语言模型提示注入攻击综述：攻击方法、根本原因与防御策略

分享自：
大型语言模型提示注入攻击综述：攻击方法、根本原因与防御策略

期刊:Comput Mater ContinDOI:10.32604/cmc.2025.074081
关于大型语言模型提示词注入攻击的学术综述报告
本报告旨在向中文学术界介绍一篇发表于Computers, Materials & Continua（简称CMC）期刊2026年2月10日卷87期的一篇系统性综述论文。该论文的标题为《大型语言模型提示词注入攻击：攻击方法、根本原因与防御策略综述》（Prompt Injection Attacks on Large Language Models: A Survey of Attack Methods, Root Causes, and Defense Strategies）。论文的第一作者是耿同承，来自中国国家信息中心信息与网络安全部；第二作者是徐致远，来自河海大学机械工程系；第三作者兼通讯作者是屈宇斌，来自江苏工程职业技术学院信息工程学院；第四作者是W. Eric Wong，来自美国德克萨斯大学达拉斯分校计算机科学系。
论文主题与核心主旨 这篇论文属于系统性文献综述（Systematic Literature Review），其核心目标是全面梳理、整合与分析自2022年至2025年间（检索截至2025年8月4日）学术界关于大型语言模型（LLM）面临的一种关键安全威胁——提示词注入攻击（Prompt Injection Attack）——的相关研究。论文旨在提供一个统一的视角，以理解这一快速演变的威胁格局、深入剖析漏洞根源、系统归纳防御机制，并识别当前研究的局限与未来方向。论文严格遵循了Kitchenham等人的综述指南，以确保过程的公平性与可复现性，最终综合分析了128篇同行评审研究。
主要观点阐述
第一， 建立了系统化的提示词注入攻击分类体系。 论文的首要贡献是构建了一个多维度的攻击分类框架，为混乱的攻击技术领域提供了清晰的图谱。该框架从三个维度对攻击进行归类。首先是基于攻击向量（Attack Vector）的分类，这是最核心的分类方式，将攻击分为三大类：（1）直接注入攻击，即攻击者直接将恶意指令嵌入用户输入中，例如使用“忽略之前的指令”等命令来覆盖系统指令或通过角色扮演（如让模型扮演“无限制的AI”）来绕过安全限制。早期的Perez等人（2022）和Wei等人（2023）的工作揭示了此类攻击的基本原理。（2）间接注入攻击，这是一种更隐蔽的攻击形式，攻击者将恶意指令嵌入到LLM可能处理的外部数据源中，如网页、文档、电子邮件或第三方API返回的内容。当LLM（例如通过检索增强生成系统）读取这些被污染的数据时，便会无意中执行隐藏的指令。Greshake等人（2023）首次系统描述了这种攻击，而Debenedetti等人（2024）则揭示了其在LLM智能体（Agent）系统中的独特威胁。（3）多模态注入攻击，随着GPT-4V等多模态大模型（MLLM）的出现，攻击向量扩展到图像、音频等非文本模态。例如，攻击者可以在图像中嵌入肉眼不可见的恶意文本指令，当模型解读图像时便会中招。Clusmann等人（2025）在医疗影像诊断场景中证实了此类攻击的严重性。其次，论文还从攻击目标（Attack Objective） 和技术实现（Technical Implementation） 维度进行了分类。攻击目标包括系统提示词泄露、行为劫持、权限提升和私有数据窃取等。技术实现则展示了攻击技术的演进：从最初依赖直觉的人工构造，发展到基于模板和规则的自动生成，再进化到将攻击构造视为优化问题的优化驱动方法，例如Zou等人（2023）提出的基于梯度搜索的GCG攻击。
第二， 深入剖析了大型语言模型易受提示词注入攻击的根源。 论文没有停留在攻击现象描述，而是深入挖掘了其背后的根本原因（Root Cause），这是理解问题本质和设计根本性防御的关键。论文将漏洞根源归结于三个相互交织的层面。在哲学层面，存在根本性的价值对齐（Value Alignment）困境：人类价值体系本身的多样性与内在冲突使得为LLM建立一个普适、无歧义的安全对齐目标极为困难；同时，模型的对齐状态具有不可验证性，我们无法确知模型是真正内化了价值观还是仅仅在模仿；此外，LLM强大的指令遵循能力与其所需的安全约束之间存在内在冲突，提升前者往往会增加被恶意指令操纵的风险。在技术与架构层面，Transformer架构本身存在固有缺陷：自注意力机制对所有输入令牌一视同仁，使得恶意指令可以轻易影响整个上下文的处理；多头注意力缺乏协调机制；位置编码和固定上下文窗口等设计都可能被攻击者利用。此外，推理阶段的架构限制，如自回归生成的前向不可逆性，使得模型一旦开始生成有害内容便难以自我纠正。在训练与学习层面，整个训练流程存在系统性缺陷：大规模预训练数据不可避免地包含偏见和恶意内容，为后续攻击提供了“知识基础”；监督微调（SFT）和基于人类反馈的强化学习（RLHF）过程中，模型可能学会“奖励黑客”行为，即表面上满足人类偏好但实际上并未真正内化安全原则；多任务学习中的任务间冲突以及优化过程中的收敛偏差等，都可能导致模型在某些维度上存在可被利用的“盲区”。
第三， 全面归纳并分类了现有的防御机制。 针对上述攻击，论文系统性地整理了截至2025年的37种代表性防御方法，并将其归纳为三大类别。第一类是输入预处理与过滤，这是最直接的防御层，在用户输入进入核心模型前进行检测和清洗。具体方法包括对输入进行随机扰动以破坏攻击结构（如SmoothLLM）、使用另一个模型对输入进行释义重构、基于规则的过滤，以及利用LLM自身能力进行零样本自我检查（LLM Self Defense）等。这类方法通常能实现60%-80%的检测率，但可能被精心构造的攻击绕过。第二类是系统架构防御，旨在从整个应用系统的设计层面构建安全边界。核心思想包括“控制与数据分离”，即严格区分可信的系统指令和不可信的用户/外部数据；为LLM访问外部工具建立沙箱隔离；实施信息流控制来追踪数据来源和权限；以及为关键系统指令添加数字签名（如Signed-Prompt）以验证其真实性。这类方法从更高层面限制了攻击的影响范围。第三类是模型级防御，即通过改进LLM模型本身来提升其内在安全性。主要手段包括对抗性训练，即让模型在学习过程中接触并学会抵抗攻击样本；安全对齐微调，如使用偏好优化技术让模型更倾向于输出安全响应；以及专门的“守护模型”训练，例如训练一个独立的模型来检测输入中的恶意指令。高级的模型防御（如先进的架构防御）对已知攻击模式的防护率可达95%，但面对新型攻击向量时仍可能存在差距。
第四， 识别了研究基础设施的现状与不足，并指明了未来方向。 论文指出，尽管该领域研究激增，但缺乏标准化的评估框架、基准数据集和统一指标，这阻碍了不同防御方法之间的公平比较和有效性的客观评估。现有的少量评估平台和数据集（如论文中提到的HarmBench, BIPIA等）尚不完善。基于对攻击演进趋势、漏洞根源和防御现状的分析，论文在结论部分强调了几个关键的未来研究方向：发展形式化验证方法，为LLM系统的安全性提供数学证明；建立标准化的评估协议和基准测试，以推动研究的可比性与可复现性；以及进行根本性的架构创新，设计具有内在安全属性的新一代LLM，从源头减少对提示词注入的脆弱性。
论文的意义与价值 本综述论文具有重要的学术价值与实践指导意义。在学术上，它首次提供了一个关于提示词注入攻击的全面、系统且深入的分析框架，将散乱的研究成果整合到一个统一的知识体系中，清晰地勾勒了攻击技术的演进脉络、漏洞形成的多层次根源以及防御策略的谱系。它填补了现有综述在深度技术分析、统一分类标准以及攻防动态对抗关系剖析方面的不足。在实践上，该论文为AI安全研究者、LLM应用开发者和企业安全团队提供了一份宝贵的“地图”和“指南”。它帮助从业者系统性地理解所面临的安全威胁，评估不同防御策略的有效性与适用场景，并为设计和部署更安全的LLM系统提供了理论依据和技术选型参考。论文所强调的标准化评估和根本性架构创新，更是为整个领域的长远健康发展指出了关键路径。这篇综述是LLM安全领域，特别是针对提示词注入这一新兴且严峻威胁的一份及时、权威且内容翔实的里程碑式文献。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问