本文标题为 “A Remote Keylogging Attack on AI Assistants”,研究主要由 Ben-Gurion University of the Negev 的 Roy Weiss, Daniel Ayzenshteyn, Guy Amit 和 Yisroel Mirsky 完成。文章发表在 2024 年“33rd USENIX Security Symposium”的会议论文集中,该会议于 2024 年 8 月 14-16 日在美国费城举办。论文的主要议题为通过一种新的基于令牌长度(token-length)的侧信道攻击,揭示 AI 助手(AI Assistants)服务中潜在的安全漏洞。
近年来,大型语言模型(Large Language Models,LLMs)的普及使得基于对话的 AI 助手(如 ChatGPT、Microsoft Copilot)得到广泛应用。这些助手被广泛用于帮助用户完成复杂任务和提供建议,包括私人问题讨论、健康信息获取,以及敏感商业邮件编辑等。这标志着数字技术的重大进步,同时也意味着用户对这些助手的信任正在显著增长。然而,相较于 LLM 的强大功能,其安全性问题尤其是与个人隐私相关的漏洞却未引起足够重视。
论文重点揭示了通过网络流量加密中的一个新的侧信道“令牌长度侧信道”(token-length side-channel)进行攻击的可能性。研究展示了即使数据流量经过加密,攻击者仍可通过观察网络数据包长度来推断出 LLM 生成的令牌长度序列,从而进行信息推断。
研究的目标是探索此侧信道攻击的可行性与威胁范围,并提供一套完整的攻击框架,同时强调这些系统的潜在安全隐患。
研究首先定义了攻击场景和模型。主要涉及三方: - 用户(Bob):通过网络与 AI 助手交流; - AI 助手(Alice):基于 LLM 生成响应; - 攻击者(Eve):通过监视网络通信的数据包,试图从加密的网络流量中推断 AI 助手的响应内容。
攻击的目标是通过捕获加密的网络流量,提取其中的令牌长度序列(token-length sequence),并利用 LLM 对这些序列进行推断,然后重构原始的 AI 响应内容。
研究团队揭示了一个显著的侧信道漏洞:LLM 响应通过逐令牌(token)实时生成,每个令牌的字符长度与加密包的大小直接相关。尽管网络流量是加密的,攻击者仍然可以通过分析连续数据包的大小差异提取得到每个令牌的字符长度序列。
攻击者面临的主要挑战是如何从这些令牌长度序列推断出实际的文本内容。这种推断的复杂性来自于很多单词被分解为多个令牌,以及可能成千上万的语法正确的句子组合。
论文提出了一种包含五个步骤的攻击框架: 1. 流量截获:通过监视公共网络或本地局域网(LAN)中的加密流量,捕获用户与 AI 助手之间的通信。 2. 消息识别:分析数据包序列,识别出含有响应令牌的网络数据包。 3. 序列提取:从数据包长度的变化中提取令牌长度序列。 4. 序列分段:根据令牌长度序列中的标点符号特征,将其分段,形成近似于句子或段落的结构。 5. 响应推断:使用专门训练的 LLM 模型,基于令牌长度序列推断出完整的文本响应。
研究团队采取了一种新的训练方法,设计了两个独立的 LLM 模块:一个用于生成响应的首段句子(通常含有重要的上下文),另一个用于生成后续段落,同时参考前文的推断结果。
为了完成有效推断,团队使用了超大规模的“Ultrachat”数据集(基于 GPT-4 Turbo 模型生成的 150 万对话数据),并对 T5 Transformer 模型进行了细化训练。同时,模型还扩展了其词汇库,以便能够更好地处理特殊设计的“令牌长度”输入序列。
为了检验模型对侧信道攻击的适应性,研究还创建了一系列增强的数据集,包括考虑令牌长度分组和网络噪声因素的模拟数据。
研究对攻击的有效性进行了全面评估,结果表明: 1. 精确推断能力:模型可以成功推断约 27% 的 AI 助手响应,并能准确地根据令牌长度侧信道推断出约 52.7% 的主题相关信息。 2. 攻击成功率: - 对段落首句的“主题暴露”率达到 52.7%,表明攻击者可以通过监视令牌长度序列准确把握对话内容的主题。 - 针对多句段落的整体攻击成功率为 38%。 3. 跨服务兼容性:训练于 OpenAI GPT-4 模型基础上的攻击模型能够成功转化用于攻击 Microsoft Copilot 等其他平台服务。这一结果表明,LLM 响应在语言风格与模式上的一致性可能导致可迁移性风险。 4. 性能对比:与传统基于 Markov 模型的侧信道攻击相比,本研究中使用 LLM 模型的推断精度显著提高,尤其是在处理复杂段落和长距离上下文关系时。
此外,作者验证了攻击模型在遭遇网络令牌分组、消息缓冲、噪声干扰等情况下仍能保持较高的推断能力。
这项研究的主要贡献包括: 1. 发现新型侧信道漏洞:研究首次揭示了基于令牌长度的侧信道攻击,可以显著威胁基于 LLM 的 AI 服务的隐私安全。 2. 设计完全攻击框架:提出了一套新颖且高效的网络监听式明文推断攻击流程,结合现代 LLM 算法,实现了从加密令牌数据到完整文字响应的转化。 3. 提升隐私安全意识:研究强调了在网络 API、实时服务中确保流量加密机制完整性的重要性,并对关键漏洞(如令牌长度泄露)提出了具体的缓解策略(如信息填充、分组和批量传输)。
本研究的亮点包括: - 创新性:研究首次证实了新型侧信道风险在 LLM 模型中的实际威胁。 - 高效工作流:采用 LLM 的推断能力,显著提升了基于噪声令牌序列的文本还原效果。 - 跨平台攻击能力:研究提出的攻击模型不仅适用于 OpenAI GPT-4,还能成功对 Microsoft Copilot 实施攻击,对当前 LLM 的隐私安全提出全面考验。
随着 LLM 模型以及基于其开发的 AI 助手在社会中的广泛应用,其潜在的安全性问题尤其是隐私数据泄露的风险愈加突出。本文不仅揭示了一个显著的安全漏洞,还提供了关于如何改进设计以抵御类似攻击的实际建议。此项工作的探索性和前瞻性为研究人员和开发者提供了重要启示,同时也为构建更安全的 AI 系统铺平了道路。