大型语言模型引导的协议模糊测试

分享自：
大型语言模型引导的协议模糊测试

期刊:Network and Distributed System Security (NDSS) SymposiumDOI:10.14722/ndss.2024.24556
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
大型语言模型引导的协议模糊测试：突破协议实现安全漏洞检测的新方法作者及机构：
 Ruijie Meng、Martin Mirchev（新加坡国立大学）；Marcel Böhme（马克斯·普朗克信息安全研究所与莫纳什大学）；Abhik Roychoudhury（新加坡国立大学）。
 发表信息：
 本研究发表于网络与分布式系统安全研讨会（NDSS Symposium 2024），会议时间为2024年2月26日至3月1日，论文DOI为10.14722/ndss.2024.24556。
学术背景研究领域：
 本研究属于软件安全测试领域，聚焦于协议实现的安全性漏洞检测。协议实现是互联网基础设施的核心组件，但其安全性高度依赖输入消息的结构与顺序。传统协议模糊测试（fuzzing）面临三大挑战：
 1. 依赖初始种子（C1）：现有方法需预录有效消息序列作为种子，但种子覆盖的协议状态和输入结构有限。
 2. 未知消息结构（C2）：缺乏机器可读的协议规范时，难以生成结构有效的变异输入。
 3. 未知状态空间（C3）：协议的状态机通常未明确定义，导致难以定向探索新状态。
研究动机与目标：
 大型语言模型（LLM）如ChatGPT通过预训练学习了大量自然语言协议规范（如RFC文档）。本研究提出LLM引导的协议模糊测试框架（ChatAFL），旨在利用LLM的协议知识解决上述挑战，实现更高效的漏洞发现。
研究流程与方法1. 协议语法提取（Grammar Extraction）方法：通过少样本提示（few-shot prompting）让LLM生成机器可读的协议语法（如RTSP协议的PLAY请求结构）。
 
创新点：设计模板化提示（图6），要求LLM以固定格式输出语法（如<value>标记可变字段），并通过自一致性检查（5次重复生成）过滤错误结果。
 
验证：人工对比LLM生成的语法与RFC 2326标准，结果显示LLM对10种RTSP消息类型的语法准确率达90%以上（仅PLAY请求偶尔遗漏可选字段range）。
 
2. 种子增强（Seed Enrichment）问题：初始种子（如ProfuzzBench提供的RTSP消息）仅覆盖4/10的消息类型，限制状态探索。
 
方法：提示LLM在种子序列中插入缺失的消息类型（如PAUSE），并确保其符合协议状态机（图2）。
 
有效性：LLM生成的99%消息位置正确，55%可直接被服务器接受（表I），其余失败案例多因动态字段（如session ID）缺失，但通过反馈服务器响应可修正。
 
3. 覆盖平台突破（Coverage Plateau Handling）问题：传统模糊测试易陷入覆盖停滞，无法生成触发新状态的消息序列。
 
方法：当连续512次未发现新覆盖时，ChatAFL向LLM提交当前通信历史（如SETUP → 200-OK），要求生成可能引发状态迁移的消息（如PLAY）。
 
效果：LLM在81%的案例中生成有效状态迁移消息（图5），覆盖RTSP全部状态转移路径。
 
4. 实现与实验设计工具实现：基于AFLNet框架开发ChatAFL，集成上述三种策略。
 
实验对象：6种广泛使用的协议实现（如Live555 RTSP、ProFTPD），覆盖ProfuzzBench全部文本协议。
 
基线对比：与AFLNet、NSFuzz比较状态/代码覆盖率及漏洞发现能力。
 
主要结果状态覆盖提升：
ChatAFL平均覆盖47.6%更多状态转移和29.55%更多状态（表III-IV），在Live555中状态转移覆盖提升91%。
 
达到相同覆盖的速度比AFLNet快48倍（表III）。
 
代码覆盖提升：
分支覆盖率平均提高5.81%（表V），在ProFTPD中提升7.99%。
 
漏洞发现：
发现9个零日漏洞（表VII），包括Live555中的堆溢出和Use-After-Free漏洞（可导致远程代码执行），而AFLNet和NSFuzz仅分别发现3个和4个。
 
结论与价值科学价值：
 - 首次系统性证明LLM可从自然语言协议规范中提取机器可读知识，并指导模糊测试。
 - 提出三阶段引导框架（语法提取、种子增强、覆盖突破），为协议模糊测试提供新范式。
应用价值：
 - ChatAFL可自动化检测协议实现漏洞，无需人工编写规范或种子生成器。
 - 已发现漏洞获开发者确认并修复，部分已申请CVE编号。
研究亮点LLM的协议知识利用：通过提示工程将LLM的隐含知识转化为模糊测试的显式指导。
 
全自动化流程：无需人工干预即可生成语法、增强种子和突破覆盖停滞。
 
显著性能优势：在状态和代码覆盖上大幅超越现有工具，且漏洞发现能力更强。
 
局限性：依赖协议规范的公开性（如RFC），对私有协议效果可能受限。
其他有价值内容消融实验（表VI）显示，语法引导、种子增强和覆盖突破分别贡献2.0×、4.6×和6.1×的加速效果。
 
开源工具：ChatAFL代码已公开于GitHub（https://github.com/chataflndss/chatafl）。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问