基于版本转换器的复杂文件解析器模糊测试方法

分享自：
基于版本转换器的复杂文件解析器模糊测试方法

期刊:Computers & SecurityDOI:10.1016/j.cose.2025.104641
这篇文档属于类型a，即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告：
作者及机构
 本研究由北京电子科技学院（Beijing Electronic Science and Technology Institute）的Zhaoyu Wen（第一作者及通讯作者）、Zhiqiang Wang和Biao Liu合作完成，发表于期刊《Computers & Security》2025年第158卷，论文标题为《VertFuzz: Version Transformer-Driven Fuzzing for Complex File Parsers》。
学术背景研究领域与动机
 该研究属于软件安全测试领域，聚焦于模糊测试（Fuzzing）技术，旨在解决复杂文件格式解析器的漏洞检测难题。传统模糊测试工具（如AFL++、Honggfuzz）在解析PDF、ELF等嵌套结构文件时面临两大挑战：
 1. 格式依赖性：需依赖人工构建的格式模型，缺乏适应性；
 2. 无效突变：随机突变易破坏文件语法，导致深层逻辑无法触发。
研究目标
 提出VertFuzz框架，通过元数据标记（metadata tagging）和视觉Transformer（Vision Transformer, ViT）模型，实现自动化结构感知的模糊测试，提升漏洞检测效率与覆盖率。
研究方法与流程VertFuzz分为三个核心模块，具体流程如下：
1. 结构识别与元数据标记工具与模型：
 010 Editor：通过脚本解析文件模板，标记元数据位置（如PDF的版本号、对象索引）。
 
ByteBERT模型：基于BERT架构改进的深度学习模型，自动化标记未训练文件格式的元数据。其创新点包括：
 
直接以字节值（0-255）为输入，避免自然语言分词干扰；
 
减少Transformer编码器层数（从12层降至4层），降低计算开销。
 
数据处理：将标记结果转换为二进制掩码文件，与原始文件等长，指导后续突变。
 
2. 元数据引导的突变策略突变机制：
 基于AFL++的Havoc突变策略重构，仅对元数据区域（如PDF的/mediabox坐标）进行定向突变。
 
引入ones数组记录元数据索引，确保突变位置精准。
 
优化措施：禁用低效操作（如trim裁剪），减少无效计算。
 
3. ViT驱动的样本过滤模型训练：
 将覆盖率位图（bitmap）转换为灰度图像，输入ViT模型进行二分类（有效/无效样本）。
 
ViT通过自注意力机制捕捉路径依赖关系，筛选符合格式规范的测试用例。
 
实时过滤：每轮突变后，ViT过滤无效样本，平均减少6.26%的冗余测试。
 
主要结果1. 元数据标记准确性ByteBERT在PDF、ELF、XML、TIFF格式上的标记准确率均超87%，其中PDF达92.3%（图5）。混合训练时准确率下降%，表明模型具备泛化能力。
 
2. 覆盖率与效率对比实验：在10个目标程序（含PDF、ELF解析器）中，VertFuzz平均比AFL++多发现29%的程序路径和14.54%的代码块（表1）。例如：
 pdftohtml覆盖率提升27.92%；
 
执行速率（execs/sec）在部分场景超越AFL++（如mupdf达290.83次/秒）。
 
3. ViT过滤效果过滤无效样本占比6.26%，时间开销%（表2）。
 
消融实验显示，结合ViT与元数据突变的组别（metamut+ViT）覆盖率显著优于基线（图7）。
 
4. 真实漏洞检测发现32个独特漏洞，包括：
 CVE-2024-54731：CPDF因自引用对象导致的栈溢出；
 
CVE-2024-7867：PDF页框坐标整数溢出。
 
结论与价值科学价值
 1. 方法论创新：首次将ViT模型引入模糊测试，解决输入缺陷空间稀疏性问题；
 2. 技术整合：结合静态解析（010 Editor）与动态学习（ByteBERT），降低人工干预需求。
应用价值
 - 适用于安全审计场景，尤其对复杂格式解析器（如PDF、XML）的自动化漏洞挖掘效率显著提升。
 - 开源代码（GitHub仓库）促进后续研究。
研究亮点跨学科融合：将计算机视觉（ViT）与模糊测试结合，创新筛选机制；
 
轻量化设计：ByteBERT通过层数压缩与端到端训练，兼顾效率与精度；
 
实战验证：在真实环境中发现多个高危漏洞，验证框架实用性。
 
其他有价值内容局限性：ViT处理超大位图（如5MB）时硬件需求较高，未来计划优化模型架构。
 
展望：探索大语言模型（LLM）在突变调度中的应用，进一步自动化测试流程。
 
此研究为复杂文件解析器的安全测试提供了高效、自动化的解决方案，其方法论与工具链设计对软件安全领域具有重要参考意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问