本研究由Jialun Cao(香港科技大学)、Yaojie Lu(中国科学院软件研究所)、Meiziniu Li(香港科技大学)、Haoyang Ma(香港科技大学)、Haokun Li(西安电子科技大学广州研究院)、Mengda He(西安电子科技大学广州研究院)、Cheng Wen(西安电子科技大学广州研究院)、Le Sun(中国科学院软件研究所)、Hongyu Zhang(重庆大学)、Shengchao Qin(西安电子科技大学ICT与ISN实验室)、Shing-Chi Cheung(香港科技大学)和Cong Tian(西安电子科技大学ICT与ISN实验室)共同完成,发表于2025年7月27日至8月1日举行的第63届ACL年会论文集(Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics)第一卷。
该研究属于人工智能与形式化验证(formal verification)交叉领域。随着AlphaProof在国际数学奥林匹克竞赛(IMO)中获得银牌级表现,以及AlphaGeometry在欧几里得几何定理证明中的突破,基于AI的形式化数学推理(formal mathematical reasoning)研究呈现爆发式增长。然而,现有研究通常将问题解决、数学推理和形式化规范编写(formal specification writing)等多种能力混合评估,难以精确衡量大型语言模型(LLMs)在形式化验证任务中的专项能力。因此,本研究聚焦形式化验证这一形式化推理的直接应用场景,将其分解为子任务进行系统性评估。
研究团队首先将”从自然语言需求到可验证形式化证明”的过程分解为六个任务:
1. 需求分析(Requirement Analysis, ReqAna):将自然语言需求分解为详细步骤描述(样本量:627条)
2. 完整证明生成(Full Proof Generation, ProofGen):将自然语言需求转换为形式化语言证明(样本量:700条)
3. 证明片段生成(Proof Segment Generation, SegGen):根据详细描述生成形式化证明片段(样本量:14,843条)
4. 证明补全(Proof Completion, ProofComplete):根据前缀补全形式化证明(样本量:658条)
5. 证明填充(Proof Infilling, ProofInfill):在掩码位置填充形式化内容(样本量:1,439条)
6. 代码到证明生成(Code to Proof, Code2Proof):为给定代码生成形式化规范(样本量:70条)
研究团队通过蒸馏GPT-4o构建了18,337个高质量指令-响应对,覆盖5种主流形式化规范语言(Coq、Lean4、Dafny、ACSL、TLA+),并划分为14,372条微调数据集(FM-Alpaca)和3,965条基准测试集(FM-Bench)。数据构建流程包括:
1. 从GitHub开源仓库收集形式化证明及依赖配置
2. 通过自动化验证筛选可验证的证明(过滤率未披露)
3. 使用GPT-4o生成自然语言描述(配备三示例提示和专业领域知识)
4. 任务特异性数据配对(如随机行号删除生成ProofComplete数据)
研究团队开发了包含以下特征的验证机制:
- 为所有形式化规范提供可执行上下文
- 对独立验证困难的片段使用模板验证法
- 对ACSL规范实施双重验证模式:基础检查(语法/语义)和WP插件验证
- 对自然语言输出采用BLEU评分(Papineni et al., 2002)
评估涵盖10个开源LLM(7B-671B参数),包括DeepSeek-R1等最新模型。采用:
- 零样本/少样本(3-shot)评估
- 贪心搜索(温度0.0)和核采样(温度0.2)策略
- 指令微调三基座模型(Llama3.1-8B、Qwen2.5-7B、DeepSeek-Coder-7B)
该研究为AI辅助形式化验证建立了新的方法论基准,其发布的资源将持续推动该领域发展,实现Terence Tao预言的”未来数学家将向GPT解释证明”的愿景。