多领域代码生成的自动化构建基准：Domaineval

分享自：
多领域代码生成的自动化构建基准：Domaineval

工程学
信息科学
人工智能
计算机科学
软件工程
期刊:Association for the Advancement of Artificial Intelligence
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
作者与机构本研究由Qiming Zhu（中国科学院软件研究所中文信息处理实验室与中国科学院大学）、Jialun Cao（香港科技大学）等共同完成，通讯作者为Yaojie Lu。其他合作者来自中国科学院软件研究所和香港科技大学。论文尚未标注具体期刊信息，但明确提及由AAAI-25（第39届人工智能顶会）收录。
学术背景研究领域与动机研究聚焦大语言模型（LLMs）的代码生成能力评估，属于人工智能与软件工程的交叉领域。现有基准测试（如HumanEval、MBPP）主要针对通用编程任务（如排序、最大公约数计算），而领域特定代码（domain-specific code，如密码学、系统编程）的评估长期缺失。这种局限性导致LLMs在工业场景（如金融加密、操作系统开发）中的实际能力难以量化。
研究目标团队提出DomainEval——首个多领域代码生成基准测试，旨在：
 1. 自动化构建覆盖6大领域（计算、网络、基础操作、系统、可视化、密码学）的代码评测集；
 2. 揭示LLMs在不同领域的性能差异，指导模型优化方向。
研究方法与流程1. 领域代码库收集数据源：从GitHub选取6大领域的代表性仓库（如密码学领域选用cryptography、pycryptodome等），筛选标准为≥100星标。
 
样本量：最终收集2,454个代码主题（subject），每个主题包含指令、参考代码和测试用例，总计5,892个测试用例。计算领域样本最多（1,705个），其他领域100–256个（图2）。
 
2. 测试-方法匹配与筛选匹配策略：通过AST（抽象语法树）解析测试代码，回溯关联的函数代码。例如，识别含assert的测试函数，匹配其调用的实现代码。
 
筛选标准：
 可执行性：依赖沙盒环境验证代码执行，禁用高风险操作（如文件删除）；
 
显著性：排除初始化函数等低价值代码，保留含测试的关键功能；
 
难度适中：参考代码行数限制为3–100行（图5显示平均55.69行）。
 
3. 指令生成自动化流程：使用开源模型Qwen2-72B-Instruct生成自然语言指令，模板化描述功能、输入/输出（图4）。例如：
  functionality: 计算IPv6地址有效性 inputs: ip_str (str): 待验证的IP字符串 outputs: bool: 地址是否有效 
 
掩码处理：对参考代码的函数体部分用[mask]替换，供LLMs补全（图3）。
 
4. 评测方法模型选择：评估12个LLMs，包括GPT-4o-mini、DeepSeek-Coder系列、CodeLlama等，参数规模6.7B–72B。
 
指标：
 pass@k（无偏版本）：衡量生成代码通过测试的比例，k=1（贪婪解码）和k=5（采样温度0.2）；
 
领域偏差：计算各模型在不同领域的标准差。
 
主要结果1. 领域性能差异显著计算领域表现最优（平均pass@1=82.44%），密码学（33.08%）和系统领域（37.50%）最差（图6）。
 
最大差距：Llama-2-13B-Chat在计算与密码学的pass@1相差68.94%（80.94% vs 12.0%）。
 
2. 模型偏差普遍存在开源最佳：Qwen2-72B-Instruct（pass@5=64.25%）接近GPT-4o-mini（67.13%）；
 
稳定性：GPT-4o-mini标准差最低（14.75），表明跨领域表现均衡。
 
3. 样本量影响pass@5比pass@1平均提升6.18%，但领域偏差未改善（如CodeLlama-13B偏差从19.90增至20.55）。
 
4. 案例研究密码学缺陷：LLMs常忽略大整数处理的溢出问题（图7），错误使用**0.5而非math.isqrt；
 
系统编程漏洞：对Linux命令（如free -b）的输出解析不健壮（图8），语言环境设置导致格式误判。
 
结论与价值科学意义填补空白：首个自动化构建的多领域代码评测基准，支持持续更新以应对数据污染（data contamination）；
 
揭示局限：LLMs在垂直领域（如密码学）需结合专业知识优化，仅通用训练不足。
 
应用价值工业适配：指导企业针对特定领域（如金融安全）定制LLMs；
 
方法创新：开源的全自动流水线（GitHub: DomainEval）可扩展至其他领域。
 
研究亮点自动化流水线：从代码仓库到格式化评测集的“一键式”流程，突破人工标注瓶颈；
 
领域深度覆盖：6大领域的真实代码需求，远超传统基准的通用任务；
 
可复现性：公开所有代码与数据，支持社区贡献新领域。
 
其他发现微调效果：CodeLlama-13B较基础版Llama-2-13B平均提升11.25%，但领域偏差未消除，说明需针对性优化；
 
评测建议：未来工作需结合API调用与代码实现能力（如Zhuo等2024的补充结论）。
 
（报告总字数：约1,800字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问