分享自:

量子算法设计的大规模基准数据集:qcircuitbench

期刊:39th conference on neural information processing systems (NeurIPS 2025)

这篇文档属于类型a,是一篇关于量子计算领域原创研究的学术论文。以下是针对该研究的详细学术报告:


量子算法设计基准数据集qcircuitbench的构建与评估

作者及机构
由北京大学计算机学院的Rui Yang、Ziruo Wang、Tongyang Li等联合加州大学洛杉矶分校(UCLA)和北京大学人工智能研究院的学者合作完成,发表于NeurIPS 2025(第39届神经信息处理系统会议)。通讯作者为Yitao Liang和Tongyang Li。


学术背景

科学领域:量子计算与人工智能交叉领域。
研究动机
量子计算虽在理论上具有超越经典计算的潜力(如Shor算法、Grover算法等),但量子算法的设计高度依赖专业知识和经验,存在两大挑战:
1. 设计灵活性:量子算法的设计空间极大,需精确控制量子态;
2. 数据稀缺性:缺乏专门用于训练和评估AI模型的量子算法数据集。
研究目标
提出首个面向大语言模型(LLM)的量子算法设计基准数据集qcircuitbench,用于系统评估AI在量子编程语言(如Qiskit、Cirq)中的算法设计与实现能力。


研究流程与方法

1. 数据集构建框架

研究团队设计了包含3类任务、25种算法、120,290个数据点的综合性数据集:
- 任务I:Oracle构造(35,872数据点)
聚焦布尔函数的量子Oracle实现(如Deutsch-Jozsa、Simon问题),需将经典函数编码为可逆量子门电路。
- 任务II:量子算法设计(6,534数据点)
覆盖从基础算法(如量子傅里叶变换)到高级应用(如广义Simon问题、变分量子算法VQE)。
- 任务III:随机电路合成(77,884数据点)
模拟量子优越性实验(如Google量子处理器案例),生成基于Clifford门集和通用门集的随机电路。

技术实现
- 多平台支持:提供Qiskit+OpenQASM和Cirq两种等效版本,确保跨平台兼容性。
- 自动验证功能:开发语法检查(QASM/Python)和语义验证工具(通过量子仿真测试功能正确性)。
- 模块化设计:将Oracle定义、经典后处理(如Simon算法中的线性方程求解)分离为独立模块,降低模型生成复杂度。

2. 实验评估

评估对象
测试了GPT-4o、Llama-3-8B、Qwen 2.5等主流大语言模型,采用少样本学习(few-shot)微调(fine-tuning)两种策略。

评估指标
- BLEU分数:衡量生成代码与参考代码的相似度;
- 验证分数:包括语法正确性(QASM/Python)和语义准确性(量子态保真度或算法成功率);
- 效率指标:门数量、查询复杂度(shot count)、运行时间的相对比率。

实验发现
- 模型表现差异:GPT-4o在复杂任务(如广义Simon问题)中显著优于开源模型,但所有模型在变分量子算法(如VQE)上表现不佳(语义得分接近0)。
- 错误模式:LLMs常出现索引错误(如误判Bernstein-Vazirani算法中的控制位)、即兴错误(使用未支持的OpenQASM 3.0特性)和数据污染(依赖记忆而非真实设计能力)。
- 微调效果:基于QLoRA对Llama-3-8B微调后,Grover算法的验证分数提升19%,但随机电路任务性能下降,可能与温度参数设置有关。


主要结果与结论

  1. 基准性能

    • GPT-4o在5样本设置下,Bernstein-Vazirani算法的QASM语法得分从0提升至1,但语义得分仅0.785(因索引错误)。
    • 人类基线在算法设计任务中平均语义得分为0.137,凸显量子算法的专业壁垒。
  2. 科学价值

    • 填补空白:首个专为AI驱动的量子算法设计构建的基准数据集;
    • 方法论创新:通过代码生成形式化量子算法设计,实现自动验证与理论-实践桥梁。
  3. 应用潜力

    • 可作为量子机器学习(QML)模型的训练资源;
    • 支持交互式量子算法设计工具的开发。

研究亮点

  1. 全面性:覆盖从基础门电路到前沿算法(如广义Simon问题),数据规模超12万条。
  2. 可扩展性:框架支持多项式复杂度算法的增量扩展。
  3. 跨学科意义:为量子计算与AI的协同发展提供实证基础。

其他价值

(报告总字数:约1,800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com