这篇文档属于类型a,是一篇关于量子计算领域原创研究的学术论文。以下是针对该研究的详细学术报告:
作者及机构
由北京大学计算机学院的Rui Yang、Ziruo Wang、Tongyang Li等联合加州大学洛杉矶分校(UCLA)和北京大学人工智能研究院的学者合作完成,发表于NeurIPS 2025(第39届神经信息处理系统会议)。通讯作者为Yitao Liang和Tongyang Li。
科学领域:量子计算与人工智能交叉领域。
研究动机:
量子计算虽在理论上具有超越经典计算的潜力(如Shor算法、Grover算法等),但量子算法的设计高度依赖专业知识和经验,存在两大挑战:
1. 设计灵活性:量子算法的设计空间极大,需精确控制量子态;
2. 数据稀缺性:缺乏专门用于训练和评估AI模型的量子算法数据集。
研究目标:
提出首个面向大语言模型(LLM)的量子算法设计基准数据集qcircuitbench,用于系统评估AI在量子编程语言(如Qiskit、Cirq)中的算法设计与实现能力。
研究团队设计了包含3类任务、25种算法、120,290个数据点的综合性数据集:
- 任务I:Oracle构造(35,872数据点)
聚焦布尔函数的量子Oracle实现(如Deutsch-Jozsa、Simon问题),需将经典函数编码为可逆量子门电路。
- 任务II:量子算法设计(6,534数据点)
覆盖从基础算法(如量子傅里叶变换)到高级应用(如广义Simon问题、变分量子算法VQE)。
- 任务III:随机电路合成(77,884数据点)
模拟量子优越性实验(如Google量子处理器案例),生成基于Clifford门集和通用门集的随机电路。
技术实现:
- 多平台支持:提供Qiskit+OpenQASM和Cirq两种等效版本,确保跨平台兼容性。
- 自动验证功能:开发语法检查(QASM/Python)和语义验证工具(通过量子仿真测试功能正确性)。
- 模块化设计:将Oracle定义、经典后处理(如Simon算法中的线性方程求解)分离为独立模块,降低模型生成复杂度。
评估对象:
测试了GPT-4o、Llama-3-8B、Qwen 2.5等主流大语言模型,采用少样本学习(few-shot)和微调(fine-tuning)两种策略。
评估指标:
- BLEU分数:衡量生成代码与参考代码的相似度;
- 验证分数:包括语法正确性(QASM/Python)和语义准确性(量子态保真度或算法成功率);
- 效率指标:门数量、查询复杂度(shot count)、运行时间的相对比率。
实验发现:
- 模型表现差异:GPT-4o在复杂任务(如广义Simon问题)中显著优于开源模型,但所有模型在变分量子算法(如VQE)上表现不佳(语义得分接近0)。
- 错误模式:LLMs常出现索引错误(如误判Bernstein-Vazirani算法中的控制位)、即兴错误(使用未支持的OpenQASM 3.0特性)和数据污染(依赖记忆而非真实设计能力)。
- 微调效果:基于QLoRA对Llama-3-8B微调后,Grover算法的验证分数提升19%,但随机电路任务性能下降,可能与温度参数设置有关。
基准性能:
科学价值:
应用潜力:
(报告总字数:约1,800字)