量子算法设计的大规模基准数据集：qcircuitbench

分享自：

量子算法设计的大规模基准数据集：qcircuitbench

量子物理

人工智能

物理学

信息科学

计算机科学

期刊:39th conference on neural information processing systems (NeurIPS 2025)

【点击此处】阅读全文、收藏及针对性提问

这篇文档属于类型a，是一篇关于量子计算领域原创研究的学术论文。以下是针对该研究的详细学术报告：
量子算法设计基准数据集qcircuitbench的构建与评估作者及机构
 由北京大学计算机学院的Rui Yang、Ziruo Wang、Tongyang Li等联合加州大学洛杉矶分校（UCLA）和北京大学人工智能研究院的学者合作完成，发表于NeurIPS 2025（第39届神经信息处理系统会议）。通讯作者为Yitao Liang和Tongyang Li。
学术背景科学领域：量子计算与人工智能交叉领域。
 研究动机：
 量子计算虽在理论上具有超越经典计算的潜力（如Shor算法、Grover算法等），但量子算法的设计高度依赖专业知识和经验，存在两大挑战：
 1. 设计灵活性：量子算法的设计空间极大，需精确控制量子态；
 2. 数据稀缺性：缺乏专门用于训练和评估AI模型的量子算法数据集。
 研究目标：
 提出首个面向大语言模型（LLM）的量子算法设计基准数据集qcircuitbench，用于系统评估AI在量子编程语言（如Qiskit、Cirq）中的算法设计与实现能力。
研究流程与方法1. 数据集构建框架研究团队设计了包含3类任务、25种算法、120,290个数据点的综合性数据集：
 - 任务I：Oracle构造（35,872数据点）
 聚焦布尔函数的量子Oracle实现（如Deutsch-Jozsa、Simon问题），需将经典函数编码为可逆量子门电路。
 - 任务II：量子算法设计（6,534数据点）
 覆盖从基础算法（如量子傅里叶变换）到高级应用（如广义Simon问题、变分量子算法VQE）。
 - 任务III：随机电路合成（77,884数据点）
 模拟量子优越性实验（如Google量子处理器案例），生成基于Clifford门集和通用门集的随机电路。
技术实现：
 - 多平台支持：提供Qiskit+OpenQASM和Cirq两种等效版本，确保跨平台兼容性。
 - 自动验证功能：开发语法检查（QASM/Python）和语义验证工具（通过量子仿真测试功能正确性）。
 - 模块化设计：将Oracle定义、经典后处理（如Simon算法中的线性方程求解）分离为独立模块，降低模型生成复杂度。
2. 实验评估评估对象：
 测试了GPT-4o、Llama-3-8B、Qwen 2.5等主流大语言模型，采用少样本学习（few-shot）和微调（fine-tuning）两种策略。
评估指标：
 - BLEU分数：衡量生成代码与参考代码的相似度；
 - 验证分数：包括语法正确性（QASM/Python）和语义准确性（量子态保真度或算法成功率）；
 - 效率指标：门数量、查询复杂度（shot count）、运行时间的相对比率。
实验发现：
 - 模型表现差异：GPT-4o在复杂任务（如广义Simon问题）中显著优于开源模型，但所有模型在变分量子算法（如VQE）上表现不佳（语义得分接近0）。
 - 错误模式：LLMs常出现索引错误（如误判Bernstein-Vazirani算法中的控制位）、即兴错误（使用未支持的OpenQASM 3.0特性）和数据污染（依赖记忆而非真实设计能力）。
 - 微调效果：基于QLoRA对Llama-3-8B微调后，Grover算法的验证分数提升19%，但随机电路任务性能下降，可能与温度参数设置有关。
主要结果与结论基准性能：
GPT-4o在5样本设置下，Bernstein-Vazirani算法的QASM语法得分从0提升至1，但语义得分仅0.785（因索引错误）。
 
人类基线在算法设计任务中平均语义得分为0.137，凸显量子算法的专业壁垒。
 
科学价值：
填补空白：首个专为AI驱动的量子算法设计构建的基准数据集；
 
方法论创新：通过代码生成形式化量子算法设计，实现自动验证与理论-实践桥梁。
 
应用潜力：
可作为量子机器学习（QML）模型的训练资源；
 
支持交互式量子算法设计工具的开发。
 
研究亮点全面性：覆盖从基础门电路到前沿算法（如广义Simon问题），数据规模超12万条。
 
可扩展性：框架支持多项式复杂度算法的增量扩展。
 
跨学科意义：为量子计算与AI的协同发展提供实证基础。
 
其他价值开源生态：数据集与代码已在GitHub发布（https://github.com/estelyang/qcircuitbench），包含详细文档和可复现脚本。
 
未来方向：探索量子专属的模型架构（如混合神经-符号方法）和自主算法发现。
 
（报告总字数：约1,800字）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问