分享自:

实现人工智能研究的端到端自动化

期刊:natureDOI:10.1038/s41586-026-10265-5

本文发表于《自然》(Nature)期刊2026年3月26日(第651卷),由Chris Lu、Cong Lu、Robert Tjarko Lange、Yutaro Yamada、Shengran Hu、Jakob Foerster、David Ha及Jeff Clune共同完成。作者来自Sakana AI、弗莱尔-牛津大学、不列颠哥伦比亚大学以及向量研究所。该研究介绍了一种名为“AI科学家”的系统,其目标是在人工智能(AI)研究领域实现科学研究过程的端到端自动化。这项工作的核心是应对一个长期存在的挑战:尽管AI在协助科学发现的具体环节(如材料发现、蛋白质结构预测、假设生成等)取得了显著进展,但尚未有系统能够自主地导航从构思到发表的完整研究生命周期。

研究的学术背景根植于AI自动化的宏伟愿景,早期系统如Dendral和Meta-Dendral在特定领域(如化学结构推导)证明了AI的潜力,而近期大型语言模型(LLM)的出现,则使其在辅助编码、文献综述、提出假设等方面能力大增。然而,将这些分散的组件整合成一个能自主、连贯地执行完整科研流程的系统,一直是未竟的目标。本研究旨在填补这一空白,构建一个能够自主产生研究想法、编写代码、运行实验、分析数据、撰写完整科学手稿并进行同行评审的AI系统。其终极目标是评估AI是否能够通过标准的科学评审流程,即产生质量足以在顶级学术会议上被接受的研究成果。

AI科学家的工作流程是一个复杂的多阶段代理(agentic)系统,主要分为四个核心阶段:构想、实验、撰写与评审

第一阶段是构想。系统从用户指定的机器学习子领域出发,使用LLM迭代式地生成并扩展一个高级研究方向和假设的档案库。对于每个生成的想法,系统会生成一个描述性标题、解释其有趣之处的推理以及一个实验计划。为确保新颖性,系统会连接到Semantic Scholar API及网络搜索工具,将每个想法与现有文献进行比对,并丢弃与已有工作过于相似的想法。这个过程模拟了科研人员提出创新研究问题的阶段。

第二阶段是实验执行。研究测试了两种实验执行变体。第一种是基于模板的模式:系统从一个可复现流行算法训练运行的初始代码模板开始,然后按线性顺序执行其提出的实验计划。如果遇到运行时错误,系统会自动检测、捕获错误日志,并调用Aider等代码助手代理进行自动调试,进行最多四轮修复尝试。所有实验结果、生成的图表和观察记录都被记录在一个实验日志中。第二种是无模板的模式:系统完全从零开始生成初始代码脚本。在此模式下,实验执行利用了额外的测试时计算资源,通过一个树搜索(tree search)过程来优化其编写的代码。这个树搜索过程又进一步分为四个子阶段:初步调查、超参数调优、研究议程执行和消融研究。系统以树状结构组织实验节点,每个节点包含代码脚本、执行计划、错误跟踪、性能指标、可视化脚本以及状态(有Bug或无Bug)。系统采用最佳优先搜索策略,优先选择有希望的节点进行扩展,并行执行新生成的子节点,从而高效地探索研究空间。实验过程中,系统还能动态地从公开仓库(如Hugging Face Hub)集成数据集,并使用视觉语言模型(VLM)对生成的图表进行审查和反馈。

第三阶段是手稿撰写。在实验完成后,系统利用其实验日志和生成的图表,按照标准机器学习会议论文的格式,逐节填充一个空白的LaTeX模板。它撰写引言、方法、结果和结论等部分。为了构建相关工作部分并在全文中添加引用,系统会通过Semantic Scholar API查询相关文献,并在多达20轮的比对中,为每个潜在的引用生成纳入理由。手稿会经过多轮自动编辑和提炼以提高清晰度和连贯性,并最终编译成PDF。

第四阶段是自动化评审。系统使用一个名为“自动化评审员”的组件来评估其生成论文的科学质量。该组件模拟顶级机器学习会议(如NeurIPS)的同行评审流程。它首先基于会议评审指南,为每篇论文生成五份独立的评审报告(包括优缺点、问题、分数等),然后由一个扮演“领域主席”角色的LLM对这五份报告进行元评审,形成一个最终的共识决定(接受或拒绝)。为了验证其有效性,研究人员在一个包含ICLR会议真实论文的公开数据集上对该自动化评审员进行了基准测试,结果显示其评估决定与人类评审员的集体判断具有高度一致性,其性能指标(如F1分数)甚至与NeurIPS 2021一致性研究中测得的人类评审员间的一致性水平相当或更优。

该研究的主要结果体现在以下几个方面:

首先,在系统性能评估方面,研究表明AI科学家的输出质量与底层基础模型的能力以及测试时投入的计算资源密切相关。通过自动化评审员对由不同LLM(如GPT-4、Claude Sonnet、Gemini等系列)生成的论文进行评分,发现论文质量随着模型发布时间的推移(即模型能力的提升)而显著提高,两者之间存在统计学上显著的正相关关系。同时,增加树搜索中的实验节点数量(即投入更多计算)也能直接提升生成论文的得分。这预示着随着AI模型和计算成本的持续进步,此类系统的能力有望大幅增强。

其次,最引人注目的结果是人类同行评审实验。在获得ICLR 2025会议领导层和“I Can’t Believe It’s Not Better”(ICBiNB)研讨会组织者许可并遵守伦理协议(所有AI生成稿件无论结果如何均在评审后撤回)的前提下,研究团队将三篇由无模板模式AI科学家生成的完整手稿提交给了该研讨会的正式盲审流程。评审员被告知提交物中混有AI生成的论文,但不知具体是哪几篇。三篇论文中的一篇获得了平均6.33分(单项评分6,7,6),超过了该研讨会的平均接收阈值。组织者表示,若非根据预设协议因其为AI生成而撤回,这篇论文很可能会被接收。这篇被“接收”的论文报告了一个负面结果,这与研讨会关注有趣负面结果的主题相符。另外两篇则未达到接收标准。这标志着第一篇完全由AI生成的论文成功通过了一个标准科学同行评审流程

最后,在自动化评审能力验证方面,自动化评审员在评估人类论文时表现出了与人类评审相当的判断力。如表1所示,无论是在模型知识截止日期之前(2017-2024年)还是之后(2025年)的论文数据集上,其平衡准确率(balanced accuracy)等关键指标都与NeurIPS 2021一致性实验报告中的人类评审员间一致性水平相近,甚至在某些指标上更优。这证明了基于LLM的代理能够提供与人类专家平均意见相符的有价值反馈。

基于以上结果,研究得出的核心结论是:AI科学家系统成功实现了从构思到评审的端到端科学研究自动化,并首次生成了能通过顶级机器学习会议研讨会同行评审的论文。这标志着AI进行科学推理和贡献的能力正在增长,预示着科学发现过程可能不再仅仅是人类独有的追求,我们收获科学发现成果的速度或将因此 dramatically加速。这项成就不仅是AI科学发现自动化漫长征程中的一个重要里程碑,也预示着科学研究范式可能发生的转变。

本研究的亮点和创新之处在于:第一,系统性创新:首次构建并演示了一个能够自主完成完整科学研究生命周期的集成化、多阶段代理系统,超越了以往仅自动化单一环节的研究。第二,验证方式的突破:不仅使用内部自动化指标,更重要的是将系统产出置于真实的、严格的学术评审环境中进行“图灵测试”,并取得了成功,这为评估AI科研能力提供了新的、更可信的基准。第三,方法论的先进性:设计了灵活的实验执行框架,既有基于模板的高效模式,也有无模板、利用树搜索进行开放式探索的模式,后者尤其展示了AI进行自主、开放式科学探索的潜力。第四,质量评估闭环:开发了性能与人类评审相当的自动化评审员,这不仅用于评估系统输出,其本身也是AI在学术评价领域应用的重要探索,为系统提供了内部质量反馈机制。

当然,研究也指出了系统的诸多局限性和未来挑战。例如,目前仅有一篇论文在接收率高达70%的研讨会上获得通过,尚无法达到顶级主会议(如ICLR 2025主会接收率为32%)的标准,更无法与最佳人类科研成果匹敌。常见的失败模式包括想法幼稚、核心思想实现错误、方法严谨性不足、实验实施错误、文本与附录图表重复,以及各种类型的幻觉(如不准确的引用)等。此外,该系统目前仅能进行计算机实验。未来,类似的框架或可应用于其他能够自动化进行实验的科学领域(如自动化化学实验室)。研究也强调了自动化论文生成带来的伦理和社会关切,如可能压垮同行评审系统、虚假增加研究资历、未经适当引用而挪用他人想法、取代科学家工作或进行不道德实验等风险。为此,研究团队在开展实验前获得了所有相关方的明确许可,并预先设定了撤回所有AI生成提交物的协议,以避免在科学界尚未建立明确披露和评估规范前树立不良先例。

这项研究展示了AI在自动化科学研究方面的巨大潜力及其当前边界。它既是AI能力发展的一个证明,也是对未来科学实践、伦理和治理提出新问题的一次重要探索。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com