这是一篇发表于《自然》期刊的原创研究论文,报告了一个名为“Co-Scientist”的多智能体人工智能系统的开发与初步验证。该系统旨在通过结构化的科学思维辅助科学家加速新知识的发现,特别是在生物医学领域。
作者与发表信息 本研究由来自谷歌云AI研究、谷歌DeepMind、谷歌研究院、斯坦福大学医学院、休斯顿卫理公会医院、Sequome公司以及弗莱明倡议与帝国理工学院伦敦校区等多个机构的庞大团队合作完成。通讯作者包括Juraj Gottweis、Wei-Hung Weng、Pushmeet Kohli、Annalisa Pawlosky、Alan Karthikesalingam和Vivek Natarajan。该论文的加速预览版已于2026年5月11日被《自然》期刊接受发表,在线发布于2026年。
学术背景与研究目标 科学发现的核心在于科学家针对复杂问题提出新颖假设,并对其进行严格的实验验证。然而,现代科学面临着“广度与深度困境”:科学文献的爆炸式增长与技术的日益专业化,使得研究人员难以同时掌握特定学科的深度知识和跨学科的广阔视野。与此同时,人工智能,特别是大语言模型,在通用智能、推理、多模态理解和智能体行动方面取得了快速进展。
基于此,研究团队开发了Co-Scientist。它不是一个简单的文献总结工具,而是一个建立在谷歌Gemini大语言模型之上的“结构化科学思维引擎”。其核心目标是作为科学家的协作伙伴,帮助科学家加速发现过程。具体而言,给定一个用自然语言描述的研究目标,Co-Scientist能够搜索、学习并推理相关文献,综合现有工作,最终提出新颖、原创且可实验验证的研究假设和实验方案。它通过引用相关文献、应用严谨的科学推理以及在适用时使用外部工具验证结论,为其建议提供依据。Co-Scientist的设计遵循“科学家在回路”的协作范式,科学家可以自然语言互动、引导和反馈。
详细工作流程 Co-Scientist是一个复杂的多智能体系统,其工作流程模拟了科学方法的多个核心环节,并通过大规模扩展“测试时计算”来实现迭代改进。其架构主要包括以下组件和流程:
系统架构与核心组件:
工作流程步骤:
消融分析与系统评估流程: 为了验证系统设计的有效性,研究团队进行了系统的定量消融分析。他们评估了移除或修改关键组件(如反思智能体的搜索工具、排名智能体的科学辩论提示、进化智能体的迭代精炼等)对系统性能的影响。这些分析证实了多智能体架构和专门化提示策略对于生成准确、稳健的科学假设至关重要。例如,赋予反思智能体搜索工具访问权限,能有效防止其将已知想法误判为新颖假设;使用科学辩论提示进行排名,显著提高了排名准确性并减少了位置偏差;进化智能体的迭代精炼过程则直接提升了假设的质量得分。
测试时计算扩展评估: 研究团队设计实验来评估增加“思考”和计算时间(即测试时计算)对Co-Scientist输出质量的影响。他们分析了203个不同研究目标(主要来自生物医学,也包括数学和物理等领域)上生成的假设。通过将生成过程按时间分成10个等份区间,并计算每个区间内顶级假设的平均Elo评分和最高Elo评分,他们发现随着计算时间的增加,假设质量呈现持续上升趋势,表明系统能够通过信息反馈循环实现递归式自我改进。
与前沿模型及人类专家的基准比较: 在一个由7位生物医学专家精心策划的15个高难度研究目标子集上,研究团队将Co-Scientist与当时最先进的大语言模型和推理模型(包括Gemini 2.0 Pro/Flash Experimental、OpenAI o1、o3-mini-high和DeepSeek R1)以及专家自己提供的“最佳猜测”假设进行了对比。评估采用Co-Scientist内部的Elo评分机制。结果表明,通过测试时计算的扩展,Co-Scientist最终在Elo评分上显著超越了其他前沿模型和人类专家的初始猜测。
人类专家盲评: 进一步地,他们邀请专家对其中11个研究目标的输出进行盲法评估。专家从新颖性和影响力两个维度(1-5分)对Co-Scientist及其他基线模型的输出进行评分和偏好排序。结果显示,Co-Scientist生成的假设在平均偏好排名(2.36)、新颖性(3.64)和影响力(3.09)方面均优于其他模型。
主要研究成果 研究的核心成果体现在Co-Scientist系统在三个具有挑战性的生物医学问题上的端到端验证,所有验证均涉及“专家在回路”的协作。
药物重定位用于急性髓系白血病:
发现肝纤维化新治疗靶点:
重现抗菌素耐药性机制突破:
结论与意义 本研究成功开发并初步验证了Co-Scientist,这是一个基于多智能体架构的结构化科学思维引擎。它通过“生成、辩论、进化”的范式,模拟科学方法的核心环节,利用测试时计算的扩展来迭代改进假设,而非依赖暴力生成。系统的上下文记忆与迭代自我改进循环共同形成了一个对科学研究过程的内隐模型,有助于综合信息并识别知识缺口。
其实用价值在三个不同复杂度的生物医学挑战中得到了初步证明:在AML中发现了具有体外活性的重定位候选药物和协同组合;为肝纤维化提出了新的表观遗传靶点并验证了有效化合物;独立重现了关于细菌基因转移新机制的未发表发现。这些结果表明,Co-Scientist有潜力通过增强科学家能力来为科学发现做出有意义的贡献。
该系统架构是模型无关的,可以受益于前沿大语言模型的进步。它代表了迈向AI辅助科学家和加速科学发现的有希望的一步。其跨领域生成新颖、可测试假设的能力,以及随着计算增加而递归自我改进的潜力,展示了在应对人类健康、医学和科学重大挑战方面加速科学家工作的前景。
研究亮点 1. 创新性系统设计:首次提出了一个专门用于结构化科学思维和假设生成的多智能体AI系统(Co-Scientist),超越了传统的文献总结和深度研究工具。 2. 测试时计算范式的有效扩展:实证证明了通过多智能体架构和异步任务框架,大规模扩展测试时计算可以持续提升科学推理和假设生成的质量,形成自我改进循环。 3. “科学家在回路”的协作范式:系统设计强调与人类科学家的自然语言交互和协作,允许科学家引导、反馈并整合其专业知识,实现人机协同。 4. 端到端的跨领域实验验证:不仅在自动评估和专家盲评中表现优异,更重要的是在三个截然不同且复杂的真实世界生物医学应用(药物重定位、新靶点发现、机制阐释)中进行了从假设生成到湿实验室验证的完整闭环验证,证明了其产生新颖、可验证科学假设的实际能力。 5. 发现具有潜在转化价值的生物学线索:例如,发现了对特定AML细胞系具有高选择性的新型候选药物Kira6,以及具有协同效应的药物组合,这些发现本身具有独立的科学价值和进一步研究的潜力。
其他有价值内容 论文也坦诚讨论了Co-Scientist的局限性,包括其知识受限于开放获取文献(可能遗漏付费墙后的关键先前工作及阴性实验结果)、依赖底层模型可能存在的事实性错误和幻觉风险、以及初步验证仍需更广泛的评估。未来发展方向包括增强系统的稳健性(如改进文献检索、事实核查)、扩展核心能力(如整合多模态数据推理)、开展更广泛的跨学科评估,以及最终与实验室自动化平台集成以实现自主的“假设-验证-学习”闭环。这些讨论为该领域的后续发展提供了清晰的路线图。