分享自:

利用Co-Scientist加速科学发现

期刊:NatureDOI:10.1038/s41586-026-10644-y

这是一篇发表于《自然》期刊的原创研究论文,报告了一个名为“Co-Scientist”的多智能体人工智能系统的开发与初步验证。该系统旨在通过结构化的科学思维辅助科学家加速新知识的发现,特别是在生物医学领域。

作者与发表信息 本研究由来自谷歌云AI研究、谷歌DeepMind、谷歌研究院、斯坦福大学医学院、休斯顿卫理公会医院、Sequome公司以及弗莱明倡议与帝国理工学院伦敦校区等多个机构的庞大团队合作完成。通讯作者包括Juraj Gottweis、Wei-Hung Weng、Pushmeet Kohli、Annalisa Pawlosky、Alan Karthikesalingam和Vivek Natarajan。该论文的加速预览版已于2026年5月11日被《自然》期刊接受发表,在线发布于2026年。

学术背景与研究目标 科学发现的核心在于科学家针对复杂问题提出新颖假设,并对其进行严格的实验验证。然而,现代科学面临着“广度与深度困境”:科学文献的爆炸式增长与技术的日益专业化,使得研究人员难以同时掌握特定学科的深度知识和跨学科的广阔视野。与此同时,人工智能,特别是大语言模型,在通用智能、推理、多模态理解和智能体行动方面取得了快速进展。

基于此,研究团队开发了Co-Scientist。它不是一个简单的文献总结工具,而是一个建立在谷歌Gemini大语言模型之上的“结构化科学思维引擎”。其核心目标是作为科学家的协作伙伴,帮助科学家加速发现过程。具体而言,给定一个用自然语言描述的研究目标,Co-Scientist能够搜索、学习并推理相关文献,综合现有工作,最终提出新颖、原创且可实验验证的研究假设和实验方案。它通过引用相关文献、应用严谨的科学推理以及在适用时使用外部工具验证结论,为其建议提供依据。Co-Scientist的设计遵循“科学家在回路”的协作范式,科学家可以自然语言互动、引导和反馈。

详细工作流程 Co-Scientist是一个复杂的多智能体系统,其工作流程模拟了科学方法的多个核心环节,并通过大规模扩展“测试时计算”来实现迭代改进。其架构主要包括以下组件和流程:

  1. 系统架构与核心组件

    • 自然语言接口:科学家通过自然语言定义研究目标、提供约束条件和反馈。
    • 异步任务执行框架:一个监督智能体负责管理任务队列,动态分配计算资源给各个专门的“工作智能体”,实现灵活的计算扩展。
    • 专门化智能体:系统包含多个各司其职的智能体,每个都配备了定制的提示指令,共同协作:
      • 生成智能体:负责通过文献探索、模拟科学辩论、迭代假设识别等策略,生成初始的研究假设和提案。
      • 反思智能体:扮演“科学同行评审员”的角色,对生成的假设进行批判性审查,评估其正确性、质量和新颖性。它使用多种审查策略,包括初步审查、利用网络搜索的全面审查、深度验证审查(将假设分解为基本假设逐一验证)、观察审查(评估假设能否解释已有实验现象)和模拟审查。
      • 排名智能体:组织实施基于Elo评分系统的“锦标赛”。它通过安排假设之间的配对比较(通常以多轮科学辩论的形式)来评估和优先排序所有假设,从而识别出最有前景的候选方案。
      • 邻近智能体:计算假设之间的语义相似性,构建邻近图,用于在锦标赛中组织相似假设的比较,并帮助科学家探索多样化的想法。
      • 进化智能体:通过多种策略(如基于文献的增强、提高可行性、从现有假设中获取灵感、组合多个假设的优点、简化概念、跳出框框思考等)持续改进和精炼排名靠前的假设,生成新的、更优的假设版本。
      • 元评审智能体:综合分析所有评审和辩论中的模式,生成元评审反馈,用于优化其他智能体在后续迭代中的表现。在计算结束时,它还会将顶级假设综合成一份全面的研究概览。
    • 上下文记忆:一个持久化的存储系统,用于保存和检索系统在长时间推理过程中的状态,支持迭代计算。
  2. 工作流程步骤

    • 目标解析与计划配置:系统首先解析科学家输入的研究目标,生成一个研究计划配置,明确提案的偏好、属性和评估标准。
    • 初始生成与评审循环:生成智能体产生初始假设。反思智能体对这些假设进行评审,过滤掉有明显缺陷或缺乏新颖性的想法。
    • 锦标赛排名与迭代进化:通过排名智能体组织的锦标赛,假设被不断比较和排序。同时,进化智能体根据锦标赛状态和反馈,对高质量假设进行精炼和演化,产生新的候选假设加入竞争。元评审智能体则从全局视角提供优化反馈。
    • 科学家交互:在整个过程中,科学家可以随时介入,提供自然语言反馈、评审假设、甚至贡献自己的假设供系统评估和整合。
    • 输出与选择:最终,系统输出一个经过排序的假设列表以及一份综合研究概览。科学家据此选择最有潜力的候选方案进行后续的实验验证。
  3. 消融分析与系统评估流程: 为了验证系统设计的有效性,研究团队进行了系统的定量消融分析。他们评估了移除或修改关键组件(如反思智能体的搜索工具、排名智能体的科学辩论提示、进化智能体的迭代精炼等)对系统性能的影响。这些分析证实了多智能体架构和专门化提示策略对于生成准确、稳健的科学假设至关重要。例如,赋予反思智能体搜索工具访问权限,能有效防止其将已知想法误判为新颖假设;使用科学辩论提示进行排名,显著提高了排名准确性并减少了位置偏差;进化智能体的迭代精炼过程则直接提升了假设的质量得分。

  4. 测试时计算扩展评估: 研究团队设计实验来评估增加“思考”和计算时间(即测试时计算)对Co-Scientist输出质量的影响。他们分析了203个不同研究目标(主要来自生物医学,也包括数学和物理等领域)上生成的假设。通过将生成过程按时间分成10个等份区间,并计算每个区间内顶级假设的平均Elo评分和最高Elo评分,他们发现随着计算时间的增加,假设质量呈现持续上升趋势,表明系统能够通过信息反馈循环实现递归式自我改进。

  5. 与前沿模型及人类专家的基准比较: 在一个由7位生物医学专家精心策划的15个高难度研究目标子集上,研究团队将Co-Scientist与当时最先进的大语言模型和推理模型(包括Gemini 2.0 Pro/Flash Experimental、OpenAI o1、o3-mini-high和DeepSeek R1)以及专家自己提供的“最佳猜测”假设进行了对比。评估采用Co-Scientist内部的Elo评分机制。结果表明,通过测试时计算的扩展,Co-Scientist最终在Elo评分上显著超越了其他前沿模型和人类专家的初始猜测。

  6. 人类专家盲评: 进一步地,他们邀请专家对其中11个研究目标的输出进行盲法评估。专家从新颖性和影响力两个维度(1-5分)对Co-Scientist及其他基线模型的输出进行评分和偏好排序。结果显示,Co-Scientist生成的假设在平均偏好排名(2.36)、新颖性(3.64)和影响力(3.09)方面均优于其他模型。

主要研究成果 研究的核心成果体现在Co-Scientist系统在三个具有挑战性的生物医学问题上的端到端验证,所有验证均涉及“专家在回路”的协作。

  1. 药物重定位用于急性髓系白血病

    • 流程:研究将Co-Scientist的应用范围限定在34种癌症类型和2300种已批准药物中,寻找新的治疗适应症。首先进行临床肿瘤学家专家评审,筛选出有潜力的候选药物。随后,对选定的候选药物进行体外湿实验室验证。
    • 研究对象与样本量:使用了四种不同亚型的AML细胞系(MOLM-13, KG-1A, HL-60, NOMO-1)和一种非AML对照细胞系(TK6)。实验均设置生物学独立重复(n=3)。
    • 结果
      • 基于专家指导的候选药物:在测试的五种药物中,Binimetinib、Pacritinib和Cerivastatin在AML细胞系中显示出抑制细胞活力的活性。其中,Binimetinib(已批准用于治疗转移性黑色素瘤)在除NOMO-1外的所有AML细胞系中表现出低至2 nM的半最大抑制浓度,但在TK6对照细胞系中活性低得多,提示了潜在的治疗窗口。
      • 系统自主提出的全新候选药物:在无额外输入的情况下,Co-Scientist自主提出了三个未被临床前证据支持的AML重定位候选药物。其中,IRE1α抑制剂Kira6在KG-1A细胞系中表现出极强的选择性细胞毒性,其IC50为10 nM,显著低于对照TK6细胞的180 nM,显示出18倍的选择性差异。这提示IRE1α阻断可能对靶向原始的、干细胞样AML群体最有效。
      • 新型协同药物组合:Co-Scientist被要求识别有前景的AML协同多药方案。在MOLM-13和KG-1A细胞系中对7种组合进行测试。结果显示,在MOLM-13细胞中,双重(如JNJ-64619178 + Selinexor)和三重(如JQ1 + Olaparib + MSA2)组合均表现出显著的协同作用。而在TP53突变的KG-1A细胞中,反应则高度依赖于具体情境,混合了协同和拮抗作用,反映了其独特的分子特征。
      • 临床转化设计指导:研究还展示了Co-Scientist能够利用详细的临床变量框架(包括患者人口统计学、风险分层、分子特征、临床前活性、安全性及药代动力学/药效学数据)进行结构化转化分析,成功为Binimetinib识别出特定的临床适用人群(体弱、经大量预治疗的AML患者),并准确推断出其可规避与唑类抗真菌药的严重药物相互作用。
  2. 发现肝纤维化新治疗靶点

    • 流程:Co-Scientist被用于生成关于肝纤维化表观遗传修饰靶点的假设,并识别靶向这些预测修饰剂的药物。专家从系统生成的排名靠前的假设中选择了三个进行实验验证。
    • 研究对象与方法:使用人源肝脏类器官结合活细胞成像技术进行验证。
    • 结果:Co-Scientist成功识别了三种新的表观遗传修饰剂及其靶向药物。其中两种药物在肝脏类器官中表现出显著的抗纤维化活性且未引起细胞毒性。值得注意的是,其中一种有效的药物Vorinostat已是FDA批准用于另一种癌症适应症的药物,这为肝纤维化治疗创造了药物重定位的机会。
  3. 重现抗菌素耐药性机制突破

    • 流程:研究人员要求Co-Scientist仅基于少量背景信息,独立探索衣壳形成噬菌体诱导染色体岛(capsid-forming phage-inducible chromosomal islands, cf-PICIs)具有广泛宿主范围并快速传播的机制。cf-PICIs是能在不同细菌物种间传播毒力和抗生素耐药基因的移动遗传元件。
    • 结果:Co-Scientist在短短两天内独立且准确地提出了其排名第一的突破性假设:cf-PICIs通过与多种噬菌体尾部相互作用来扩展其宿主范围。这一发现与一项独立的、同时进行的基因组和实验研究在完成同行评审前的主要发现完全吻合。

结论与意义 本研究成功开发并初步验证了Co-Scientist,这是一个基于多智能体架构的结构化科学思维引擎。它通过“生成、辩论、进化”的范式,模拟科学方法的核心环节,利用测试时计算的扩展来迭代改进假设,而非依赖暴力生成。系统的上下文记忆与迭代自我改进循环共同形成了一个对科学研究过程的内隐模型,有助于综合信息并识别知识缺口。

其实用价值在三个不同复杂度的生物医学挑战中得到了初步证明:在AML中发现了具有体外活性的重定位候选药物和协同组合;为肝纤维化提出了新的表观遗传靶点并验证了有效化合物;独立重现了关于细菌基因转移新机制的未发表发现。这些结果表明,Co-Scientist有潜力通过增强科学家能力来为科学发现做出有意义的贡献。

该系统架构是模型无关的,可以受益于前沿大语言模型的进步。它代表了迈向AI辅助科学家和加速科学发现的有希望的一步。其跨领域生成新颖、可测试假设的能力,以及随着计算增加而递归自我改进的潜力,展示了在应对人类健康、医学和科学重大挑战方面加速科学家工作的前景。

研究亮点 1. 创新性系统设计:首次提出了一个专门用于结构化科学思维和假设生成的多智能体AI系统(Co-Scientist),超越了传统的文献总结和深度研究工具。 2. 测试时计算范式的有效扩展:实证证明了通过多智能体架构和异步任务框架,大规模扩展测试时计算可以持续提升科学推理和假设生成的质量,形成自我改进循环。 3. “科学家在回路”的协作范式:系统设计强调与人类科学家的自然语言交互和协作,允许科学家引导、反馈并整合其专业知识,实现人机协同。 4. 端到端的跨领域实验验证:不仅在自动评估和专家盲评中表现优异,更重要的是在三个截然不同且复杂的真实世界生物医学应用(药物重定位、新靶点发现、机制阐释)中进行了从假设生成到湿实验室验证的完整闭环验证,证明了其产生新颖、可验证科学假设的实际能力。 5. 发现具有潜在转化价值的生物学线索:例如,发现了对特定AML细胞系具有高选择性的新型候选药物Kira6,以及具有协同效应的药物组合,这些发现本身具有独立的科学价值和进一步研究的潜力。

其他有价值内容 论文也坦诚讨论了Co-Scientist的局限性,包括其知识受限于开放获取文献(可能遗漏付费墙后的关键先前工作及阴性实验结果)、依赖底层模型可能存在的事实性错误和幻觉风险、以及初步验证仍需更广泛的评估。未来发展方向包括增强系统的稳健性(如改进文献检索、事实核查)、扩展核心能力(如整合多模态数据推理)、开展更广泛的跨学科评估,以及最终与实验室自动化平台集成以实现自主的“假设-验证-学习”闭环。这些讨论为该领域的后续发展提供了清晰的路线图。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com