分享自:

达尔文哥德尔机:自改进智能体的开放式进化

期刊:ICLR

关于达尔文哥德尔机的研究报告

本报告旨在向中文研究者介绍一篇发表于ICLR 2026会议(作为会议论文)的学术研究。论文标题为《Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents》,由Jenny Zhang*,1,2、Shengran Hu*,1,2,3、Cong Lu1,2,3、Robert Lange†,3和Jeff Clune†,1,2,4共同完成。作者来自不列颠哥伦比亚大学、Vector Institute、Sakana AI以及加拿大CIFAR AI Chair。

一、 学术背景

本研究属于人工智能(AI)领域,具体聚焦于自主智能体(Agents)元学习(Meta-Learning) 的前沿方向。当前大多数AI系统受限于人类设计的固定架构,无法实现自主、持续的自我改进。相比之下,科学方法是一个累积且开放式的系统,每一项创新都建立在先前成果之上,从而推动未来的发现。这引发了一个关键问题:能否将AI系统自身的演进过程自动化,使其能够像科学进程一样,通过不断自我改进来加速发展并解决更复杂的问题?

传统元学习方法可以自动发现新算法,但受限于一阶改进和人为设计的搜索空间。哥德尔机(Gödel Machine)理论(Schmidhuber, 2007)提出了一个自我改进AI的构想,即通过可证明有益的方式反复修改自身代码。然而,在实践中为大多数修改提供形式化证明几乎是不可能的。

因此,本研究的目标是构建一个实用的、无需形式化证明的自我改进AI系统。研究者们从达尔文进化论(Darwinian evolution)开放式演化(Open-endedness) 研究中获得灵感,旨在开发一个能够迭代修改自身代码、并通过编码基准测试进行经验验证的系统。该系统不仅提升解决特定任务的能力,也提升其自我改进的能力,从而实现潜在的自我加速进步。

二、 详细研究流程

本研究提出并验证了达尔文哥德尔机(Darwin Gödel Machine, DGM),一个通过开放式探索实现自我改进的系统。其核心思想是让一个编码智能体(Coding Agent)不断修改自己的源代码(即其工作流程、工具等),并通过在标准编码基准测试上的表现来验证这些修改的有效性。DGM通过维护一个智能体档案库(Archive)来模拟开放式演化过程,允许多条进化路径并行探索。

整个研究流程主要包括以下几个关键步骤和实验设计:

  1. DGM系统初始化与核心组件:

    • 初始智能体: DGM从一个单一的、基础的编码智能体开始。该智能体围绕一个冻结的预训练基础模型(Frozen Pretrained Foundation Model, FM) 构建,并配备了两个基本工具:一个用于执行Bash命令的bash工具,和一个用于查看和编辑文件的edit工具。智能体接收一个包含目标代码仓库位置、问题描述和测试框架的提示词(Prompt)。
    • 自我改进循环: DGM的运行是一个迭代循环,包含两个主要阶段:
      • 自我修改阶段: 从档案库中根据性能分数和探索程度(子代数量)按概率选择一个“父代”智能体。该智能体分析自身的基准测试日志,提出一个改进自身代码库的功能特性(例如,开发更精细的文件编辑工具),然后执行这个修改,生成一个“子代”智能体。
      • 评估阶段: 新生成的子代智能体在选定的编码基准测试(本研究使用SWE-bench和Polyglot)上进行评估,以估计其编码能力。只有那些能够成功编译并保留代码库编辑基本功能的智能体才会被添加到档案库中,从而保证后续迭代的可行性。
  2. 实验设置与基准测试:

    • 实验配置: 每次DGM运行进行80次迭代(生成80个新智能体)。在自我修改阶段,智能体由Claude 3.5 Sonnet驱动;在评估阶段,SWE-bench使用Claude 3.5 Sonnet,Polyglot使用o3-mini。
    • 基准测试选择: 研究使用了两个流行的编码基准测试来评估DGM的有效性,以验证其在不同用例中的泛化能力。
      • SWE-bench: 专注于Python编程任务,要求智能体根据GitHub Issue描述修复真实世界开源软件仓库中的错误或实现功能。本研究使用了其经过人工验证的可解子集(SWE-bench Verified)。
      • Polyglot: 包含多种编程语言(C++、Rust、Python等)的任务,主要用于评估代码助手Aider。与SWE-bench相比,Polyglot更小众,可能未被广泛纳入FM的训练数据,因此能更好地测试泛化能力。
    • 分阶段评估策略: 由于在完整基准上评估成本高昂,研究采用了分阶段评估策略。首先,每个新智能体在10个任务的小子集上测试基本功能。通过后,在50个任务的扩展子集上评估。对于表现优异者(例如在SWE-bench的60任务子集上成功率超过40%且排名前二),进一步在200个任务的大子集上进行更准确的评估。
  3. 基线对比与对照组设计: 为了分离和评估DGM核心组件的贡献,研究设置了两个关键基线进行对比:

    • 无自我改进的DGM(DGM w/o self-improve): 充当元智能体(负责修改其他智能体)的角色固定为初始的基础智能体,不随迭代更新。这类似于自动化智能体设计(ADAS)方法,用于评估迭代自我改进的作用。
    • 无开放式探索的DGM(DGM w/o open-ended exploration): 不维护档案库,每次只从最新版本的智能体进行自我修改。如果一次修改导致智能体失去基本功能,则回退到上一个有效版本。这用于评估档案库和开放式探索原则(如利用多样性作为踏脚石)的重要性。
    • **此外,研究还将DGM发现的最佳智能体与人工设计的、开源的代表性解决方案进行了比较:SWE-bench上对比了经过验证的开源最优方案(SOTA),Polyglot上对比了Aider。
  4. 数据分析流程:

    • 主要性能指标是在基准测试子集上的任务解决成功率。
    • 通过绘制迭代过程中最佳智能体性能的变化曲线,来展示自我改进的持续进展。
    • 通过可视化档案库中智能体的进化树(节点代表智能体,颜色和大小表示性能和评估规模,边表示父子关系),来分析开放式探索的路径和关键创新节点。
    • 通过在不同模型、不同基准、不同编程语言任务之间迁移测试最佳智能体,来评估其改进的通用性和鲁棒性,而非对特定FM或任务的过拟合。

三、 主要研究结果

  1. 自我改进与性能提升: 经过80次迭代,DGM成功地将编码智能体的性能从初始的20.0%提升至50.0%(SWE-bench),以及从14.2%提升至30.7%(完整Polyglot基准)。这表明DGM能够自动发现并集成有效的自我改进,显著提升其在编码任务上的能力。
  2. 核心机制的有效性验证:
    • 自我改进的必要性: DGM的性能持续提升,显著优于“无自我改进”基线。后者在早期迭代后性能增长即趋于停滞,表明固定元智能体的改进潜力有限。
    • 开放式探索的关键作用: DGM的表现也显著优于“无开放式探索”基线。后者容易因一次不佳的修改而陷入性能低谷,难以恢复。而DGM的档案库机制允许从历史上任何有潜力的智能体分支,从而能够探索多样化的改进路径,即使某些路径上出现暂时的性能下降,最终也能通过后续探索产生突破性创新(如图3所示,节点24的关键创新引发了后续大量的成功衍生)。
  3. 与人工设计方案的对比: DGM自动发现的最佳智能体在SWE-bench上的性能与经过验证的、开源的人工设计最优方案(SOTA)相当。在Polyglot上,DGM智能体更是大幅超越了代表性的人工设计智能体Aider。这表明DGM具备自动化设计高性能智能体的潜力。
  4. 自动发现的改进内容: DGM自动改进了智能体的工具和工作流程。例如,它改进了edit工具,使其能够按行查看文件和进行更精确的字符串替换,而不是总是操作整个文件。在工作流程方面,它引入了生成多个解决方案补丁(Patch)并由另一个FM评估选择最佳方案、基于历史尝试生成后续方案等机制。
  5. 改进的通用性与可迁移性:
    • 跨模型迁移: 将在Claude 3.5 Sonnet上优化的DGM最佳智能体,迁移到其他FM(如Claude 3.7 Sonnet和o3-mini)上测试,其性能提升依然显著,表明改进是通用的,而非针对特定FM的调优。
    • 跨基准迁移: 在SWE-bench上优化的最佳智能体,在从未接触过的Polyglot基准上测试,性能同样优于初始智能体,反之亦然。这证明DGM的改进反映的是一般性的编码技能提升,而非对特定基准的过拟合。
    • 跨任务迁移: 在Polyglot上,即使DGM主要使用Python任务进行优化,其发现的智能体在迁移到C++等未见过的编程语言任务时,性能仍然显著优于基础智能体和Aider,展现了强大的跨语言泛化能力。

四、 研究结论与意义

本研究成功构建并验证了达尔文哥德尔机(DGM),这是首个结合了开放式探索的、由基础模型驱动的自我改进系统。DGM的核心贡献在于,它实现了“自我改进能力的提升”与“下游任务性能的提升”之间的正向循环:通过在编码基准上表现更好来证明其自我改进有效,而更强的编码能力又使其能进行更有效的自我修改。

其科学价值在于: 1. 理论实践化: 将哥德尔机的理论构想向实用化推进了一步,用经验验证替代了不切实际的形式化证明,并结合了达尔文进化思想来解决搜索空间中的局部最优问题。 2. 方法论创新: 展示了开放式探索(维护多样性档案库)在自我改进系统中的关键作用,避免了贪婪的爬山算法(Hill-climbing)可能导致的停滞。 3. 验证了自我加速潜力: 提供了初步证据,表明AI系统可以通过递归的自我修改实现持续的、开放式的性能提升,朝着自我加速的AI发展目标迈出了一步。

其应用价值在于: 1. 自动化AI开发: 为自动化AI系统设计提供了新范式,减少对人工设计的高度依赖,有望加速AI能力的演进。 2. 通用智能体框架: 所展示的自我改进机制和开放式架构,可被推广至编码以外的其他领域(如视觉、创意写作),用于构建更通用的自主改进型AI。

五、 研究亮点

  1. 核心创新: 首次将自我指涉(Self-referential)的自我改进、经验验证与基于档案库的开放式探索有机结合,构建了一个切实可行的自我改进AI系统。
  2. 系统性验证: 通过精心设计的基线对比(无自我改进 vs. 无开放式探索),清晰论证了两个核心组件各自不可或缺的作用。
  3. 强泛化证据: 通过跨模型、跨基准、跨任务的广泛迁移实验,有力地证明了DGM所发现的改进具有高度的通用性和鲁棒性,而非特定条件下的过拟合。
  4. 安全性考量: 研究在实验设置中主动纳入了安全措施(如沙盒隔离、人类监督、修改痕迹可追溯),并对自我改进AI的潜在安全风险与益处进行了前瞻性讨论,体现了负责任的研究态度。

六、 其他有价值的内容

  1. 安全性讨论: 论文设专门章节探讨了自我改进系统的潜在风险(如引入未对齐行为、复杂性导致不可解释性),并介绍了当前实验中的缓解措施(沙盒、资源限制、范围限定)。同时,也提出了未来将自我改进能力导向提升AI安全性本身的可能性(例如,将安全目标纳入评估标准)。
  2. 局限性与未来方向: 论文坦承了当前DGM的局限性:a) 性能仍落后于未开源的顶尖人工方案;b) 运行计算成本和API费用高昂;c) 自我修改目前仅限于智能体的设计(提示、工作流、工具),未涉及重写训练脚本来更新基础模型本身;d) 开放式探索过程本身目前是固定的,未来可让其也实现自我改进。这些指明了有价值的未来研究方向。
  3. 可复现性声明: 作者承诺将开源所有代码、完整智能体日志、修改差异记录和评估工具链,为后续研究提供了坚实的基础。

这项研究在实现自我改进、开放式演化的AI道路上取得了实质性进展,为未来构建更自主、更强大的AI系统提供了重要的方法论和实证依据。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com