分享自:

自动化代理工作流生成:AFlow框架

期刊:ICLR 2025

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


AFlow:自动化智能体工作流生成框架的突破性研究

作者与机构
本研究的核心团队由Jiayi Zhang(张佳艺,DeepWisdom与香港科技大学(广州))、Jinyu Xiang(向金宇,DeepWisdom)、Zhaoyang Yu(于朝阳,中国人民大学)等来自DeepWisdom、香港科技大学、中国人民大学、复旦大学等全球多所高校与研究机构的学者共同完成。研究以论文形式发表于ICLR 2025会议。

学术背景
大型语言模型(LLMs)在复杂任务解决中展现出巨大潜力,但其性能高度依赖人工设计的智能体工作流(agentic workflow)。这类工作流通常包含详细的指令序列和操作步骤,其构建需要耗费大量人力,限制了可扩展性和跨领域泛化能力。尽管已有研究尝试自动化生成工作流(如Khattab等2024年的提示优化研究),但现有方法仍依赖初始人工设置,且无法实现完全自动化的高效工作流探索。为此,本研究提出AFlow框架,将工作流优化重构为基于代码表示的搜索问题,通过蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)实现自动化生成。

研究方法与流程
1. 问题建模
- 将工作流定义为由LLM调用节点(node)和代码化边(edge)组成的图结构。每个节点包含模型类型(model)、提示词(prompt)、温度参数(temperature)和输出格式(format)四个核心参数,边则通过代码逻辑定义节点间的依赖关系。
- 搜索空间涵盖所有可能的节点参数组合与边结构配置,形式化为:
$$S = {(n, e) | e \in E}, \quad n = {n(m, \tau, p, f) | m \in M, \tau \in [0,1], p \in P, f \in F}$$

  1. 框架设计
    AFlow的核心创新在于:

    • 运算符(operator):预定义常见操作模块(如集成ensemble、审查revise等),作为工作流构建的基础单元。
    • MCTS优化:通过软混合概率选择策略(soft mixed-probability selection)平衡探索与利用,结合LLM驱动的节点扩展和执行反馈的逆向传播(backpropagation),实现高效搜索。具体流程包括:
      • 初始化:基于空白模板工作流,在验证集上筛选高方差问题子集。
      • 选择:按公式$p_{\text{mixed}}(i) = \lambda \cdot \frac{1}{n} + (1-\lambda) \cdot \frac{\exp(\alpha(si - s{\max}))}{\sum_j \exp(\alpha(sj - s{\max}))}$选择候选工作流。
      • 扩展:调用LLM优化器修改提示词或节点连接代码。
      • 评估:在验证集上执行5次取平均分。
      • 终止条件:Top-K工作流性能连续$n$轮无改进时提前停止。
  2. 实验设置

    • 数据集:涵盖六大基准测试——数学推理(MATH-Lv5*)、代码生成(HumanEval、MBPP)、问答(HotpotQA、DROP)和数学解题(GSM8K)。
    • 基线对比:包括人工设计方法(如Chain-of-Thought、MedPrompt)和自动化方法(如ADAS)。
    • 评估指标:代码任务采用pass@1,数学任务采用解决率(solve rate),问答任务采用F1分数。

主要结果
1. 性能优势
AFlow在六项基准测试中平均超越人工设计方法5.7%,优于现有自动化方法19.5%。例如:
- 在MBPP代码生成任务中达到83.4% pass@1,较基线最佳性能提升9.8%。
- 数学任务(MATH-Lv5*)解决率达56.2%,较ADAS提升57%。

  1. 成本效益
    通过AFlow生成的工作流可使较小模型(如DeepSeek-v2.5)在特定任务上以4.55%的推理成本超越GPT-4o。图4的帕累托前沿显示,其在Humaneval测试集上实现性能与成本的最优平衡。

  2. 通用性验证
    如表2所示,基于GPT-4o-mini搜索的工作流迁移至Claude-3.5-Sonnet时仍保持95.4%的性能,表明其模型无关性。但不同模型需特定工作流以实现最优表现。

结论与价值
1. 科学意义
- 首次将工作流优化形式化为代码搜索问题,为后续研究提供统一框架。
- 验证了MCTS在LLM工作流自动生成中的有效性,其树状经验存储机制解决了传统线性搜索的信息丢失问题。

  1. 应用价值
    • 降低人工设计成本:GSM8K案例中,AFlow自主演化出集成结构(图6),性能达93.5%。
    • 推动小模型落地:通过工作流优化,小模型可替代大模型,显著降低部署成本。

研究亮点
1. 方法论创新
- 提出“运算符”概念,将领域知识嵌入搜索空间。
- 设计混合概率选择策略,避免局部最优。

  1. 技术突破

其他发现
- 消融实验表明,即使无预定义运算符,AFlow仍能自主发现集成策略(图5a),验证其自动化潜力。
- 案例研究揭示工作流迭代规律:从简单生成→多路径集成→错误修复的演进路径(图6),与人类设计思维高度吻合。


(注:全文约2000字,完整覆盖研究背景、方法、结果与价值,符合学术报告规范。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com