本文档属于类型b(综述论文)。以下为针对该文档生成的学术报告:
《基于大语言模型的自主智能体研究综述》学术报告
作者:Lei Wang, Chen Ma, Xueyang Feng* 等(中国人民大学高瓴人工智能学院)*
期刊:Front. Comput. Sci., 2025
本文系统综述了基于大语言模型(Large Language Model, LLM)的自主智能体(Autonomous Agent)研究进展。传统智能体通常在孤立环境中训练,其决策能力与人类学习过程存在显著差异。随着LLM通过海量网络知识获得类人智能潜力,研究者开始探索以LLM为核心构建自主智能体的新范式。本文从构建、应用、评估三个维度梳理现有研究,并提出未来挑战与方向。
作者提出涵盖多数现有研究的四模块框架(图2):
- 角色画像模块(Profiling Module):定义智能体身份,包含人口统计、心理特征、社会关系等信息。生成方法包括手工设计(如Generative Agents)、LLM生成(如RecAgent)和真实数据集对齐(如ANES人口统计研究)。
- 记忆模块(Memory Module):
- *结构*:分为统一记忆(仅短期记忆,如RLP)和混合记忆(结合短/长期记忆,如Generative Agents的向量数据库存储)。
- *操作*:包括记忆读取(基于时效性、相关性、重要性评分)、记忆写入(处理重复与溢出问题)和记忆反思(如GitM将成功动作抽象为通用模式)。
- 规划模块(Planning Module):
- *无反馈规划*:如单路径推理(Chain-of-Thought)和多路径推理(Tree-of-Thoughts)。
- *有反馈规划*:整合环境反馈(如Voyager利用程序执行错误调整计划)、人类反馈(如Inner Monologue)和模型自反馈(如Reflexion的自我修正机制)。
- 行动模块(Action Module):
- *目标*:包括任务完成(如Minecraft建造)、通信(如ChatDev多智能体协作)和环境探索。
- *行动空间*:涵盖外部工具(API、数据库)和LLM内部知识(规划、对话、常识理解能力)。
支持证据:表1对比了32项研究的模块设计差异,例如HuggingGPT仅依赖短期记忆,而Voyager采用混合记忆与多轮环境反馈。
分为两类方法:
- 微调驱动:
- *人工标注数据集*:如WebShop通过人类购物行为数据训练智能体。
- *LLM生成数据集*:如ToolBench利用ChatGPT生成API调用指令微调Llama模型。
- *真实数据集*:如Mind2Web基于137个网站的交互数据优化网页任务性能。
- 非微调驱动:
- *提示工程*:如CoT通过分步推理示例激发LLM潜力。
- *机制工程*:包括试错法(如DEPS根据失败解释重规划)、众包法(如多智能体辩论达成共识)和自我进化(如Voyager的技能库积累)。
理论支持:图4指出,传统机器学习依赖参数学习,LLM时代新增提示工程,而智能体时代进一步引入机制工程,形成“参数-提示-机制”三重能力获取路径。
智能体已在三大领域展现价值(图5左):
- 社会科学:
- *心理学*:模拟人类实验(如GPT-4复现认知偏差研究)。
- *社会模拟*:如Generative Agents构建虚拟小镇研究人际传播规律。
- *法律辅助*:ChatLaw通过自注意力机制减少法律 hallucination。
- 自然科学:
- *实验助手*:ChemCrow整合17种化学工具设计合成路径。
- *教育工具*:Math Agent辅助数学问题求解与教学。
- 工程应用:
- *软件开发*:MetaGPT通过多角色协作生成高质量代码。
- *机器人*:SayCan将自然语言指令转化为551种厨房操作技能。
数据支撑:表2列举了代表性应用,如Social Simulacra通过智能体模拟在线社区治理策略。
亮点:
- 首创“架构-能力-应用-评估”四维综述体系。
- 涵盖2021-2023年56项前沿研究,包括9项作者团队工作(如ChatDev、Voyager)。
- 提出“机制工程”新范式,超越传统提示工程局限。
(报告总字数:约2,200字)