关于Agentic Multimodal Large Language Models的全面评述
本文是一篇由Huanjin Yao, Ruifei Zhang, Jiaxing Huang, Jingyi Zhang, Yibo Wang, Bo Fang, Ruolin Zhu, Yongcheng Jing, Shunyu Liu, Guanbin Li, Dacheng Tao等研究人员共同撰写,发表于Journal of LaTeX Class Files, October 2025的系统性综述论文。这些研究人员来自南洋理工大学、香港中文大学(深圳)、深圳大数据研究院、中山大学、香港城市大学、中国传媒大学等多个国际知名研究机构。本文的讨论主题是“Agentic Multimodal Large Language Models”,即具身化/能动性多模态大语言模型,这是一个在人工智能领域,特别是在多模态理解和自主智能体研究范畴内,快速兴起且备受关注的前沿方向。
本文的核心论点是:随着革命性自主Agentic系统的出现,AI研究正在经历一个从传统的静态、被动、领域特定的AI智能体,向动态、主动、可泛化的具身化AI的重大范式转变。本文旨在对这类被称为“Agentic MLLMs”的模型进行首次全面、系统的梳理和评述,为研究社区提供一个结构化的知识框架,以加速该领域的发展。
主要观点一:定义了Agentic MLLMs的概念框架与核心特征,并将其与传统MLLM Agents进行了明确区分。
本文首先在概念层面确立了Agentic MLLMs的独特性。作者指出,传统的MLLM-based Agents虽然将MLLM嵌入到结构化的工作流中以完成任务分解和工具集成,但其存在三大根本限制:静态工作流(依赖预定义的、手工编排的流水线,无法适应动态新情况)、被动执行(仅被动响应指令,缺乏主动规划与行动的“智能”)以及领域特定性(通常针对单一任务设计,跨领域泛化能力差)。
相比之下,Agentic MLLMs被定位为自主决策者,其核心在于内置了能动性能力。本文构建了一个三维概念框架来组织其能力: 1. Agentic Internal Intelligence(具身化内部智能):作为系统的“指挥官”,通过推理、反思和记忆,实现准确的长期规划和策略调整。 2. Agentic External Tool Invocation(具身化外部工具调用):模型能够主动地使用各种外部工具(如搜索引擎、代码解释器、视觉处理工具),将其解决问题的能力扩展到其固有知识之外。 3. Agentic Environment Interaction(具身化环境交互):将模型置于虚拟或物理环境中,使其能够采取行动、适应策略,并在动态的现实世界场景中维持目标导向的行为。
这三个维度共同构成了Agentic MLLMs区别于传统代理的动态工作流、主动执行和跨领域泛化三大特征。作者通过形式化的马尔可夫决策过程对其进行了建模,强调了其作为自适应策略与动作空间和环境交互的本质。
主要观点二:系统梳理了Agentic MLLMs的技术基础与核心组件,为理解其实现路径提供了清晰的脉络。
本文深入剖析了构建Agentic MLLMs所需的基础设施和关键技术模块。 * 基础模型:文章区分了稠密MLLMs和混合专家MLLMs两种架构,并指出随着Agentic能力的发展,MoE架构因其支持自适应推理和动态工具调用的潜力而日益受到青睐。 * 动作空间定义:讨论了如何将多样化的行动(推理、调用工具等)嵌入到MLLMs中,主要归纳为特定令牌和统一令牌两种方法,使得模型能够以可解释的语言形式指定和执行动作。 * 训练范式:构建了从具身化持续预训练、具身化监督微调到具身化强化学习的完整训练路径。其中,强化学习被视为激发模型自主探索和优化决策的关键环节,重点介绍了PPO和GRPO两种在该领域广泛使用的算法。文章还提出了从过程评估和结果评估两个互补维度来衡量Agentic MLLMs性能的框架。
主要观点三:对Agentic MLLMs的三大核心能力进行了细致的分类评述,并列举了大量代表性研究工作。
这是本文最详实的部分,作者依照前述三维框架,对现有研究进行了系统性的归纳。 1. 在内部智能方面: * 推理:总结了基于提示、基于监督微调和基于强化学习三大范式。特别强调了以OpenAI o1和DeepSeek R1为代表的大规模RL在实现思维链优化上的突破性进展,并细分了基于结果的奖励建模和基于过程的奖励建模两种策略及其优劣。 * 反思:分为隐式诱发(通过RL训练自然涌现)和显式诱发两类,后者又可细分为响应级反思和步骤级反思,旨在纠正错误、累积经验。 * 记忆:分为上下文记忆(通过令牌压缩或窗口扩展直接利用历史上下文)和外部记忆系统。外部记忆系统进一步分为启发式驱动和推理驱动,后者能更动态、自主地管理记忆,是更先进的Agentic能力体现。 2. 在外部工具调用方面: * 信息搜索:从传统的、基于固定流水线的搜索代理,演进到通过端到端RL训练的Agentic Search,使模型能自主决定搜索时机和查询内容,实现与推理过程的深度交织。 * 代码执行:重点回顾了在数学推理和程序工程领域的应用。早期工作通过合成高质量的“代码交织”推理轨迹进行监督微调,近期则通过RL优化代码生成和执行的策略,以平衡准确性与效率。 * 视觉处理:描述了从“基于裁剪图像的思考”(如Zoom-in)到“基于操控图像的思考”(如绘图、调用SAM等模型)再到“基于生成图像的思考”的演进过程,展现了模型主动利用视觉工具增强理解和推理的能力。 3. 在环境交互方面: * 虚拟环境交互:聚焦于GUI智能体。综述了基于离线演示轨迹学习和基于在线环境交互学习两种范式。后者通过RL使智能体能在动态环境中试错、自我改进,展现了更强的鲁棒性和适应性。 * 物理环境交互:即具身AI。文章从具身感知、具身规划、具身导航和具身操控四个关键能力展开,介绍了如何将MLLMs的推理和规划能力与机器人感知-行动循环相结合,以完成在真实物理世界中的复杂任务。
主要观点四:汇总了推动Agentic MLLMs发展的开源资源,并展望了其广泛的应用前景与未来的研究方向。
为了促进社区发展,本文专门章节整理了相关的开源训练框架、训练与评估数据集。同时,文章详细列举了Agentic MLLMs在多个下游领域的应用,包括深度研究、具身AI、医疗健康、GUI代理、自动驾驶和推荐系统,展示了其作为通用智能体解决跨领域复杂问题的巨大潜力。
在文章最后,作者指出了该领域面临的挑战和未来的研究方向,例如更高效可靠的训练方法、更强大的跨模态记忆管理、对安全与伦理的考量等,为后续研究提供了指引。
本文的意义与价值: 本文作为该新兴领域的首篇系统性综述,具有重要的学术价值。它成功地为纷繁复杂、快速发展的Agentic MLLMs研究建立了一个清晰、逻辑严密的概念体系和技术分类法。通过梳理从基础模型、训练方法到核心能力、应用场景的完整链条,本文不仅为初学者提供了入门的路线图,也为资深研究人员厘清了技术发展的脉络和关键挑战。文中附有大量参考文献和项目链接的图表,使其兼具了综述的深度和实用手册的便利性。总而言之,这篇论文是对迈向更通用、更自主人工智能过程中一个重要分支的及时总结和前瞻性布局,预计将对推动Agentic Multimodal Large Language Models的研究与落地产生深远影响。