关于“Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents”的学术研究报告
一、 研究团队与发表信息
本研究的核心作者包括Peilin Feng、Zhutao Lv、Junyan Ye、Xiaolei Wang、Xinjie Huo、Jinhua Yu、Wanghan Xu、Wenlong Zhang、Lei Bai、Conghui He以及通讯作者Weijia Li。研究团队主要来自上海人工智能实验室(Shanghai Artificial Intelligence Laboratory)、中山大学(Sun Yat-sen University)和清华大学深圳国际研究生院(Tsinghua Shenzhen International Graduate School)。该研究以会议论文形式发表于ICLR 2026(International Conference on Learning Representations,国际表征学习大会),属于人工智能领域,特别是大语言模型(LLM)、多模态大模型(MLLM)与智能体(Agent)技术在地球观测(Earth Observation, EO)这一交叉学科的前沿应用。
二、 学术背景与研究目标
科学领域与背景知识: 地球观测(EO)通过卫星、航空等遥感技术获取地球系统数据,对于理解环境变化、进行城市规划、农业监测、灾害预警等至关重要。传统上,EO数据处理依赖于专家系统和特定算法。近年来,多模态大语言模型(MLLM)被引入EO领域,在遥感图像描述、视觉问答(VQA)、场景分类等感知任务上取得了进展。然而,现有MLLM方法存在显著局限:1) 主要局限于处理RGB(可见光)图像,无法有效利用多光谱(spectrum)和地学产品(products)等丰富的原始观测数据;2) 通常只能处理单张或少量图像,难以应对大规模EO数据;3) 推理能力局限于单步或浅层推理,无法完成需要多步骤、定量化的复杂时空分析任务;4) 依赖模型预训练知识,无法整合外部专业工具或模型,扩展性差。
与此同时,基于LLM的智能体(Agent)范式在代码生成、网络搜索等领域展现出通过调用外部工具完成复杂任务的能力,为解决上述问题提供了新思路。然而,现有的EO智能体研究仍处于早期阶段,同样面临模态受限、工具使用浅层、缺乏系统化评估等问题。
研究目标: 本研究旨在突破现有MLLM和早期EO智能体的局限,构建一个能够统一处理RGB、光谱和地学产品数据,并能通过多步骤、交互式推理调用领域专业工具完成复杂科学分析任务的智能体框架。具体目标包括:1) 提出首个基于模型上下文协议(Model Context Protocol, MCP)的EO智能体框架Earth-Agent,集成一个预定义的工具生态系统;2) 构建一个全面的基准测试Earth-Bench,包含多模态数据、多步骤推理任务,并设计同时评估推理轨迹和最终结果的双层评估协议;3) 通过系统实验验证Earth-Agent的有效性,并与通用智能体框架及现有遥感MLLM进行对比。
三、 详细研究流程与方法
本研究主要包含两大核心部分:Earth-Agent框架的构建与Earth-Bench基准的创建及实验验证。其详细工作流程如下:
第一流程:Earth-Agent智能体框架设计与实现 1. 框架机制设计: 研究将Earth-Agent的工作流程形式化为一个部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)。其核心是一个基于ReAct(Reasoning and Acting)范式的循环:思考(Think)→ 行动(调用工具,Act/Tool Calling)→ 观察(接收工具输出,Observe)→ 更新记忆(Memory Update)。LLM作为策略控制器,根据任务目标(G)和包含历史交互的记忆(Mt),决定下一步调用哪个工具及其参数。环境状态(如地理空间数据文件)对智能体部分可见,通过工具调用返回的观测(文本、数值、图像)来更新。 2. 工具生态系统构建: 为实现全面的EO分析,研究集成了104个专业工具,并将其组织成五个功能明确的工具包(Tool Kit): * 指数计算包(Index Kit): 实现如NDVI(归一化植被指数)、NDWI(归一化水体指数)、NBR(归一化燃烧指数)等常用遥感指数,用于快速环境特征提取。 * 反演包(Inversion Kit): 专注于地球物理参数反演,例如地表温度(LST)、可降水汽(PWV)、植被含水量、海冰浓度等,从原始光谱数据中提取定量物理量。 * 感知包(Perception Kit): 支持视觉导向任务,如图像分类、目标检测、语义分割,整合了先进的计算机视觉模型。 * 分析包(Analysis Kit): 面向时空推理,提供趋势检测、季节性分解、变化点分析、空间自相关等分析功能。 * 统计包(Statistics Kit): 提供大规模数据预处理和统计计算功能,如方差、偏度、批处理操作、云掩膜生成等。 所有工具均基于模型上下文协议(MCP) 构建,确保了互操作性和框架的可扩展性,便于未来集成更多领域专用工具。 3. 双层评估协议定义: 为克服以往基准只关注最终答案而忽视推理过程的缺陷,本研究提出了一个双层评估协议: * 端到端评估(End-to-End Evaluation): 评估最终任务性能,包括最终答案准确率(Accuracy) 和与专家方案相比的轨迹效率(Efficiency)。 * 逐步评估(Step-by-Step Evaluation): 评估中间推理轨迹的质量,包含四个互补指标: * 工具任意顺序(Tools_Any_Order): 检查智能体是否使用了所有必要的工具。 * 工具顺序正确(Tools_In_Order): 评估工具调用顺序是否正确。 * 工具精确匹配(Tools_Exact_Match): 评估预测轨迹与专家轨迹在工具调用序列上的前缀级精确匹配度。 * 参数准确率(Parameters): 验证工具标识符及其输入参数是否与专家方案匹配。
第二流程:Earth-Bench基准构建与数据标注 1. 基准概述: Earth-Bench包含248个由领域专家精心设计的问题,涉及13,729张图像,覆盖光谱(Spectrum)、地学产品(Products)、RGB三种EO数据模态。任务类型多样,包括温度监测、天气预报、气候分析、水资源管理、污染监测、植被监测、灾害判断、城市管理、分类、检测、定位(Grounding)、分割、计数和变化检测等14类,强调需要定量推理的科学分析,而非定性描述。平均每个问题需要5.42个推理步骤,最多可达19步。 2. 数据来源与问题生成: 原始数据来自Google Earth Engine(GEE)、NASA EarthData以及公开遥感数据集(如AID、DOTA)。一个由计算机科学专家、遥感专家和地球科学专家组成的团队,基于这些数据源构建了需要多步骤定量推理的问题。 3. 数据标注流程(模拟ReAct轨迹): 为支持双层评估,标注过程模拟了智能体的ReAct循环: * Python解决方案: 标注者首先确定解决问题所需的领域工具,然后将其组装成一个逐步执行的main()程序,每个工具对应一个Python函数。 * Python结果: 执行该程序,生成每个函数调用的明确输入/输出参数以及main()函数的最终输出。 * JSON标注: 将每个函数调用转换为结构化的JSON记录,其中函数名对应动作(工具名),输入参数对应动作参数,输出参数对应工具响应。main()函数的最终输出被记录为问题的标准答案。这样就得到了完整的推理轨迹和最终答案的标注。 4. 查询机制: 基准支持两种查询模式以全面评估智能体能力: * 自动规划(Auto-Planning): 查询中不提供步骤指导,评估智能体自主规划解决方案轨迹的能力。 * 指令跟随(Instruction-Following): 查询中明确提供解决方案的步骤指导,评估智能体理解和遵循人类指令并将其转化为可执行动作的能力。
第三流程:实验设计与验证 1. 实验设置: 评估了3个闭源和10个领先的开源LLM作为Earth-Agent的“大脑”,包括GPT-5、GPT-4o、Gemini-2.5、DeepSeek-V3.1、Kimik2、Qwen3-Max等。 2. 实验一:不同LLM骨干网络在Earth-Bench上的表现。 在自动规划和指令跟随两种模式下,使用双层评估协议全面测试各LLM驱动Earth-Agent的性能。 3. 实验二:与通用智能体框架的对比。 由于许多Earth-Bench任务涉及处理数百张图像,超出通用智能体框架的输入限制,研究构建了一个精简但具代表性的子集Earth-Bench-Lite(包含60个问题)。将Earth-Agent与通用智能体框架如Operator(OpenAI)、Manus、MGX、Coze等进行对比。 4. 实验三:与基于MLLM的遥感大模型对比。 在经典的遥感感知任务(分类、检测、分割)基准上,将Earth-Agent与现有的遥感MLLM(如GeoChat、LHRs-Bot、VHM等)进行性能比较。
四、 主要研究结果
1. Earth-Agent在不同LLM骨干网络下的性能(实验一): * 结果: 如表1所示,经过工具调用预训练的LLM(如GPT-5, Gemini-2.5, DeepSeek-V3.1, Kimik2)在逐步评估和端到端评估中均表现强劲。闭源模型(如GPT-5)通常在最终准确率上更高,而开源模型(如DeepSeek-V3.1和Kimik2)在工具使用准确率(推理轨迹对齐)上优于GPT-5。 * 解释与逻辑关系: 这表明强大的基础LLM是有效智能体的前提,但开源模型在遵循复杂工具调用逻辑方面可能更具优势。指令跟随模式通过提供明确的步骤指导,普遍提高了所有模型的工具调用准确率,但这并未必然转化为更高的最终答案准确率,对于某些先进模型甚至导致最终准确率下降。这表明提供步骤信息可能帮助规划,但也可能引入额外的复杂性或限制模型的灵活性。一个关键发现是,模型在识别正确工具集(Tools_Any_Order, Tools_In_Order)方面表现尚可,但在工具精确匹配(Tools_Exact_Match)和参数执行准确率(Parameters) 上普遍较弱。这意味着模型在推理中常常会引入无关或错误的步骤,这直接影响了后续步骤的数据处理,成为制约EO智能体获得高最终准确率的瓶颈。这一结果凸显了逐步评估对于诊断智能体故障点的关键价值,而仅看最终答案会掩盖这些深层问题。
2. 与通用智能体框架的对比(实验二): * 结果: 如表2所示,在Earth-Bench-Lite上,通用智能体(如GPT-Agent, Manus, MGX, Coze)表现出有限的模态覆盖能力和任务完成能力。它们能通过编写特定代码处理相对简单的光谱任务,但由于缺乏领域特定的时空分析工具,在地学产品任务上表现不佳。对于RGB模态,MGX和Coze甚至无法完成任何任务。 * 解释与逻辑关系: 相比之下,通过与104个预定义地学工具交互,Earth-Agent(无论由闭源的GPT-5还是开源的DeepSeek-V3.1驱动)在所有三种模态上均取得了显著更优的性能。这直接证明了预定义、结构化的领域工具生态系统对于处理复杂EO任务的必要性。通用智能体缺乏领域知识,难以替代专门为EO设计的工具套件。虽然Earth-Agent的推理延迟相对较高,但其在任务完成度上的大幅提升充分证明了额外计算成本的合理性。
3. 与基于MLLM的遥感大模型对比(实验三): * 结果: 如表3所示,在分类(AID, WHU-RS19)、检测(DOTA, HRSC2016)和定位(DIOR-RSVG)任务上,Earth-Agent均显著超越了现有的遥感MLLM。例如,在AID和WHU-RS19分类任务上,Earth-Agent达到了93.42%和96.12%的准确率,优于最佳MLLM VHM(91.70%, 95.80%)。在检测和定位任务上,优势更为明显(DOTA: 60.88% vs. ~17%; DIOR-RSVG: 60.46% vs. ~30%)。 * 解释与逻辑关系: 之前的MLLM方法通常在多样化EO任务上泛化能力不足(例如,VHM分类强但不能处理检测,LHRs-Bot分类强但检测弱)。而Earth-Agent通过调用预定义工具包中的104个地学函数和专家模型,能够为每种任务类型自适应地调用专用工具或模型。这种模块化设计使其能够跨模态保持稳健性能,克服了以往基于MLLM的EO系统扩展性有限的缺点。这证明了从依赖单一模型参数化知识到利用外部工具/模型集成进行多步骤推理的范式转变的有效性。
五、 研究结论与价值
本研究成功提出了Earth-Agent,这是首个基于MCP和ReAct推理的EO智能体框架,集成了104个专业工具,能够统一处理光谱、地学产品和RGB数据,支持复杂的多步骤定量时空推理。同时,构建了Earth-Bench基准,包含248个专家策划的任务和双层评估协议,为全面评估EO智能体提供了标准。
科学价值: 1. 范式创新: 将EO分析从传统的MLLM单步感知范式,推进到基于智能体的、可调用外部工具的多步推理范式,解锁了处理多模态、大规模、复杂科学任务的能力。 2. 系统性评估: 提出的双层评估协议(尤其是逐步评估)为衡量智能体的推理能力提供了更精细的度量标准,有助于诊断和改进模型。 3. 开源贡献: 发布的框架、基准和工具生态系统为社区提供了宝贵的研究基础,可推动LLM在EO领域的下一代应用。
应用价值: 1. 赋能复杂分析: 使非专家用户也能通过自然语言指令完成以往需要专业软件和知识的复杂地学分析,如干旱指数计算、城市扩张趋势分析、港口面积变化监测等。 2. 提升效率与可重复性: 自动化的工作流和可追溯的推理轨迹提高了分析效率,并保证了科学过程的可重复性。 3. 促进跨学科融合: 为人工智能与地球科学、遥感技术的深度融合提供了一个强大的技术平台。
六、 研究亮点
七、 其他有价值内容
研究还进行了消融实验,以检验Earth-Bench是否存在对特定模型的偏见。实验移除了所有工具,仅让LLM根据查询和文件夹直接回答问题。结果显示,在没有工具的情况下,主流LLM在三种任务类型上表现相近,总体准确率约为37%。这表明基准本身是公平的,模型无法仅凭参数化知识解决所有问题。而当提供工具访问权限后,不同模型表现出不同程度的提升(如GPT-5提升最大),这进一步证实了模型在问题分解和工具使用能力上的差异,并强化了主实验的结论。此外,附录部分详细列出了所有104个工具的描述、基准数据的具体统计信息(如表4、5、6)、不同模态下的详细性能分析以及错误分析,为后续研究提供了丰富的参考资料。