分享自:

一种语义增强的多模态遥感基础模型用于地球观测

期刊:nature machine intelligenceDOI:10.1038/s42256-025-01078-8

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


多模态遥感基础模型Skysense++:面向地球观测的语义增强框架

作者与机构
本研究由Kang Wu(武汉大学)、Yingying Zhang(蚂蚁集团)、Lixiang Ru(蚂蚁集团)等来自武汉大学和蚂蚁集团的联合团队完成,通讯作者为Jingdong Chen(蚂蚁集团)、Yongjun Zhang(武汉大学)和Yansheng Li(武汉大学)。研究成果于2025年8月发表于《Nature Machine Intelligence》(Volume 7, Pages 1235–1249),DOI: 10.1038/s42256-025-01078-8。

学术背景
地球观测(Earth Observation, EO)依赖多模态遥感数据(如光学、红外、雷达),但现有遥感基础模型(Remote Sensing Foundation Models, RSFMs)存在三大局限:
1. 模态单一性:多数模型仅支持单模态(如光学或SAR)输入,难以处理多模态融合任务(如树种分类);
2. 小样本能力不足:依赖大量标注数据微调,无法应对紧急任务(如洪灾快速制图);
3. 语义信息利用不足:自监督预训练未充分挖掘标注数据的语义信息。
为此,团队提出Skysense++,旨在构建支持多模态、小样本推理的通用遥感基础模型。

研究流程与方法
1. 数据集构建
- RS-Rep数据集:包含2,150万幅无标签多模态遥感图像,覆盖11颗卫星(如Sentinel-2、高分二号),涵盖光学、多光谱、SAR三种模态,空间覆盖面积达878万平方公里。
- RS-Sem数据集:包含60万标注样本(3,980亿像素),标注87类地物(如河流、农田、车辆),每样本最多关联41时相图像。

  1. 模型架构设计
    Skysense++采用时空-模态解耦架构

    • 空间特征提取:独立编码不同模态(HR光学、MS多光谱、SAR)的特征;
    • 多模态时序融合:通过24层Transformer融合时序特征,引入日期编码(Date-Specific Temporal Positional Encoding)建模季节变化;
    • 掩膜模态补全模块(Masked Modality Completion):随机丢弃部分模态特征并重构,提升模型对缺失模态的鲁棒性。
  2. 两阶段预训练

    • 表征增强预训练:基于RS-Rep数据集,采用多粒度对比学习(Multi-Granularity Contrastive Learning),从像素、对象、图像三个层次学习通用特征;
    • 语义增强预训练:基于RS-Sem数据集,提出掩膜语义学习(Masked Semantic Learning, MSL):
      • 语义库(Semantic Bank):为每模态构建可学习的语义编码库,随机分配类别索引以增强泛化性;
      • 上下文学习:随机掩膜部分标注区域,迫使模型通过上下文预测缺失类别,实现小样本推理能力。
  3. 下游任务验证
    在7大领域(农业、林业、灾害管理等)的12项任务中测试,包括:

    • 分类任务:如德国作物分类(Germany数据集),Skysense++的mIoU达87.14%,优于此前最优模型4.79%;
    • 分割任务:如大西洋毁林监测(Atlantic数据集),IoU提升至90.57%;
    • 小样本任务:仅用5个标注样本,洪灾分割mIoU达44.55%,较通用模型SegGPT提升23.14%。

主要结果
1. 多模态融合优势:在油污分割(SOS数据集)中,结合SAR和光学数据的OA(Overall Accuracy)达87.94%,较单模态模型提升3.75%;
2. 时序建模能力:在变化检测(DSIFN-CD数据集)中,IoU达59.00%,验证了日期编码对时序特征的有效捕获;
3. 小样本泛化性:通过MSL训练的模型在未见类别(如滑坡映射)中仍保持高精度(IoU 56.51%),无需微调即可适配新任务。

结论与价值
1. 科学价值:首次实现多模态遥感数据的统一表征学习,提出语义库和MSL方法,为RSFMs的小样本学习提供新范式;
2. 应用价值:支持灾害应急响应(如15分钟内完成洪灾制图)、农业监测等高时效性任务,已应用于Sentinel和GF系列卫星数据解析;
3. 开源贡献:代码与数据集(Zenodo: 10.5281/zenodo.14994429)推动领域发展。

研究亮点
1. 创新架构:时空-模态解耦设计兼容异构传感器输入;
2. 方法论突破:MSL将自然语言的上下文学习引入视觉任务;
3. 规模领先:训练数据量(27.5M样本)和模型参数(20亿)均为领域之最。

其他发现
- 模型在整合大语言模型(LLMs)的实验中表现有限,说明遥感任务需以视觉特征为主导;
- 扩展实验表明,模型参数超过20亿后性能提升边际效应显著(仅0.4%),暗示当前架构已接近饱和。


该研究通过系统性方法解决了遥感基础模型的核心瓶颈,其两阶段预训练框架和语义库设计为后续研究提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com