这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
多模态遥感基础模型Skysense++:面向地球观测的语义增强框架
作者与机构
本研究由Kang Wu(武汉大学)、Yingying Zhang(蚂蚁集团)、Lixiang Ru(蚂蚁集团)等来自武汉大学和蚂蚁集团的联合团队完成,通讯作者为Jingdong Chen(蚂蚁集团)、Yongjun Zhang(武汉大学)和Yansheng Li(武汉大学)。研究成果于2025年8月发表于《Nature Machine Intelligence》(Volume 7, Pages 1235–1249),DOI: 10.1038/s42256-025-01078-8。
学术背景
地球观测(Earth Observation, EO)依赖多模态遥感数据(如光学、红外、雷达),但现有遥感基础模型(Remote Sensing Foundation Models, RSFMs)存在三大局限:
1. 模态单一性:多数模型仅支持单模态(如光学或SAR)输入,难以处理多模态融合任务(如树种分类);
2. 小样本能力不足:依赖大量标注数据微调,无法应对紧急任务(如洪灾快速制图);
3. 语义信息利用不足:自监督预训练未充分挖掘标注数据的语义信息。
为此,团队提出Skysense++,旨在构建支持多模态、小样本推理的通用遥感基础模型。
研究流程与方法
1. 数据集构建
- RS-Rep数据集:包含2,150万幅无标签多模态遥感图像,覆盖11颗卫星(如Sentinel-2、高分二号),涵盖光学、多光谱、SAR三种模态,空间覆盖面积达878万平方公里。
- RS-Sem数据集:包含60万标注样本(3,980亿像素),标注87类地物(如河流、农田、车辆),每样本最多关联41时相图像。
模型架构设计
Skysense++采用时空-模态解耦架构:
两阶段预训练
下游任务验证
在7大领域(农业、林业、灾害管理等)的12项任务中测试,包括:
主要结果
1. 多模态融合优势:在油污分割(SOS数据集)中,结合SAR和光学数据的OA(Overall Accuracy)达87.94%,较单模态模型提升3.75%;
2. 时序建模能力:在变化检测(DSIFN-CD数据集)中,IoU达59.00%,验证了日期编码对时序特征的有效捕获;
3. 小样本泛化性:通过MSL训练的模型在未见类别(如滑坡映射)中仍保持高精度(IoU 56.51%),无需微调即可适配新任务。
结论与价值
1. 科学价值:首次实现多模态遥感数据的统一表征学习,提出语义库和MSL方法,为RSFMs的小样本学习提供新范式;
2. 应用价值:支持灾害应急响应(如15分钟内完成洪灾制图)、农业监测等高时效性任务,已应用于Sentinel和GF系列卫星数据解析;
3. 开源贡献:代码与数据集(Zenodo: 10.5281/zenodo.14994429)推动领域发展。
研究亮点
1. 创新架构:时空-模态解耦设计兼容异构传感器输入;
2. 方法论突破:MSL将自然语言的上下文学习引入视觉任务;
3. 规模领先:训练数据量(27.5M样本)和模型参数(20亿)均为领域之最。
其他发现
- 模型在整合大语言模型(LLMs)的实验中表现有限,说明遥感任务需以视觉特征为主导;
- 扩展实验表明,模型参数超过20亿后性能提升边际效应显著(仅0.4%),暗示当前架构已接近饱和。
该研究通过系统性方法解决了遥感基础模型的核心瓶颈,其两阶段预训练框架和语义库设计为后续研究提供了重要参考。