作者及机构
本研究由武汉大学遥感信息工程学院的Yujie Zan、Shunping Ji*、Songtao Chao和Muying Luo合作完成,发表于ISPRS Journal of Photogrammetry and Remote Sensing(2025年,第225卷)。
研究领域与动机
变化检测(Change Detection)是遥感领域的核心任务之一,广泛应用于自然资源管理、灾害响应和土地利用规划。然而,现有数据集普遍存在三大瓶颈:
1. 数据规模有限:如LEVIR-CD(Chen and Shi, 2020)仅关注建筑变化,GVLM数据集(Zhang et al., 2023)覆盖类别有限;
2. 标注质量不足:受季节变化、成像条件差异影响,人工标注易引入噪声;
3. 类别不平衡:如SECOND数据集(Yang et al., 2022)中“游乐场”类别仅占0.38%。
技术背景
生成式视觉语言模型(Generative Vision-Language Models, VLMs)如Stable Diffusion(SD)在开放词汇(Open-Vocabulary)图像生成与编辑任务中表现优异。本研究首次探索将SD模型适配至遥感领域,通过微调(Fine-tuning)生成高质量变化样本,构建大规模数据集WHU-GCD。
第一阶段:文本到图像模型微调(SD-T2I-RS)
- 数据准备:整合7个公开遥感数据集(如AID、Million-AID场景分类数据集,LoveDA、Landcover.ai语义分割数据集),构建包含6类地物(建筑、道路、水体等)的文本-图像对,文本提示格式为“[rs] [地物类别]”。
- 训练策略:采用两阶段微调:
- 场景级训练:66,000次迭代学习全局地物特征;
- 像素级训练:30,000次迭代增强细节生成能力。
- 技术亮点:冻结CLIP文本编码器,仅优化扩散模型参数,保留自然图像先验的同时适配遥感领域。
第二阶段:修复模型微调(SD-Inpainting-RS)
- 掩膜生成策略:结合LAMA(Suvorov et al., 2022)的随机多边形掩膜与单类别掩膜(公式2),平衡上下文依赖与文本对齐。
- 训练数据:从语义分割数据集中提取对象级掩膜,通过交叉注意力机制实现局部编辑。
关键步骤:
1. 对象筛选:基于面积(>3.8%图像面积)和圆形度(Roundness,公式3)过滤不合理的“从-到”变化方向(如蜿蜒道路不宜转为水体);
2. 掩膜库应用:从现有数据集中提取典型地物掩膜(如建筑轮廓),通过交集最大化匹配目标区域;
3. 多源数据融合:
- Part1:基于语义分割数据生成25类语义变化(表3),如“建筑→森林”;
- Part2:结合Google Earth短时相影像与Segment Anything Model(SAM)生成真实负样本,增强模型对光照/传感器差异的鲁棒性。
科学意义:
1. 提出首个基于生成式VLMs的遥感变化检测数据引擎,突破真实数据稀缺限制;
2. 验证生成数据训练模型可超越真实数据(如WHU-GCD在LEVIR-CD测试集上IoU1提升4.74%)。
应用价值:
- 为GIS地图更新、生态监测提供高泛化性预训练模型;
- 生成框架可扩展至地物分类、实例分割等任务。
其他价值:公开模型与数据集(http://gpcv.whu.edu.cn/data),促进社区协作。