分享自:

基于开放词汇生成视觉语言模型的大规模遥感变化检测数据集构建

期刊:ISPRS Journal of Photogrammetry and Remote SensingDOI:10.1016/j.isprsjprs.2025.04.023

基于开放词汇生成视觉语言模型的大规模遥感变化检测数据集构建研究

作者及机构
本研究由武汉大学遥感信息工程学院的Yujie Zan、Shunping Ji*、Songtao Chao和Muying Luo合作完成,发表于ISPRS Journal of Photogrammetry and Remote Sensing(2025年,第225卷)。

学术背景

研究领域与动机
变化检测(Change Detection)是遥感领域的核心任务之一,广泛应用于自然资源管理、灾害响应和土地利用规划。然而,现有数据集普遍存在三大瓶颈:
1. 数据规模有限:如LEVIR-CD(Chen and Shi, 2020)仅关注建筑变化,GVLM数据集(Zhang et al., 2023)覆盖类别有限;
2. 标注质量不足:受季节变化、成像条件差异影响,人工标注易引入噪声;
3. 类别不平衡:如SECOND数据集(Yang et al., 2022)中“游乐场”类别仅占0.38%。

技术背景
生成式视觉语言模型(Generative Vision-Language Models, VLMs)如Stable Diffusion(SD)在开放词汇(Open-Vocabulary)图像生成与编辑任务中表现优异。本研究首次探索将SD模型适配至遥感领域,通过微调(Fine-tuning)生成高质量变化样本,构建大规模数据集WHU-GCD。

研究流程与方法

1. 模型微调流程

第一阶段:文本到图像模型微调(SD-T2I-RS)
- 数据准备:整合7个公开遥感数据集(如AID、Million-AID场景分类数据集,LoveDA、Landcover.ai语义分割数据集),构建包含6类地物(建筑、道路、水体等)的文本-图像对,文本提示格式为“[rs] [地物类别]”。
- 训练策略:采用两阶段微调:
- 场景级训练:66,000次迭代学习全局地物特征;
- 像素级训练:30,000次迭代增强细节生成能力。
- 技术亮点:冻结CLIP文本编码器,仅优化扩散模型参数,保留自然图像先验的同时适配遥感领域。

第二阶段:修复模型微调(SD-Inpainting-RS)
- 掩膜生成策略:结合LAMA(Suvorov et al., 2022)的随机多边形掩膜与单类别掩膜(公式2),平衡上下文依赖与文本对齐。
- 训练数据:从语义分割数据集中提取对象级掩膜,通过交叉注意力机制实现局部编辑。

2. 变化样本生成策略

关键步骤
1. 对象筛选:基于面积(>3.8%图像面积)和圆形度(Roundness,公式3)过滤不合理的“从-到”变化方向(如蜿蜒道路不宜转为水体);
2. 掩膜库应用:从现有数据集中提取典型地物掩膜(如建筑轮廓),通过交集最大化匹配目标区域;
3. 多源数据融合
- Part1:基于语义分割数据生成25类语义变化(表3),如“建筑→森林”;
- Part2:结合Google Earth短时相影像与Segment Anything Model(SAM)生成真实负样本,增强模型对光照/传感器差异的鲁棒性。

3. WHU-GCD数据集构建

  • 规模:28,067对512×512像素图像(0.3–2.0 m分辨率),包含24,167/600/3,300训练/验证/测试集样本;
  • 创新性
    • 首个支持二进制变化检测(BCD)与语义变化检测(SCD)的生成式数据集;
    • 测试集II整合5个真实数据集(如LEVIR-CD、SECOND)的测试集,评估跨域泛化能力。

主要结果

1. 模型性能验证

  • 跨数据集泛化测试(表9-12):以ChangeFormer模型为例,WHU-GCD训练模型在DSIFN、SECOND等数据集上的平均mF1(71.55%)和IoU1(34.94%)均优于其他数据集(如SECOND:67.48%/28.12%);
  • 消融实验(表13):联合Part1(生成变化)与Part2(真实负样本)使IoU1提升10.64%。

2. 语义变化检测优势

  • UPernet框架测试(表15):WHU-GCD的分离Kappa系数(SEK)达80.45,显著高于SECOND(16.79)和HI-UCD Mini(25.87);
  • 可视化结果(图7):生成样本的语义边界清晰,如“水体→农田”变化与真实场景一致。

结论与价值

科学意义
1. 提出首个基于生成式VLMs的遥感变化检测数据引擎,突破真实数据稀缺限制;
2. 验证生成数据训练模型可超越真实数据(如WHU-GCD在LEVIR-CD测试集上IoU1提升4.74%)。

应用价值
- 为GIS地图更新、生态监测提供高泛化性预训练模型;
- 生成框架可扩展至地物分类、实例分割等任务。

研究亮点

  1. 方法创新:两阶段微调策略(SD-T2I-RS → SD-Inpainting-RS)实现遥感领域适配;
  2. 数据创新:WHU-GCD通过参数化控制(圆形度、面积阈值)保障样本多样性与合理性;
  3. 性能突破:首次证明纯生成数据集可训练出优于真实数据的模型,推动AIGC在遥感中的应用范式。

其他价值:公开模型与数据集(http://gpcv.whu.edu.cn/data),促进社区协作。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com