分享自:

基于Swin Transformer和轻量级语言图像预训练的洪水图像分类方法

期刊:International Journal of Applied Earth Observation and GeoinformationDOI:10.1016/j.jag.2025.104543

学术研究报告:SLIP-Flood——基于Swin Transformer与轻量级视觉语言预训练的洪水图像分类框架

一、研究团队与发表信息
本研究由河海大学地球科学与工程学院Heng Tang、Xiaoping Rui(通讯作者)团队联合西安交通大学-利物浦大学Jiari Li等合作完成,发表于《International Journal of Applied Earth Observation and Geoinformation》2025年第139卷。论文标题为《SLIP-Flood: Soft-combination of Swin Transformer and Lightweight Language-Image Pre-training for Flood Images Classification》,属“Foundation Models EO”特刊。

二、学术背景与研究目标
科学领域:本研究属于多模态数据挖掘(multimodal data mining)与洪水灾害管理的交叉领域,核心任务是通过视觉语言预训练(Vision-Language Pre-training, VLP)提升洪水图像分类、图文检索及辅助文本分类的效能。
研究动机:传统洪水监测依赖遥感数据,存在时效性低、空间尺度大等问题,而社交媒体提供的图文数据虽具实时性,但缺乏标注且内容混杂。现有洪水图像分类模型(如基于FloodNet数据集)仅关注严重洪灾场景,对早期或末期洪水(如“低降雨量”或“雨刚停”)识别能力不足,且多忽略文本信息的辅助价值。
研究目标
1. 构建首个针对洪水场景的多模态数据集(FloodMULS与FloodIT);
2. 提出轻量级VLP框架SLIP-Flood,整合图像分类模型(FICM)与图文检索模型(FTIRM);
3. 创新性设计“软分类策略(Soft Categorization Strategy, SCS)”与“软组合策略(Soft Combination Strategy, SCS)”(统称SCSC),解决传统硬分类(Hard Categorization, HC)的“分类模糊性”问题。

三、研究流程与方法
1. 数据集构建
- FloodMULS:针对洪水图像分类,包含46.5万张图像(45.5万训练集+1万测试集),覆盖多场景洪水(如早期积水、暴雨中、灾后重建),通过6种数据增强技术(如旋转、裁剪)提升泛化性。测试集每类别5,000张,类别比例为Flood_is(洪水相关):Flood_no(非洪水)=3:7,以反映真实场景分布。
- FloodIT:针对图文检索,包含23.7万对中英文图文数据,通过BLIP2模型生成5类英文描述(如“a picture of…”),并标注中文标签(“与洪灾相关/无关”)。测试集为1万对带中文标题的图文数据。

2. 模型选择与训练
- FICM模块:基于Swin Transformer(Swin-T/Swin-B/Swin-L变体),预训练权重来自ImageNet。采用加权交叉熵损失(Weighted Cross Entropy, WCE),权重设为Flood_is:Flood_no=0.7:0.3,以优先检测洪水事件。
- FTIRM模块
- 图像编码器:ViT-Large-Patch16-224;
- 文本编码器:中文RoBERTa-wwm-ext-large,适配中文社交媒体文本。
- 损失函数:结合交叉熵损失(CE)与图像文本对比损失(Image-Text Contrastive Loss, ITC),优化图文对齐。

3. SCSC策略实现
- 软分类策略(SCS):遍历阈值(0-1,步长0.01),动态选择使Flood_is的F1分数最大化的阈值(如Swin-L中ThresholdSC_end=0.32),缓解分类模糊性。
- 软组合策略(SCS):通过线性动态加权和(Linear Dynamic Weighted Sum, LDWS)整合FICM与FTIRM的预测概率,权重根据FICM预测差异动态调整(公式4)。

4. 实验设计
- 性能评估:以F1分数为核心指标(优先优化Flood_is),对比SCSC与HC的效果;
- 推理速度测试:在RTX 3060 GPU上测量FPS(帧每秒),Swin-T达4.7 FPS,Swin-L仅0.4 FPS;
- 对比实验:与CLIP模型(ViT-L/14、ViT-B/16)比较,SLIP-Flood的Flood_is F1分数提升0.0328(vs ViT-L/14)。

四、主要结果与逻辑链条
1. SCSC策略有效性
- Swin-L模型:SCSC使Flood_is的F1提升1.61%(0.8061→0.8222),Flood_no提升7.62%(0.7151→0.7913);
- 阈值优化:ThresholdSC_end非零值(如Swin-B中0.07)证实动态阈值可平衡召回率与精确率。

2. 多模态协同效应
- FTIRM对FICM的增强:当FICM(Swin-T)与FTIRM(RoBERTa-large+ViT)结合时,Flood_is的F1提高0.0025,修正了极端预测误差(图3);
- 图文检索性能:基于中文标题的检索召回率最高达89.24%(vs 中文标签的71.52%),说明文本描述质量影响模态对齐。

3. 速度-精度权衡
- Swin-B:F1=0.8177,FPS=1.6,为最佳平衡点;
- Swin-L:虽F1最高(0.8222),但FPS仅0.4,需硬件优化。

五、研究结论与价值
科学价值
1. 首创洪水多模态预训练框架,填补了VLP在灾害场景的空白;
2. SCSC策略为多模型协同提供了可解释的优化路径,尤其适用于分类模糊性高的任务。
应用价值
1. 公开数据集(FloodMULS/FloodIT)支持后续研究;
2. 轻量级设计(如Swin-T+FTIRM)适合实时洪水监测,辅助应急决策。

六、研究亮点
1. 多模态创新:首次将社交媒体文本与洪水图像联合建模,提升小样本场景分类鲁棒性;
2. 动态策略设计:SCSC通过LDWS实现模型间自适应权重分配,优于固定集成方法;
3. 工程落地性:开源代码(GitHub)与详细速度测试为实际部署提供参考。

七、其他价值
- 跨语言能力:FloodIT包含中英文描述,支持国际化应用;
- 扩展性:框架可迁移至其他灾害(如地震、火灾)的多模态分析。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com