这篇文档属于类型a,是一篇关于计算机视觉领域原创研究的学术论文。
学术报告:基于视觉基础模型(VFMs)的可推广语义分割方法研究
1. 作者与发表信息
本文由西安交通大学、西安电子科技大学、Synkrotron Inc.、新加坡管理大学(Singapore Management University)和中国科学技术大学的联合团队完成。主要作者包括Tang Peiyuan、Zhang Xiaodong*、Yang Chunze等,通讯作者为Zhang Xiaodong和Yang Zijiang James。论文发表于AAAI-25(第39届人工智能促进协会年会),标题为《Unleashing the Power of Visual Foundation Models for Generalizable Semantic Segmentation》。
2. 研究背景与目标
领域与问题:
研究聚焦于领域泛化语义分割(Domain Generalization Semantic Segmentation, DGSS),旨在解决深度学习模型在未知领域(如自动驾驶中的新场景)性能下降的问题。传统方法依赖训练数据与测试数据同分布假设,但现实场景的分布偏移会导致模型失效。现有方法虽尝试利用视觉基础模型(Visual Foundation Models, VFMs),但存在两大局限:
- 过度设计复杂网络结构,可能破坏VFMs原有的泛化能力;
- 低分辨率推理导致细节丢失,尤其对小物体分割不精准。
科学目标:
提出一种结合VFM轻量微调(fine-tuning)与高分辨率图像的新框架,通过以下创新点提升模型跨领域泛化能力:
1. 设计轻量级VFMNet,以最小化调整保留VFMs的先验知识;
2. 开发掩码引导细化网络(MGRNet),基于低分辨率预测优化高分辨率局部特征;
3. 提出两阶段粗-细推理策略,结合全局与局部信息。
3. 研究方法与流程
整体框架:
研究分为训练与推理两阶段,核心组件为VFMNet和MGRNet(图2)。
3.1 VFMNet设计
- 编码器:基于预训练VFM(如DINOv2、CLIP等)的ViT架构,采用LoRA(Low-Rank Adaptation)微调(公式7),仅更新低秩矩阵(秩r=32),冻结原权重以减少过拟合风险。
- 解码器:提出一种轻量级反卷积结构(图3a),融合多尺度特征(1/4至全深度)并上采样生成分割掩码。对比实验表明,其性能优于复杂解码器(如Mask2former,表3)。
3.2 MGRNet设计
- 输入:高分辨率图像裁剪块(512×512)与VFMNet的低分辨率粗掩码(作为类别先验)。
- 特征掩码(Feature Masking):随机替换部分特征令牌为可学习令牌(公式12,掩码比例p=0.2),防止模型过度依赖高分辨率特征而忽略粗掩码的上下文信息。
- 特征-语义注意力(Feature-to-Semantics Attention):通过注意力机制(图3d)将高分辨率特征(Query)与粗掩码嵌入(Key/Value)融合(公式8-10),实现细节优化。
3.3 训练与推理流程
- 训练损失:内容损失(VFMNet的交叉熵)与细节损失(MGRNet的交叉熵)加权求和(λ=1.0,公式2)。
- 两阶段推理:
1. 粗预测:VFMNet对降采样图像生成低分辨率分割结果;
2. 细优化:滑动窗口切割高分辨率图像,仅对低置信度区块(公式5-6,阈值cτ=0.8)调用MGRNet细化。
4. 主要实验结果
4.1 领域泛化性能(表1)
- 合成→真实(GTA→Cityscapes/BDD/Mapillary):在DINOv2-L主干上,平均mIoU达70.10%,较基线方法(如REIN)提升3.4%。
- 真实→真实(Cityscapes→BDD/Mapillary):平均mIoU 71.62%,优于现有方法1.1%。
- 小物体识别:高分辨率推理显著改善远距离小物体分割(图1)。
4.2 分辨率鲁棒性(图4)
输入图像短边从512提升至2048时,mIoU增长4.7%,而其他方法因训练-推理分辨率不匹配导致性能下降。
4.3 消融实验
- 组件贡献(表2):VFMNet(+10.3% mIoU)和MGRNet(+0.35%)均有效;特征掩码策略带来额外0.75%提升。
- 解码器选择(表3):轻量反卷积优于线性头和Mask2former。
5. 研究价值
- 科学意义:证明了VFMs的泛化能力可通过简单架构充分释放,无需复杂设计。
- 应用价值:为自动驾驶等安全关键场景提供高分辨率、跨领域鲁棒的分割方案。
- 方法论创新:首次将LoRA微调与两阶段粗-细推理结合,平衡效率与精度。
6. 研究亮点
1. 高分辨率适配:通过MGRNet解决VFMs的长外推问题(length extrapolation),首次实现稳定高分辨率推理。
2. 轻量微调:LoRA技术减少90%以上可训练参数,保留VFMs的通用知识。
3. 开源贡献:代码已公开于GitHub(https://github.com/tpy001/vfmseg)。
7. 不足与展望
当前方法对CLIP和SAM主干的适应性较差(可能因语义过强或过度细节化),未来将探索更高效的VFM融合方式及非VFM模型的扩展应用。