分享自:

多级特征融合网络在阴影去除检测中的应用

期刊:IEEE Transactions on Circuits and Systems for Video TechnologyDOI:10.1109/TCSVT.2025.3543526

这篇文档属于类型a,是一篇关于阴影去除检测(shadow removal detection)的原创性研究成果。以下为针对该研究的学术报告:


1. 主要作者与机构
本文由Xiwen Fu、Guopu Zhu(IEEE高级会员)、Hongli Zhang、Xinpeng Zhang(IEEE高级会员)、Anthony T. S. Ho和Sam Kwong(IEEE会士)合作完成,作者团队分别来自哈尔滨工业大学网络空间安全学院、复旦大学计算机科学技术学院、英国萨里大学工程与物理科学学院,以及香港岭南大学数据科学学院。研究发表于2025年7月的《IEEE Transactions on Circuits and Systems for Video Technology》(卷35,第7期)。

2. 学术背景与研究目标
科学领域:该研究属于多媒体安全(multimedia security)与计算机视觉(computer vision)交叉领域,聚焦图像取证(image forensics)中的阴影去除检测问题。
研究背景:随着图像编辑技术(如阴影去除算法)的快速发展,恶意篡改图像的成本降低,导致虚假信息泛滥。现有图像篡改检测方法(如拼接检测、复制移动检测)难以有效识别阴影去除痕迹,而阴影去除检测领域的研究极少且精度不足。
研究目标:提出一种新型多级特征融合网络(Multi-Level Feature Fusion Network, MFF-Net),旨在精确定位图像中因阴影去除(shadow removal)而被篡改的区域,为图像取证提供新工具。

3. 研究流程与方法
整体架构:MFF-Net由双分支特征提取编码器(dual-branch feature extraction encoder)和密集预测解码器(dense prediction decoder)组成。

3.1 双分支特征提取编码器
- 全局建模分支(global modeling branch):基于PVT-v2-b2模型(一种金字塔视觉Transformer),捕获图像长程依赖关系(long-range dependencies),输出多尺度特征图(feature maps)( T_i )。
- 局部特征提取分支(local feature extraction branch):基于CMT-S模型(一种卷积增强的Transformer架构),提取局部结构信息(local structural information),输出特征图( T’_i )。
- 特征融合模块(feature fusion module):通过线性变换与GELU激活函数融合两分支特征,保留全局与局部信息的互补性。

3.2 密集预测解码器
- 多尺度特征上采样模块(Multi-Scale Feature Upsampling, MSFU)
- 特征上采样(FU模块):采用折叠操作(fold operation)提升特征分辨率,结合深度可分离卷积(depth-wise convolution)增强局部信息。
- 交叉注意力机制(cross attention):指导多级特征融合,优化低层与高层特征的整合。
- 注意力前馈模块(Attention-based Feed Forward, AFF):轻量级多头自注意力(lightweight multi-head self-attention)与分组卷积(group convolution)结合,进一步细化特征。
- 多级监督策略:通过二进制交叉熵损失(binary cross-entropy loss)和交并比损失(IoU loss)联合优化,逐步从粗到精(coarse-to-fine)预测阴影掩模(shadow masks)。

实验设计
- 数据集:构建包含4,332对图像的数据集D,涵盖ISTD和SRD原始数据集,并应用5种阴影去除算法(如SP+M-Net、DC-SHADOWNET)生成篡改图像。测试集分为5个子集(如( D{BM} )、( D{DC} )),以评估模型泛化性。
- 对比方法:包括通用篡改检测模型(如MVSS-Net)、阴影去除检测模型SRDGAN等9种基线方法。

4. 主要结果
- 定量性能:MFF-Net在平均精度(AP)、像素级AUC和最大F1分数(maxF)上均显著优于基线模型。例如,在( D_{DC} )子集上,AP达到0.892,较第二名提升12.3%。
- 视觉对比:MFF-Net能精准定位阴影去除区域(如图5所示),尤其在复杂背景或微弱痕迹场景下表现优异。
- 消融实验:验证各模块必要性——双分支结构(+dual)较单分支(+branch_g或+branch_l)性能提升9.5%;MSFU模块较双线性上采样(w/bil)提升细节恢复能力。

5. 结论与价值
- 科学价值:首次提出基于双Transformer分支的阴影去除检测框架,解决了现有方法对微弱痕迹敏感度不足的问题。
- 应用价值:为图像取证提供专用工具,可辅助识别篡改区域并推断原始物体位置。
- 技术贡献
- 创新性融合全局建模与局部特征提取能力;
- 提出MSFU模块,实现多级特征的高效融合;
- 公开源代码(https://github.com/hitfuxiwen/mff-net),推动领域发展。

6. 研究亮点
- 方法创新:首次将两种异构Transformer(PVT与CMT)并行作为编码器主干,兼顾长程依赖与局部结构。
- 性能突破:在多个数据集上达到SOTA(state-of-the-art),尤其在处理最新阴影去除算法(如DC-SHADOWNET)生成的图像时优势显著。
- 局限性:对未知阴影去除方法的泛化能力有限,未来拟通过域适应(domain adaptation)技术进一步优化。

7. 其他有价值内容
- 失败案例分析:如图8所示,当阴影痕迹与背景颜色相似或过度平滑时,模型可能出现漏检,为后续研究指明改进方向。
- 计算成本分析:MFF-Net在参数规模(18.7M)与计算量(45.2G MACs)间取得平衡,优于多数对比模型。


本报告系统梳理了MFF-Net的研究全貌,为相关领域学者提供了技术细节与性能评估的全面参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com