基于多尺度特征融合与自适应边缘监督的图像篡改定位技术研究
第一作者及单位
本文的研究团队由Fengyong Li(上海电力学院计算机科学与技术学院)、Zhenjia Pei(上海电力学院计算机科学与技术学院/广西师范大学多源信息挖掘与安全重点实验室)、Xinpeng Zhang(IEEE会员,复旦大学计算机学院)和Chuan Qin(IEEE会员,上海理工大学光电信息与计算机工程学院)合作完成。研究成果发表于IEEE Transactions on Multimedia期刊(2023年卷25期),接收日期为2022年12月1日,在线发布于2022年12月21日。
本研究属于多媒体安全与数字取证领域,聚焦于图像篡改定位(Image Manipulation Localization)技术。随着数字图像编辑工具的普及,篡改图像可能被滥用至军事、司法、新闻等敏感领域,亟需高精度定位算法。传统方法依赖于单一篡改痕迹(如噪声不一致性、JPEG压缩痕迹)进行检测,但存在以下局限:
1. 特征冗余:并非所有篡改图像均包含预设的痕迹类型;
2. 通用性不足:传统方法对新型篡改手段(如AI生成内容)鲁棒性差;
3. 边缘定位模糊:现有深度学习模型难以区分篡改区域的精确边界。
为此,本研究提出一种端到端的高置信度篡改定位网络,核心目标为:
- 通过多尺度特征融合增强语义表示;
- 引入形态学操作自适应提取边缘信息;
- 设计深度语义残差解码器减少信息丢失。
研究提出四阶段框架(编码、特征融合、边缘监督、解码),具体流程如下:
(1)编码阶段
- 采用ResNet-34作为主干网络,提取多尺度RGB特征集(R₁至R₅)。
- 输入图像尺寸统一调整为256×256,通过数据增强(翻转、模糊、压缩)扩充训练集。
(2)语义优化双向特征融合模块(SRBFI)
- 双向特征集成:通过上采样(Upsampling)和下采样(Downsampling)双向融合相邻层特征(Rₖ₋₁→Rₖ←Rₖ₊₁),减少浅层噪声干扰并增强深层语义。
- 通道与空间优化:
- 通道优化(Channel-wise Refinement):结合最大池化(Max Pooling)与平均池化(Avg Pooling)生成注意力权重,突出篡改区域特征(式8)。
- 空间优化(Spatial-wise Refinement):使用互补卷积核({1×k, k×1}与{k×1, 1×k})捕捉空间异常(式11)。
- 输出:生成优化后的特征集SRₖ = Cₖ × Sₖ(式12)。
(3)多尺度自适应边缘监督(MAE)
- 形态学边缘提取:通过腐蚀(Erosion)和膨胀(Dilation)操作生成多宽度边缘(式13):
$$AEB_k = D(Conv(SR_k), s_k) - E(Conv(SR_k), s_k)$$
- 边缘增强:利用Sigmoid函数强化边缘响应(式14),相比传统Sobel算子,能适应不同分辨率图像的边缘提取需求(图6)。
(4)深度语义残差解码器(DSDR)
- 逐步将深层特征(SR₅)注入各解码层,避免全局语义丢失(式15-16)。
- 采用反卷积(Deconvolution)上采样,通过参数学习提升重建精度。
综合三类损失函数:
- 二元交叉熵(Lₐ):逐像素分类(式17);
- 结构相似性损失(Lₛₛᵢₘ):衡量预测掩膜与真实掩膜的结构差异(式18);
- IoU损失(Lᵢₒᵤ):优化区域重叠率(式19)。
总损失为加权和:$L̃ = λ₁·L{sem} + λ₂·L{edge}$(λ₁=0.7, λ₂=0.3)。
在Casia v1.0、NIST16和Columbia数据集上的测试表明:
- F1分数:相比传统方法(如ELA、CFA1),平均提升约100%;与深度学习方法(如RGB-N、MVSS-Net)相比,在NIST16和Columbia上分别提升15.5%-31.9%和15.6%-26.5%。
- AUC值:在抗干扰测试(如JPEG压缩、高斯模糊)中,AUC稳定高于其他模型(表IX)。
对复制移动(Copy-Move)类篡改的检测性能略逊于TDA-Net(表II),因内部像素统计特征一致性较高,需进一步优化语义分割策略。
科学价值:
1. 将篡改定位问题重构为显著性目标检测(Salient Object Detection)任务,通过多尺度特征融合与边缘监督实现通用化框架;
2. 提出的SRBFI模块通过并行通道-空间优化,避免了传统串行注意力(如CBAM)的误差累积问题。
应用价值:
- 可应用于司法取证、社交媒体内容审核等高精度需求场景;
- 开源代码与预训练模型为后续研究提供基准。
亮点总结:
1. 端到端训练:首次联合多尺度特征融合与形态学边缘监督;
2. 计算高效性:相较于MVSS-Net,训练时间减少50%(表X);
3. 抗干扰性强:在JPEG压缩(QF=50)下仍保持90%以上AUC。