FreqMamba：用于深度伪造检测的空间-频率融合与状态空间序列建模

分享自：
FreqMamba：用于深度伪造检测的空间-频率融合与状态空间序列建模

期刊:sensorsDOI:10.3390/s26113419
关于FreqMamba：一种用于深度伪造检测的空间-频率融合与状态空间序列建模方法的学术研究报告
一、 研究团队与发表信息
本研究报告所介绍的研究工作由来自中国西华师范大学计算机学院的 Zhiqi Li, Yajun Chen*, Mingrui Li, Ruipeng Wang 和 Hao Liu 共同完成。通讯作者为 Yajun Chen。该研究以学术论文的形式发表，论文标题为 “FreqMamba: Spatial–Frequency Fusion and State Space Sequence Modeling for Deepfake Detection”。该论文于2026年5月28日在线发表于期刊 *Sensors*（2026年，第26卷，第3419期）。论文遵循知识共享署名（CC BY）许可协议开放获取。
二、 研究背景与目的
本研究隶属于多媒体取证与计算机视觉领域，具体聚焦于深度伪造（Deepfake）检测这一关键且紧迫的研究方向。随着生成对抗网络（GANs）和扩散模型等生成式人工智能技术的飞速发展，制作出人眼难以分辨的高保真面部伪造内容（如换脸、表情重演）变得愈发容易。这些技术虽在娱乐、数字内容创作等方面具有潜力，但其恶意滥用（如散布虚假信息、身份诈骗、伪造司法证据、损害名誉、政治操纵等）已对社会公信力、个人隐私和全球信息完整性构成了严重的系统性威胁。因此，开发能够同时具备高判别准确性、强鲁棒性和卓越跨域泛化（cross-domain generalization） 能力的深度伪造检测算法，已成为多媒体取证领域的迫切需求。
现有的深度伪造检测方法主要分为两大类：空间域方法和频域方法。空间域方法（如基于CNN的模型）擅长从像素层面提取纹理不一致、颜色失真等视觉线索，但随着伪造技术逼真度的提升，这些视觉伪影逐渐减少，且难以捕捉人眼不可见的细微篡改痕迹，导致在未知的、具有不同伪造类型、压缩水平和采集条件的跨域数据集上性能下降。频域方法则通过分析图像在频率域（如傅里叶变换、小波变换）的频谱异常和噪声不一致性来揭示隐藏的篡改痕迹，这在一定程度上弥补了空间域的不足。然而，现有频域方法存在两个主要局限：1) 大多使用标准卷积或Transformer提取频域特征，未能充分利用小波频率数据（细长、全局分布）的独特属性，限制了特征提取效率和表征能力；2) 通常仅通过浅层引导或简单拼接来融合空间和频率特征，缺乏一种能够动态整合两种模态互补信息的自适应融合机制。
此外，特征建模主干网络的选择也至关重要。CNN感受野有限，难以建模全局分布的伪造模式；Transformer虽能捕获长程依赖，但其二次计算复杂度迫使使用大图像块，丢失了对跨域泛化至关重要的像素级篡改痕迹，且计算和内存开销大。近年来兴起的状态空间模型（State Space Models, SSMs），特别是Mamba，以其线性复杂度实现全局上下文建模的能力，为这一困境提供了新的可能。然而，此前将Mamba应用于深度伪造检测的工作（如WMamba）仅使用小波特征生成注意力图来引导Mamba主干，并未实现空间与频率特征的深度融合，且其官方实现未公开，难以进行公平比较。
基于以上分析，本研究旨在解决三个核心研究空白：1) 缺乏空间语义与频率伪影之间的有效自适应融合机制；2) 传统主干网络在性能与效率上存在权衡；3) 现有方法容易过拟合到特定数据集属性，导致跨域场景性能下降。为此，本研究提出了一个名为 FreqMamba 的端到端人脸伪造检测框架，其核心目标是：通过一个门控延迟融合（gated late-fusion） 机制自适应地聚合空间语义特征和频域伪影，并利用双向视觉状态空间模型（Bidirectional Vision State Space Model） 进行全局序列建模，以期在保持高效计算的同时，显著提升模型在未见过的、具有挑战性的跨域数据集上的泛化性能。
三、 研究方法与详细工作流程
FreqMamba 框架是一个系统性的五阶段工作流程，包括预处理、多分支特征提取、门控融合、全局建模和分类。以下是每个阶段的详细说明：
1. 预处理模块： 研究使用了统一的数据预处理流程。首先，使用 RetinaFace 人脸检测器对所有输入图像或视频帧进行人脸检测和对齐，并裁剪出带30%边缘的人脸区域。为确保训练稳定性，训练阶段会丢弃裁剪后尺寸小于50×50像素或拉普拉斯方差低于30的“困难”帧。对于视频数据，采用等间隔采样最多60帧，并选择前30个有效帧。所有裁剪后的人脸图像均被缩放至256×256像素并进行归一化。在测试阶段（尤其是跨域评估时），为了真实反映模型在开放世界中的性能，不应用任何质量过滤，保留所有检测到的人脸，无论其分辨率或模糊程度如何。
2. 多分支特征提取： 此阶段是FreqMamba的核心创新之一，包含两个并行的特征提取分支： * CNN空间语义分支：此分支旨在提取人脸的高层语义信息和局部纹理细节。研究者采用了轻量化的EfficientNet-B0作为基础，但仅使用其前6个MBConv块（阶段1和阶段2），形成一个参数仅0.89M的紧凑特征提取器。阶段1处理输入图像，生成一个40×28×28的特征图，该特征图经过全局平均池化和线性投影，得到一个128维的语义向量，用于后续融合。阶段2进一步处理阶段1的输出，生成一个112×14×14的特征图，该特征图将作为后续全局建模主干的输入。为提升泛化能力，在阶段2应用了随机深度正则化。 * 分层小波频率分支：此分支旨在捕捉生成模型在频域留下的、人眼难以察觉的细微篡改痕迹。研究采用离散小波变换（Discrete Wavelet Transform, DWT），具体使用Haar小波基。对每个RGB输入图像的每个通道分别进行一级DWT，得到四个子带：一个低频近似子带（LL）和三个高频细节子带（LH, HL, HH）。依据前人观察，LL子带主要包含与身份相关的信息，与伪造关联不大，因此被丢弃。保留的三个高频子带跨通道拼接，形成一个9×112×112的张量。随后，该张量经过两个卷积层（通道数从9扩展到64再到128）进行编码，再经过全局平均池化和线性变换，最终得到一个128维的频率向量。在训练时，向高频子带注入微小的高斯噪声，以增强模型对压缩和未知噪声模式的鲁棒性。
3. 空间-频率门控融合机制： 这是本研究的另一个关键创新点，旨在动态、自适应地整合来自空间和频率分支的互补信息。传统的简单拼接或单向注意力机制无法根据输入内容调整各分支的重要性。FreqMamba设计了一个门控延迟融合模块。它将来自CNN分支的128维语义向量、来自DWT分支的128维频率向量，以及后续将从Mamba主干得到的128维全局向量进行拼接，形成一个384维的融合前向量。该向量随后通过两个全连接层，生成三个归一化的门控权重（α1, α2, α3），其和为1。这些权重由网络根据输入内容自适应学习。最终的融合表示是三个向量的加权和。这种机制允许模型根据当前输入图像的特征，动态地强调空间、频率或全局上下文线索中最具判别性的部分，从而避免固定融合方式可能造成的信息冗余和噪声干扰。
4. 双向状态空间全局建模主干： 为了克服CNN感受野有限和Transformer计算复杂度高的问题，研究采用了双向视觉Mamba（Vision Mamba, ViM） 作为全局建模主干。Mamba是一种基于选择性扫描机制的状态空间模型，能以线性复杂度对序列进行建模。ViM将其扩展至2D视觉任务。具体而言，来自CNN空间分支第二阶段输出的112×14×14特征图被展平成一个长度为196（14×14）、每个元素为112维的序列。加入可学习的位置编码后，通过线性层将特征维度投影到128维，得到输入序列。该序列由一个双向Mamba模块处理：一个前向扫描（原始顺序）和一个反向扫描（反转顺序）。两个方向的输出进行逐元素相加，再经过层归一化、Dropout和层缩放等操作。最后，对序列维度进行平均池化，得到一个128维的全局向量。这一设计使得模型能够以线性复杂度捕获图像块之间的长程依赖关系，同时保留对检测至关重要的细粒度空间细节。
5. 分类器与训练策略： 融合后的128维向量通过一个两层分类器（第一层为256维，使用GELU激活和Dropout；第二层输出2维logits）得到最终的“真实”或“伪造”预测概率。研究采用标签平滑的焦点损失（Label-Smoothed Focal Loss） 作为损失函数，以聚焦于难例并缓解过拟合。优化器使用AdamW，学习率采用OneCycleLR策略（10%预热步数后余弦退火）。批量大小为32。训练仅在FaceForensics++ (FF++) C23数据集上进行，并通过早停法（基于FF++验证集AUC，15个epoch无提升则停止）选择最佳模型，确保跨域评估的纯粹性，即模型从未在Celeb-DF v2或WildDeepfake数据集上进行过任何微调或模型选择。数据增强策略包括空间变换（随机缩放裁剪、水平翻转）、运动模糊、频率失真（随机锐化或模糊）、颜色抖动、动态JPEG压缩、DCT低通模拟和随机擦除，以增强模型对域偏移的鲁棒性。
四、 主要研究结果与分析
研究在三个标准基准数据集上进行了系统实验，严格遵循“仅在FF++ C23上训练，在未见过的数据集上测试”的协议，以评估纯跨域泛化能力。
1. 主要定量结果对比： 如表2所示，FreqMamba在所有数据集上均取得了领先的性能。 * 域内性能（FF++ C23）：FreqMamba达到了99.47%的AUC，优于所有对比方法，证明了其整合空间、频率和全局特征的有效性。 * 跨域性能（Celeb-DF v2）：在更具挑战性的Celeb-DF v2数据集上（未经过滤的测试集），FreqMamba获得了0.7767的AUC。这超越了最佳频域感知方法SPSL（0.7650）1.17个百分点，以及最佳空间域方法UCF（0.7527）2.40个百分点。与参数量相近的CNN基线模型（1.14M参数，0.7262 AUC）相比，性能提升了5.05个百分点。这一结果明确验证了所提出的门控融合和Mamba建模对于提升跨域泛化能力的价值。 * 真实世界性能（WildDeepfake）：在包含各种真实世界扰动的WildDeepfake数据集上，FreqMamba达到了0.6993的AUC，分别优于SPSL和UCF方法1.90和2.35个百分点。与轻量级CNN基线（0.6272 AUC）相比，提升达7.21个百分点，表明模型对运动模糊、可变压缩和光照变化等真实干扰具有较好的鲁棒性。
2. 消融实验分析： 为验证每个核心模块的必要性，研究进行了增量式消融实验（见表3）。 * 单独频率分支的效果：仅在轻量CNN基线上添加DWT分支，在Celeb-DF v2和WildDeepfake上的性能提升非常有限（分别+0.44和+0.33 AUC点），表明在没有全局上下文建模的情况下，频率线索本身的作用有限。 * 双向Mamba主干的效果：在CNN基础上引入Mamba分支（CNN+Mamba），参数从0.89M增至1.23M，但在Celeb-DF v2和WildDeepfake上的AUC分别大幅提升了11.32和6.02个百分点。这强烈表明性能增益主要源于Mamba架构本身带来的全局建模能力，而非简单的参数增加。 * 门控融合的协同效应：将DWT分支加入到CNN+Mamba中，形成完整的FreqMamba，能进一步带来性能提升（Celeb-DF v2 +0.30， WildDeepfake +1.19）。这揭示了一个关键发现：DWT频率先验与Mamba序列建模之间存在协同效应。单独作用有限的频率特征，在与能进行全局建模的Mamba结合后，其作用被有效激活和放大。 * 参数量匹配对比：FreqMamba（1.36M参数，0.7767 AUC）显著优于一个通过加宽EfficientNet-B0来匹配参数量（1.14M）的CNN基线模型（0.7262 AUC），性能领先5.05个百分点。这确凿地证明，FreqMamba的性能优势源于其新颖的架构设计，而非更大的模型容量。
3. 可视化与可解释性分析： 通过Grad-CAM生成类激活热图进行可视化分析。对比发现，轻量级CNN基线的激活区域分散，无法清晰定位伪造痕迹。而FreqMamba的注意力则高度集中在人脸交换边界、眼周和脸颊等伪造伪影最密集的区域。这从视觉上证实了空间-频率融合与状态空间建模的协同作用，使模型能够更精确地定位篡改区域，从而做出更可靠的判断。
4. 计算效率分析： FreqMamba在保持高性能的同时，具备出色的计算效率。如表4所示，与主流骨干网络如Xception和EfficientNet-B4相比，FreqMamba的参数数量（1.36M）和FLOPs（0.57G）大幅减少，同时在NVIDIA RTX 4060 GPU上实现了172 FPS的实时推理速度（比Xception快2.5倍）。更重要的是，这种效率提升并未以牺牲精度为代价，其在Celeb-DF v2上的跨域性能反而显著优于Xception（77.67 vs. 73.65 AUC）。这表明FreqMamba在效率与泛化能力之间取得了良好的平衡，适用于边缘部署和大规模视频分析。
五、 研究结论与价值
本研究成功提出了FreqMamba框架，通过自适应门控融合机制整合空间语义特征与频域伪造伪影，并利用双向视觉状态空间模型进行高效的全局序列建模，有效解决了深度伪造检测中跨域泛化能力不足的核心挑战。
科学价值：本研究验证了在深度伪造检测任务中，空间-频率协同建模与基于状态空间模型的全局表征相结合的有效性。它揭示了频域先验知识与线性复杂度全局建模器之间的协同效应，为设计更泛化、更高效的检测模型提供了新的范式。门控融合机制也为多模态特征的自适应整合提供了新思路。
应用价值：FreqMamba在未经任何跨域微调的情况下，在真实世界的WildDeepfake数据集上表现出色，展现了其在开放世界场景（如社交媒体内容审核、数字媒体取证）中部署的潜力。其高效的推理速度和较低的资源消耗，使其能够平衡检测精度与工程可行性，适合资源受限的边缘计算环境。此外，模型通过Grad-CAM提供的可解释性，对于司法、监管等对决策可靠性要求极高的应用场景具有重要价值。
六、 研究亮点
创新性架构：首次提出了一个集成了分层离散小波变换（DWT）频率分支、CNN空间分支、双向视觉Mamba（ViM）全局建模主干以及自适应门控延迟融合机制的端到端统一框架，系统性地解决了现有方法在特征提取、融合和建模方面的局限性。
显著的跨域泛化性能：在严格的单域训练、跨域测试协议下，在Celeb-DF v2和WildDeepfake等多个挑战性基准上取得了领先的检测性能，显著优于现有的空间域、频域及跨域泛化方法。
揭示协同效应：通过细致的消融实验，首次明确证实了DWT频率先验与Mamba序列建模在提升跨域检测性能上存在显著的协同效应，为后续研究提供了重要的 insights。
效率与性能的平衡：模型在参数量（1.36M）和计算量（0.57G FLOPs）远低于传统骨干网络（如Xception）的情况下，实现了更高的检测精度和实时推理速度，展示了状态空间模型在视觉取证任务中的巨大潜力。
严谨的评估协议：研究强调了在测试阶段不使用质量过滤的重要性，以真实反映模型在开放世界中的性能，确保了评估结果的可靠性和可比性。
七、 其他有价值的内容与未来方向
研究也坦诚地讨论了当前工作的局限性及未来方向： * 局限性：包括对极低质量视频（高频信息严重退化）的检测性能可能下降；主要针对GAN生成伪造，对扩散模型生成的高保真伪造的泛化能力有待系统验证；由于计算资源限制，未在大型DFDC数据集上进行评估，也未进行多次随机实验以报告统计显著性；尚未针对对抗性攻击进行鲁棒性训练。 * 未来工作：计划构建更鲁棒的频域特征提取模块以应对低质量视频；引入扩散模型伪造数据以扩展对新生成算法的泛化能力；应用知识蒸馏和模型剪枝进一步优化以适配边缘设备；结合对抗训练提升模型稳定性；探索融合音频、生理信号等多模态线索以在开放环境中进一步增强检测可靠性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问