本文档由微软亚洲研究院和中国科学技术大学的研究人员合作完成,作者为 Dongnan Gui, Xun Guo, Wengang Zhou, Yan Lu。这是一篇发表在计算机视觉领域顶级会议 CVPR 上的学术论文。
在生成式人工智能,特别是基于扩散模型的图像生成技术取得巨大成功之后,图像到视频生成模型正迅速成为新的研究和应用热点。这类模型能够将单张静态图像转化为生动连贯的动态视频,在内容创作、艺术设计等领域展现出巨大潜力。然而,强大的技术往往伴随着滥用的风险。试想,一张个人肖像图片可能被恶意用户输入到此类模型中,生成该人物做出不当行为的虚假视频,这将严重侵犯个人隐私与名誉,甚至被用于诽谤或欺诈。同样,受版权保护的图像也可能在未经授权的情况下被用于生成视频内容,从而对知识产权构成威胁。当前,针对图像编辑模型的对抗攻击防御技术已有一些探索,但专门针对图像到视频生成模型这一新兴威胁的防护手段尚属空白。这构成了一个关键的安全研究缺口。因此,本研究旨在填补这一空白,提出一种名为“I2VGuard”的对抗攻击方法,通过向图像中添加人眼难以察觉的微小扰动,使其在经过基于扩散的图像到视频模型处理时,生成的视频质量显著下降,从而达到保护图像免遭恶意动画化的目的。
I2VGuard 方法的核心思想是将图像保护任务构建为一个白盒对抗攻击问题。在白盒设定下,攻击者(即防御方)完全了解目标视频生成模型的结构与参数。该方法在训练过程中,以一个原始图像为起点,优化生成一个经过扰动的“受保护图像”。其核心创新在于设计了三个协同工作的攻击模块,分别针对生成视频的不同维度进行破坏:空间质量、时间一致性和跨模型鲁棒性。整体工作流程如下图所示(基于图2)。首先,原始图像和其对应的训练副本(即待优化的受保护图像)被输入模型。训练过程涉及对视频生成过程的一次完整前向推理和反向梯度传播。具体而言,三个攻击模块作用于生成流程的不同环节:
第一,空间攻击模块。该模块旨在破坏生成视频中每一帧画面的视觉保真度。其攻击目标是图像的潜在空间表示。在基于潜在扩散的模型中,图像首先通过一个变分自编码器的编码器被压缩到一个低维的潜在空间。空间攻击的目标是操纵这个潜在表示,使其偏离原图的优质分布,而移向一个低质量的目标分布(在实验中常使用全黑图像作为目标)。其损失函数定义为受保护图像潜码与目标图像潜码之间的均方误差。通过优化这个损失,可以迫使受保护图像在潜在空间中的特征变得“劣质”,从而在解码生成视频帧时,导致画面模糊、扭曲或出现异常纹理。
第二,时间攻击模块。这是本工作针对视频生成任务特殊性的关键设计。图像到视频生成的核心挑战在于保持帧与帧之间的时间一致性以产生连贯运动。为此,现代视频扩散模型通常包含专门的时间注意力模块来建模帧间关系。时间攻击模块通过“钩子”技术提取模型去噪过程中的时间自注意力图。该注意力图本质上描述了不同视频帧特征之间的关联强度。攻击的目标是扰动这个注意力图,使其变得混乱无序,从而破坏运动的一致性。具体实现上,它计算受保护图像与原始图像在生成过程中对应时间注意力图之间的差异,并通过最大化它们的距离(即最小化它们的相似度)来构造损失。这使得模型在基于受保护图像生成视频时,无法建立起正确的时间关联,导致生成的对象运动紊乱、闪烁或出现不自然的跳跃。
第三,扩散攻击模块。为了提高所生成扰动的普适性和对不同模型架构(如基于U-Net的SVD和基于Transformer的CogVideoX)的鲁棒性,研究者进一步提出了扩散攻击模块。该模块直接作用于去噪模型(即U-Net或Transformer)的预测输出。其核心思想是使用对比损失来引导生成过程。在每次去噪迭代中,模型会预测一个“干净”的潜在帧。扩散攻击模块的目标是,让基于受保护图像预测出的“干净”帧尽可能接近一个低质量的目标视频帧(如全黑帧),同时尽可能远离基于原始图像预测出的高质量帧。这样,无论模型内部结构如何,其最终的生成输出都会被拉向低质量的结果,从而确保了攻击方法在不同模型间的有效性。
最终的训练损失是上述三个模块损失的加权和,并加上一个对图像扰动大小的正则化项(即限制受保护图像与原始图像的像素级差异),以确保添加的扰动对人眼不可见。整个算法通过反向传播迭代优化受保护图像,直至达到预设的扰动强度或收敛。
研究团队设计了一套全面的实验来评估 I2VGuard 的有效性。实验涉及多个前沿的图像到视频生成模型:无条件的 Stable Video Diffusion、支持文本-图像联合条件的 CogVideoX 以及姿态控制模型 ControlNext。数据集方面,研究者自行收集了包含300张人物和动物动态图像的数据集,因为这类图像更易被滥用。评估指标分为两部分:一是评估图像扰动本身的质量,使用峰值信噪比和结构相似性来衡量扰动的不可感知性;二是评估生成视频的退化效果,使用VBench基准中的主题一致性(衡量主体在各帧中的稳定程度)、运动平滑度、美学质量和图像质量等指标。
定性分析结果清晰展示了 I2VGuard 的强大效果。如图1和图4所示,经过保护的图像与原始图像在视觉上几乎没有差别,但输入到SVD等模型中后,生成的视频出现了显著的劣化:人物面部和肢体运动变得怪异、背景出现混沌纹理、整体视频质量急剧下降。相比之下,简单的随机噪声几乎不影响生成质量,而针对图像编辑模型设计的保护方法 PhotoGuard 虽能造成画面失真,但对时间一致性的破坏有限。这证明了I2VGuard专门针对视频时序特性设计的攻击模块的有效性。在条件生成场景下(如图5),即使模型接收了精确的文本提示(如“许多鸵鸟在奔跑”)或姿态控制信号,受保护图像仍然能导致生成失败,例如出现头部缺失、身体透明的鸵鸟,或者角色外形扭曲变形。
定量分析数据进一步支撑了上述观察。在图像层面,I2VGuard 添加的扰动与随机噪声在强度上相当,但其PSNR和SSIM值更高,表明其扰动更“智能”,与图像纹理融合得更好,更不易被察觉。在视频生成效果层面,如表1所示,对于SVD模型,使用受保护图像生成视频的主题一致性下降了约4%(从95.86%降至91.57%),运动平滑度略有下降,美学质量和图像质量也分别下降了约3%和3%。对于性能更强的CogVideoX模型,虽然其抗攻击能力稍强,但所有评估指标仍显示出统计显著的下降,表明攻击是有效的。帧级定量评估(图6)也显示,由受保护图像引入的误差会在视频生成过程中传播和累积,导致后续帧与原始生成结果的偏差越来越大。
本研究的结论是,成功提出并验证了首个针对图像到视频生成模型的对抗攻击防御框架 I2VGuard。该方法通过精心设计的空间、时间和扩散三重攻击模块,能够有效地、隐蔽地“毒化”图像,使其在主流图像到视频扩散模型中无法生成高质量、连贯的动态视频。这项工作揭示了当前先进生成模型在安全层面的一个新脆弱点,并为保护个人隐私和数字内容版权提供了一种主动防御思路。
本研究的亮点在于其开创性和系统性。首先,这是首个专门探讨如何防御图像在图像到视频生成任务中被滥用的研究,开辟了生成式AI安全的一个新方向。其次,方法设计具有高度的针对性,特别是时间攻击模块,直接针对视频生成的核心——时序建模机制进行破坏,这是区别于以往针对静态图像攻击方法的关键创新。第三,提出的三重攻击框架兼顾了空间质量破坏、时间一致性破坏和跨模型鲁棒性,形成了一个完整而有效的防护体系。第四,实验评估全面且严谨,涵盖了无条件生成、文本条件生成和姿态条件生成等多种主流场景,并在多个SOTA模型上验证了方法的有效性。
此外,该工作还具有其他有价值的细节。例如,方法支持全局攻击和局部攻击,用户可以选择对整个图像或仅对图像中的特定对象(如人脸)施加保护。在计算成本方面,虽然保护过程需要与视频生成相当的GPU内存和计算时间(如SVD约需68GB内存和2.5分钟),但这属于一次性的预处理成本,且与模型的推理时间基本持平,具有实际可行性。论文也探讨了模型对攻击的抵抗性,指出基于3D VAE的CogVideoX因其能更好处理时空噪声而比基于2D+1D VAE的SVD更具鲁棒性,这为未来设计更健壮的防护方法或更安全的生成模型提供了参考。I2VGuard 是一项具有重要理论意义和应用前景的前沿研究,为应对生成式AI时代的新型安全挑战提供了有力的技术工具。