分享自:

均衡扩散:频率感知文本嵌入用于均衡图像定制

期刊:ACMDOI:10.1145/3664647.3680729

本文档属于类型a,即报告了一项原创性研究。以下是基于文档内容生成的学术报告:

作者及机构
本研究的主要作者包括Liyuan Ma(西湖大学)、Xueji Fang(浙江大学/西湖大学)和Guo-Jun Qi(西湖大学)。研究论文发表于2024年10月28日至11月1日在澳大利亚墨尔本举行的第32届ACM国际多媒体会议(MM ‘24)上,并收录于会议论文集。

学术背景
本研究的主要科学领域是计算机视觉,特别是图像定制(image customization)技术。图像定制的目标是从提供的概念图像中学习特定主题,并在文本上下文中生成该主题的图像,通常涉及风格或背景等属性的调整。现有的方法主要依赖于微调技术,使用统一的潜在嵌入来表征各种概念属性。然而,这种属性纠缠使得定制结果难以消除与主题无关的属性(如风格和背景)的影响。为了解决这些问题,本研究提出了“均衡扩散”(equilibrated diffusion)方法,通过从频率感知的角度解耦纠缠的概念属性,实现了均衡的图像定制,从而协调文本和视觉的一致性。

研究流程
本研究的工作流程包括以下几个主要步骤:

  1. 频率感知解耦文本嵌入(Frequency-aware Decoupled Textual Embedding, FDTE)
    FDTE的核心思想是从频域角度解耦高频风格和低频内容信息。通过图像傅里叶变换,将原始图像分解为高频和低频成分,并分别学习内容和风格的文本嵌入。具体来说,FDTE将原始图像通过傅里叶变换转换为高频和低频成分,并为每个频带分配可学习的文本嵌入。高频嵌入捕捉风格属性,低频嵌入捕捉内容属性。为了保持对原始图像的降噪效果,FDTE还保留了原始图像作为输入候选,其文本嵌入由高频和低频嵌入之和计算得出。在训练阶段,这些输入被随机选择以构成训练数据,并在推理阶段使用原始图像的文本嵌入作为条件输入,以确保生成结果与真实图像一致。

  2. 掩码引导扩散过程(Mask Guided Diffusion Process, MGDP)
    MGDP旨在消除背景属性对概念表示的干扰。通过使用主题掩码,MGDP将噪声添加和预测限制在主题区域内,从而迫使模型专注于学习主题的概念表示。具体来说,MGDP在扩散过程中仅在主题掩码区域内添加噪声,并保留干净的背景信息输入到U-Net网络中。这一过程通过重新定义降噪目标函数来实现,使其与掩码扩散损失对齐。MGDP的设计灵感来源于SmartBrush方法,但其创新之处在于通过掩码引导的扩散过程进一步增强文本对齐能力。

  3. 残差参考注意力(Residual Reference Attention, RRA)
    RRA旨在通过引入参考图像的空间细节来增强图像对齐能力。在训练过程中,参考图像的特征被编码并注入到降噪网络中,逐步将参考图像的空间信息融入生成结果。RRA的核心创新在于学习显式的融合掩码和自适应融合系数,从而在优化过程中精确地融合参考图像的特征。具体来说,RRA通过线性层将参考特征和目标特征融合,并使用参考注意力损失(l_ra)来促进目标特征与参考特征之间的精确对应。RRA的设计显著提升了生成结果的空间细节保留能力。

主要结果
本研究在Dreambooth数据集上进行了实验,评估了均衡扩散方法在文本对齐和图像对齐方面的性能。实验结果表明,均衡扩散在风格化提示对齐和主题身份保留方面表现出色。具体来说:
1. 定性评估:与现有方法相比,均衡扩散在处理各种挑战性风格描述时表现优异。在风格描述与原始图像相似的情况下,均衡扩散能够保留原始图像的局部细节;在更不现实的风格描述下,均衡扩散能够保持主题的关键语义元素,同时实现灵活的风格编辑。
2. 定量评估:在CLIP-T、CLIP-I和DINO-I三个指标上,均衡扩散均取得了领先或接近领先的成绩。特别是在非风格化提示下,均衡扩散的CLIP-T得分最优,展示了其卓越的文本编辑能力。
3. 消融实验:通过对RRA、FDTE和MGDP的消融实验,验证了各组件对模型性能的贡献。例如,RRA显著提升了主题一致性,FDTE增强了风格化描述的表达能力,而MGDP有效降低了背景属性的干扰。

结论
本研究提出的均衡扩散方法通过解耦内容和风格、引入掩码引导扩散过程以及残差参考注意力机制,实现了更好的图像一致性和风格化文本对齐。其科学价值在于提供了一种新的图像定制框架,能够有效解耦概念属性并增强文本和视觉的一致性。其应用价值在于为虚拟摄影、个性化电子商务产品设计等下游任务提供了技术支持。

研究亮点
1. 创新方法:FDTE通过频域解耦内容和风格,MGDP通过掩码引导扩散过程消除背景干扰,RRA通过残差参考注意力机制保留空间细节。
2. 卓越性能:均衡扩散在文本对齐和图像对齐方面均取得了领先的实验结果,展示了其在处理复杂风格描述和保留主题身份方面的优势。
3. 广泛适用性:该方法适用于多种图像定制任务,具有较高的通用性和可扩展性。

其他有价值的内容
本研究还详细探讨了FDTE的超参数设置,分析了选择高频、低频和原始图像的概率对模型性能的影响。实验表明,在非风格化和风格化场景下,使用𝑝𝑙, 𝑝ℎ, 𝑝𝑜 = [0.1, 0.1, 0.8]能够实现图像保真度和文本一致性的最佳平衡。此外,研究还对比了MGDP与现有方法(如MDL)在消除背景干扰方面的性能,进一步验证了MDP的优越性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com