本文是一篇发表于2021年12月的计算机图形学领域的学术研究论文,题为《Barbershop: GAN-Based Image Compositing Using Segmentation Masks》,发表在ACM Transactions on Graphics期刊上。研究团队由来自沙特阿拉伯阿卜杜拉国王科技大学(KAUST)的Peihao Zhu, Rameen Abdal, Peter Wonka以及美国迈阿密大学的John Femiani组成。
本研究的主要背景是生成对抗网络在图像生成与编辑领域的飞速发展。尽管StyleGAN等模型能够合成高度逼真的人脸或头发图像,但将多个参考图像的不同部分(如A的脸和B的头发)无缝、协调地融合成一张单一的、具有全局一致性的图像,仍然是一个巨大的挑战。这主要源于图像内部复杂的耦合关系,如光照、几何形状、部分遮挡等,使得简单拼接会导致明显的伪影和不协调。本研究聚焦于一个具体的图像编辑任务——发型移植(Hairstyle Transfer),其目标是将参考图像中头发的视觉属性(包括精细的外观,如颜色、纹理,和粗粒度的结构,如发束形状)转移到目标人脸图像上,同时保持合成图像的整体真实感。先前的工作,如Michigan和LOHO,通常依赖于复杂的条件生成器流水线或精心设计的损失函数来解耦头发属性,并常常需要额外的预训练修复网络来填充因掩码不对齐而产生的“空洞”,这可能导致模糊的边界和不自然的过渡。因此,本研究旨在开发一种新的框架,能够在GAN的潜在空间中直接进行高质量的图像混合,避免上述问题。
本研究的工作流程是一个多阶段的优化过程,其核心在于提出了一种新颖的FS潜在空间,并围绕它设计了一套嵌入、对齐与混合算法。
第一阶段:初始分割 首先,使用一个现成的语义分割网络(如BiSeNet)对所有参考图像进行分割。目标是生成一个目标分割掩码。该掩码定义了最终合成图像中每个语义区域(如头发、皮肤、背景等)应来源于哪个参考图像。例如,在发型移植任务中,目标掩码的“头发”区域来自发型参考图,其余区域来自人脸参考图。掩码可以自动生成,也可以手动编辑以获得对形状的更多控制。自动生成时,通过优先级解决多个参考掩码在像素上的冲突。
第二阶段:嵌入与对齐——核心创新步骤 这是本研究的核心贡献之一。传统方法通常直接将图像嵌入到StyleGAN的W+潜在空间,但其在保持特定细节(如痣、皱纹的精确位置)方面能力有限。为此,研究者提出了FS潜在空间。它由一个结构张量F和一个外观编码S组成。具体而言,F是StyleGAN2生成器中某一中间层(论文中为第7个风格块)的输出特征图,它编码了图像的空间结构信息;而S则对应W+空间中剩余高层风格块的输入,编码了全局的风格属性。FS空间比W+空间具有更高的容量和空间感知能力,能更好地保留个性化细节。
嵌入过程分为两步:1) 重建:对于每个参考图像,首先使用改进的图像到风格嵌入算法将其嵌入到W+空间,然后以此为起点,通过梯度下降优化到新的FS空间,找到能高保真重建原图的FS编码。2) 对齐:由于参考图像与目标掩码的语义区域可能不完全对齐,直接混合会导致伪影。因此,研究者提出了一种“对齐嵌入”算法。该算法在W+空间中寻找一个新的潜在码,使得由此生成的图像在语义分割上与目标掩码一致(通过交叉熵损失约束),同时在外观风格上与原参考图像相似(通过掩码风格损失约束)。这个新的潜在码对应一个粗略对齐的图像。
第三阶段:结构转移与混合 获得对齐的W+潜在码后,需要将原始参考图像中丰富的细节“转移”回来。研究者设计了一个软掩码机制,将原始FS编码中的结构张量F的细节,安全地“粘贴”到对齐后图像对应的语义区域内,形成最终用于混合的“对齐FS编码”。对于最终的合成图像,其结构张量F_blend直接由各个对齐FS编码中对应目标掩码的区域拼接而成。
第四阶段:外观混合 外观编码S的混合更为精细。研究者提出了一种新的掩码感知损失函数,它在感知损失的基础上,对每个语义区域分别计算与对应参考图像的差异。目标是寻找一组外观编码S_blend,它是各个参考外观编码的凸组合(即加权平均),使得由F_blend和S_blend生成的合成图像,在各个区域都与对应的对齐参考图像在感知上尽可能相似。这个过程通过带约束的梯度下降优化完成。
研究对象与评估 研究使用了120张1024x1024的高分辨率人脸图像,从中选取了198对图像进行发型移植实验。评估主要分为两方面:1) 用户研究:在Amazon Mechanical Turk平台上进行大规模用户偏好测试,将本方法的结果与当前最佳方法LOHO和Michigan进行对比。2) 量化指标:计算了RMSE、PSNR、SSIM、VGG感知相似度、LPIPS感知相似度以及FID分数,以评估重建和生成图像的质量。
主要结果 本研究取得了显著成果: 1. 用户研究结果压倒性优势:在与LOHO的396次比较中,用户95%的情况下更偏好本方法的结果;在与Michigan的396次比较中,这一比例达到96%。这强烈证明了本方法在生成视觉上更逼真、伪影更少的合成图像方面的优越性。 2. 量化指标全面领先:如表1所示,本方法在所有评估指标上均优于对比方法(包括作为基准的未对齐版本),特别是在保持感知质量(LPIPS更低)和图像真实性(FID更低)方面。 3. 定性结果展示强大能力: * 高质量发型移植:如图1、6所示,方法能够灵活地将不同参考图像的发型形状、结构和外观进行组合,生成多样且逼真的新发型。 * 无缝融合与全局一致性:如图8所示,与现有方法相比,本方法在头发与脸部/背景的过渡区域处理得更加自然,避免了生硬的切割感和光照不一致的问题,实现了更好的全局一致性。 * 超越发型的通用图像合成:如图7所示,该方法框架具有通用性,同样适用于面部特征(眼、眉、鼻、口)的交换乃至整个面部的替换,证明了其在基于语义分割的图像合成方面的潜力。 4. 消融研究验证关键组件:如图9所示,研究者逐步移除了方法中的关键组件(FS空间、对齐步骤),结果清晰地表明,缺少任何一个组件都会导致质量下降。使用W+空间但不进行对齐会导致语义区域错位和修复伪影;进行对齐但使用W+空间则会导致细节丢失,生成过于“平均”的脸;而完整的FS空间+对齐方案取得了最佳效果,证明了每个创新点的必要性。
研究的结论与价值 本研究提出了一个名为“Barbershop”的、基于GAN和分割掩码的新型图像合成框架。其核心贡献包括:1) 新颖的FS潜在空间,增强了细节保持和空间信息编码能力;2) 新的GAN对齐嵌入算法,能使图像在嵌入过程中适应新的分割掩码;3) 新的潜在空间图像混合算法,通过优化混合权重实现高质量合成。该研究显著提升了发型移植等图像合成任务的性能,用户研究结果和量化指标均证实了其相对于现有技术的实质性进步。该工作不仅在学术上推动了GAN在精细化、可控图像编辑方向的发展,也为开发下一代交互式照片编辑工具提供了强大的技术支持,具有明确的应用价值。
研究亮点 1. 创新性的FS潜在空间:突破了传统W/W+空间在编码空间细节上的限制,通过引入结构张量F,实现了对图像局部特征的更精细控制。 2. “对齐后再混合”的范式:提出的语义对齐步骤是关键洞见。它确保了在潜在空间中进行混合时,参与混合的像素在语义上是对应的,从而从根本上减少了因语义错位导致的融合伪影。 3. 端到端的潜在空间优化:整个流程在GAN的潜在空间内完成,避免了在像素域直接混合或依赖外部修复网络,从而能利用GAN学到的先验知识生成全局一致、过渡自然的图像。 4. 卓越的性能验证:通过大规模用户研究(超过95%的偏好率)和全面的量化分析,提供了令人信服的证据,证明了该方法的有效性和优越性。 5. 框架的通用性:虽然主要聚焦于最具挑战性的发型移植任务,但方法框架被证明可适用于更广泛的、基于语义区域的图像编辑与合成任务。
其他有价值的方面 论文还讨论了方法的局限性,例如对GAN难以完美重建的罕见特征(如特定首饰)、处理半透明/细碎发丝时的挑战,以及对输入分割掩码质量和大几何形变的敏感性。这些为未来研究指明了方向。此外,附录中还探讨了掩码修复策略、对姿态变化的敏感性,以及允许手动编辑掩码以进一步改善结果的可能性,增加了工作的实用性和完整性。