TryOn-Adapter:高效细粒度服装身份适应的高保真虚拟试穿
TryOn-Adapter——高效细粒度服装身份适配的高保真虚拟试穿
研究背景与问题
虚拟试穿(Virtual Try-On)技术近年来受到广泛关注,其核心目标是将给定的服装无缝调整到特定人物身上,同时避免服装图案和纹理的失真。然而,现有的基于扩散模型(Diffusion Model)的方法在保持服装身份一致性方面存在显著局限性,即使通过全参数微调也难以完全控制服装的身份特征。此外,这些方法通常需要高昂的训练成本,限制了其广泛应用。
为了解决这些问题,本研究提出了一种新颖的框架——TryOn-Adapter,旨在实现高效的服装身份适配,同时降低训练资源消耗。具体而言,研究者将服装身份解耦为三个细粒度因素:风格(Style)、纹理(Texture)和结构(Structure),并通过定制的轻量级模块和微调机制实现精确的身份控制。此外,研究还引入了一种无需训练的技术——T-Repaint,以进一步增强服装身份保留效果,同时确保生成图像的高保真度。
论文来源
这篇论文由浙江大学、阿里巴巴集团、百度公司等机构的研究团队共同完成,主要作者包括Jiazheng Xing、Chao Xu、Yijie Qian等。论文发表于《International Journal of Computer Vision》期刊,出版时间为2025年1月,DOI为10.1007/s11263-025-02352-3。
研究细节与工作流程
a) 研究流程与实验设计
1. 数据预处理
研究使用了两个广泛使用的数据集:VITON-HD和DressCode。VITON-HD包含13,679对图像,每对图像包括一个正面女性上半身图像和一件上衣图像;DressCode则包含53,792对全身人物和服装图像,涵盖上衣、下装和连衣裙等类别。研究者将数据集分为训练集和测试集,分别用于模型训练和性能评估。
2. 模型架构
TryOn-Adapter基于预训练的Stable Diffusion模型构建,主要包括以下五个部分: 1. 预训练的Stable Diffusion模型:冻结所有参数,仅微调注意力层。 2. 风格保留模块(Style Preserving Module):提取服装的全局风格信息,包括颜色和类别信息。 3. 纹理突出模块(Texture Highlighting Module):通过高频率特征图细化服装的复杂纹理。 4. 结构适配模块(Structure Adapting Module):利用分割图纠正因服装变化导致的不自然区域。 5. 增强潜在融合模块(Enhanced Latent Blending Module, ELBM):在潜在空间中进行图像重建,确保生成图像的一致视觉质量。
3. 实验设计
- 风格保留模块:通过CLIP视觉编码器提取类令牌(Class Token)和补丁令牌(Patch Token),并结合VAE嵌入特征,设计了一个风格适配器(Style Adapter)来增强颜色感知能力。
- 纹理突出模块:使用Sobel算子提取高频率特征图,突出服装的复杂纹理和图案。
- 结构适配模块:采用基于规则的无训练分割图生成方法,结合人体姿态信息,明确指示服装和身体区域。
- T-Repaint技术:在推理阶段仅在早期去噪步骤中应用Repaint技术,以平衡服装身份保留和真实试穿效果。
4. 新颖方法与算法
研究者提出了多种创新方法: - 风格适配器:融合CLIP补丁嵌入和VAE视觉嵌入,增强颜色感知能力。 - 位置注意力模块(PAM):增强局部空间表示,帮助模型更好地解释高频率信息。 - ELBM模块:通过深度融合操作减少前景与背景交界处的断连感。
b) 主要结果
1. 定量评估
研究在VITON-HD和DressCode数据集上进行了定量评估,使用SSIM(结构相似性)、LPIPS(感知图像块相似性)、FID(Fréchet Inception Distance)和KID(Kernel Inception Distance)等指标衡量模型性能。结果显示: - 在512×384分辨率下,TryOn-Adapter在所有指标上均优于现有方法,例如SSIM达到0.897,LPIPS降至0.069。 - 在1024×768分辨率下,TryOn-Adapter同样表现出色,证明了其在高分辨率下的鲁棒性。
2. 定性评估
定性评估显示,TryOn-Adapter在以下几个方面表现优异: - 风格保留:生成的服装颜色和类别信息与目标服装高度一致。 - 纹理突出:复杂纹理(如图案、标志和文字)清晰可见。 - 结构适配:能够自然处理长袖与短袖之间的转换,并纠正不自然的身体结构。
3. 用户研究
研究者还进行了用户研究,邀请28名非专家对生成结果进行评分。结果显示,TryOn-Adapter在“最逼真的图像”和“最能保留目标服装细节”的两项问题中均获得了超过45%的支持率,显著优于其他方法。
c) 结论与意义
科学价值
TryOn-Adapter通过将服装身份解耦为风格、纹理和结构三个细粒度因素,解决了现有方法在服装身份控制和训练效率方面的不足。其提出的轻量级模块和无需训练的技术为虚拟试穿领域提供了新的研究方向。
应用价值
该研究在在线购物、虚拟现实等领域具有重要应用潜力。例如,用户可以通过虚拟试穿技术更直观地体验不同服装的试穿效果,从而提升购物体验。
d) 研究亮点
- 细粒度身份控制:首次将服装身份解耦为风格、纹理和结构三个因素,显著提升了服装身份保留效果。
- 高效训练机制:通过参数高效微调(PEFT)技术,仅需约一半的可训练参数即可达到最佳性能。
- 创新模块设计:风格适配器、纹理突出模块和结构适配模块的设计为虚拟试穿任务提供了新的解决方案。
- 无需训练的分割图生成方法:提出了一种基于规则的分割图生成方法,避免了冗余网络训练。
e) 其他有价值的信息
研究者计划在未来工作中进一步探索参考网络(Reference-Net)方法,并开发针对虚拟试穿任务的精细化评估指标,以推动该领域的进一步发展。
总结
TryOn-Adapter是一项具有开创性的研究,它通过创新的模块设计和高效的训练机制,成功解决了虚拟试穿领域中的关键问题。其科学价值和应用潜力使其成为该领域的重要里程碑,为未来的相关研究奠定了坚实基础。