本文以“Unicanvas: Affordance-Aware Unified Real Image Editing via Customized Text-to-Image Generation”为题,发表于 International Journal of Computer Vision,DOI为10.1007/s11263-024-02334-x。论文的主要作者包括 Jian Jin, Yang Shen, Xinyang Zhao, Zhenyong Fu 和 Jian Yang,他们来自南京理工大学计算机科学与工程学院的 PCA Lab(Key Lab of Intelligent Perception and Systems for High-Dimensional Information of Ministry of Education)。该研究于2024年4月28日收到投稿,2024年12月17日正式接受,并将在 Springer Nature 的2025年期刊正式发布。
随着“一张真实图像上的多样化条件编辑需求”逐渐增多,研究人员越来越关注框架能够高效同时执行多种图像编辑任务的能力。主要编辑任务包括以图像为输入的“subject-driven editing”(对象驱动编辑)和以文本为输入的“semantic editing”(语义编辑)。前者致力于在特定区域生成特定对象,后者则根据文本描述对图像内容进行修改。现有方法需依赖不同的编辑流程,比如顺序执行多个步骤,这不仅消耗大量用户精力,还导致编辑质量因累积误差而下降。
针对上述难点,本文提出了一个创新框架 Unicanvas,能够在一次推理过程中以高质量实现对象驱动编辑与语义编辑的并行执行。基于自定义的文本到图像生成(text-to-image generation)技术,Unicanvas 将所有编辑任务的多模态输入统一映射到文本条件空间,通过设计定制化的推理策略显著提升编辑效果。实验结果证实,Unicanvas 具备强大的场景适宜性感知能力(affordance perception),实现了对多场景编辑任务的无缝适应。
本文设计了一个高度紧凑的综合框架,主要由两部分组成: 1. 两种专用于编辑任务的定制化(customization)训练策略:用于实现目标对象(target subject)以及源图像(source image)的高效特征嵌入与生成。 2. 推理阶段一个新颖的“双分支生成管道”:分别生成目标对象与背景图像,并通过动态融合模块实现无缝整合。
数据集包含从网络采集的 104 组样本,其中包括多类别的真实图像(例如室内场景及自然风景)、多个目标对象(如宠物、玩偶等,标注为数张参考图像)和相关用户mask以及文本提示。
源图像定制化流程:
image-prompt pair)进行微调。xs 及多对象描述文本(prompt),例如 “v*s1 bed v*s2 table v*s3 vase”,不同语义对象分属独特的嵌入向量(concept-specific embedding)。目标对象定制化流程:
推理阶段编辑管道:
r_f 和文本描述 pc_f。px_s。文中首次提出在编辑任务中将输入全部映射到文本条件空间,这种 “统一表示”(unified representations)策略解决了现有方法无法一体化处理多模态输入的问题。论文还深入探索了基于自监督扩散模型(latent diffusion model)架构的深度融合过程,创造性地使用跨注意力映射动态控制生成内容布局。
Unicanvas 能够高保真地在规定区域生成目标对象,同时根据场景调整其形状、光照等属性以匹配背景。相比现有方法,如 Paint-by-Example、AnyDoor 和 DreamBooth 等,Unicanvas 在跨领域编辑(如将照片风格目标放入艺术画或油画场景中)中表现尤为出色,生成结果视觉一致性显著提高。此外,在小区域生成的鲁棒性上也表现突出。
在语义编辑中,Unicanvas 通过直接修改生成分支的文本条件实现灵活编辑。例如,为目标对象添加装饰品或修改背景风格。无论是属性改变、风格变化还是细节添加,Unicanvas 均可精确、迅速完成,同时保持原图像内容的完整性。
基本指标包括视觉质量分数(QS),LPIPS距离,以及局部 CLIP 相似度(local CLIP similarity)与 DINO 相似度(local DINO similarity)。在所有指标上,Unicanvas 均获得领先结果。例如,在兼顾生成质量和区域适应的情况下,CLIP得分达到0.8145,显著优于方法如 Custom Diffusion的 0.6815。
实验组对比中 52 名用户参与主观投票,Unicanvas 以82%的偏好率在所有基准方法中表现卓越。用户普遍认为其在目标对象的语义感知和背景语义一致性方面表现最优。
Unicanvas 不仅填补了统一处理对象驱动编辑(subject-driven editing)及语义编辑(semantic editing)的技术空白,还在编辑效率上实现一次推理处理多任务。该框架在以下方面具有广泛应用潜力:
值得注意的是,该方法在极小目标区域(bounding box 面积小于整个图像10%)中生成的对象保真度有所下降。此外,当目标和背景区域存在明显语义冲突时,可能会因内容融合失败而产生失真。未来工作可以聚焦于局部增强机制或更强大的预训练生成模型(如 SDXL)。
总体而言,Unicanvas 为图像编辑领域提供了革命性的技术路径,为后续研究带来深远影响与新的方向。