该研究由来自新加坡A*STAR前沿人工智能研究中心的Yinghua Yao、Yuangang Pan、Ivor W. Tsang(IEEE Fellow)和香港岭南大学/英国伯明翰大学的Xin Yao(IEEE Fellow)合作完成,发表于《IEEE Transactions on Artificial Intelligence》2025年第6卷第4期。研究领域为计算机视觉中的连续图像到图像翻译(Continuous Image-to-Image Translation, I2I),旨在解决传统方法因依赖二元属性(Binary Attributes)而导致生成结果不够平滑或质量低下的问题。
传统I2I方法(如CycleGAN、StarGAN)通过二元属性(如“微笑/无微笑”)控制图像转换,但无法描述属性强度的细微变化(如“微笑程度”)。为提升生成图像的连续性和真实性,作者提出CTAP(Continuous Translation via Adversarial Preferences)模型,利用相对属性(Relative Attributes, RAs)——通过图像对的偏好比较(如A比B更微笑)捕捉连续语义信息。核心目标包括:
1. 高质量生成:输出图像需满足真实性和属性精确性;
2. 平滑过渡:通过连续隐变量控制属性强度变化(如微笑程度渐进增强)。
CTAP由生成器(Generator)和排名器(Ranker)组成,通过对抗训练协调两者目标:
- 生成器:基于编码器-解码器结构,输入图像$x$和连续隐变量$v \in [-1,1]$,输出目标图像$\hat{y}$。
- 排名器:包含共享特征层、排名头(Rank Head)和GAN头(GAN Head),分别学习属性差异和图像真实性。
关键创新在于对抗性排名过程:
- 排名器任务:对真实图像对$(x,y)$学习相对属性(如$y \succ x$表示$y$比$x$更微笑);对生成图像对$(x,\hat{y})$强制输出中性结果($r(x,\hat{y})=0$),避免生成图像干扰真实数据的属性建模。
- 生成器任务:使排名器对$\hat{y}$的预测与隐变量$v$线性对齐($r(x,\hat{y}) = v$),从而保证$\hat{y}$的属性强度按$v$平滑变化。
通过多维度隐变量$v$和并行排名头实现多属性(如“微笑”和“性别”)的独立控制与联合调节(图11)。
(注:专业术语如Relative Attributes首次出现时标注英文,后续使用中文“相对属性”;IEEE Transactions on Artificial Intelligence及作者姓名保留原格式。)