分享自:

基于对抗偏好的连续图像到图像翻译

期刊:IEEE Transactions on Artificial IntelligenceDOI:10.1109/TAI.2024.3497915

IEEE Transactions on Artificial Intelligence 2025年4月发表的图像翻译研究:基于对抗性偏好的连续图像生成技术

作者及研究背景

该研究由来自新加坡A*STAR前沿人工智能研究中心的Yinghua Yao、Yuangang Pan、Ivor W. Tsang(IEEE Fellow)和香港岭南大学/英国伯明翰大学的Xin Yao(IEEE Fellow)合作完成,发表于《IEEE Transactions on Artificial Intelligence》2025年第6卷第4期。研究领域为计算机视觉中的连续图像到图像翻译(Continuous Image-to-Image Translation, I2I),旨在解决传统方法因依赖二元属性(Binary Attributes)而导致生成结果不够平滑或质量低下的问题。

学术背景与研究目标

传统I2I方法(如CycleGAN、StarGAN)通过二元属性(如“微笑/无微笑”)控制图像转换,但无法描述属性强度的细微变化(如“微笑程度”)。为提升生成图像的连续性和真实性,作者提出CTAP(Continuous Translation via Adversarial Preferences)模型,利用相对属性(Relative Attributes, RAs)——通过图像对的偏好比较(如A比B更微笑)捕捉连续语义信息。核心目标包括:
1. 高质量生成:输出图像需满足真实性和属性精确性;
2. 平滑过渡:通过连续隐变量控制属性强度变化(如微笑程度渐进增强)。

方法详述:CTAP框架与对抗性排名机制

1. 模型架构

CTAP由生成器(Generator)和排名器(Ranker)组成,通过对抗训练协调两者目标:
- 生成器:基于编码器-解码器结构,输入图像$x$和连续隐变量$v \in [-1,1]$,输出目标图像$\hat{y}$。
- 排名器:包含共享特征层、排名头(Rank Head)GAN头(GAN Head),分别学习属性差异和图像真实性。

2. 对抗性偏好训练

关键创新在于对抗性排名过程
- 排名器任务:对真实图像对$(x,y)$学习相对属性(如$y \succ x$表示$y$比$x$更微笑);对生成图像对$(x,\hat{y})$强制输出中性结果($r(x,\hat{y})=0$),避免生成图像干扰真实数据的属性建模。
- 生成器任务:使排名器对$\hat{y}$的预测与隐变量$v$线性对齐($r(x,\hat{y}) = v$),从而保证$\hat{y}$的属性强度按$v$平滑变化。

3. 损失函数设计
  • 排名头损失(式6):
    • 对真实图像对采用最小二乘损失,学习离散RAs的连续映射;
    • 对生成图像对引入对抗损失($\lambda=0.5$),平衡生成质量与属性控制。
  • GAN头损失(式7):通过最小二乘GAN提升生成图像的真实性。
  • 附加循环一致性损失梯度惩罚,稳定训练并保持图像身份。
4. 扩展至多属性

通过多维度隐变量$v$和并行排名头实现多属性(如“微笑”和“性别”)的独立控制与联合调节(图11)。

实验结果与验证

1. 数据集与基线
  • 数据集:CelebA-HQ(人脸)、LFWA(人脸)、UT-Zap50k(鞋子-边缘图),图像分辨率256×256。
  • 基线对比:包括RAs方法的RelGAN、RCGAN和二元属性方法的VecGAN、SAV。
2. 评估指标
  • 平滑性:相邻生成图像的结构相似性标准差(dSSIM),CTAP显著低于基线(CelebA-HQ“微笑”属性dSSIM=0.0021 vs RelGAN 0.0679)。
  • 生成质量:FID(CelebA-HQ为11.07)和MSE(UT-Zap50k为6142.14),CTAP均优于基线。
  • 属性精确性:二进制属性交换准确率(AAS)达97.69%。
3. 关键发现
  • 排名器泛化性:生成图像对的排名输出与$v$呈线性关系(图9),证实平滑过渡能力。
  • 多属性解耦:如图11所示,$v=[1,-1]$可独立调节“微笑增强”和“男性化”。

结论与价值

  1. 科学价值
    • 首次将对抗训练从分类任务扩展至排名任务,提出对抗性偏好范式;
    • 通过RAs和线性化排名输出,解决了连续I2I中属性控制与生成质量的矛盾。
  2. 应用价值
    • 影视制作中角色表情的细微调整;
    • 医学图像生成(如病灶渐进模拟)。

研究亮点

  • 方法论创新:CTAP是首个在RAs框架下统一连续翻译与高质量生成的模型;
  • 技术突破:排名器的对抗训练使其对生成数据具有强泛化性;
  • 实验结果:在3个数据集上均达到SOTA,尤以平滑性(dSSIM降低90%以上)和真实性(FID改进约50%)显著。

扩展与局限

  • 后续方向:结合扩散模型提升训练稳定性;
  • 当前限制:需依赖预标注的RAs数据,复杂场景(如多属性交互)的精确控制仍需优化。

(注:专业术语如Relative Attributes首次出现时标注英文,后续使用中文“相对属性”;IEEE Transactions on Artificial Intelligence及作者姓名保留原格式。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com