这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
作者及机构
本研究由Tengfei Xiao(西安电子科技大学)、Yue Wu(西安电子科技大学,通讯作者)、Yuelong Li(天津工业大学,通讯作者)、Can Qin(东北大学)、Maoguo Gong(西安电子科技大学)、Qiguang Miao(西安电子科技大学)和Wenping Ma(西安电子科技大学)合作完成。研究团队来自西安电子科技大学、天津工业大学和东北大学,其中西安电子科技大学团队隶属于教育部协同智能系统重点实验室,天津工业大学团队隶属于天津市自主智能技术与系统重点实验室。论文发表于CVPR(计算机视觉与模式识别会议),是开放获取版本,最终出版版本可通过IEEE Xplore获取。
学术背景
研究领域为计算机视觉中的人体姿态生成(human pose generation)。人体姿态生成任务因人体结构的非刚性和高度可变性而极具挑战性,需在保持身份和外观一致性的同时完成目标姿态的转换。现有方法(如GAN和扩散模型)通常未明确区分姿态控制(pose control)与外观生成(appearance generation)的差异,导致过拟合或生成质量不足。本研究提出了一种解耦姿态与外观指导的多姿态生成框架,旨在通过模块化设计分别优化空间几何变换和纹理生成,提升生成图像的逼真度和一致性。
研究流程与方法
1. 框架设计
- 输入:参考图像(reference image)和多个目标姿态(target poses)。
- 模块划分:
- 全局感知姿态生成模块(Global-aware Pose Generation Module):基于Transformer解码器迭代生成姿态嵌入(pose embeddings),通过相似性查询(similarity queries)和注意力机制实现非刚性形变控制。
- 外观适配器(Appearance Adapter):从多尺度特征中提取高层语义信息,为扩散模型提供细粒度外观指导。
- 核心创新:
- 全局感知Transformer解码器(GTD):引入全局感知块(global-aware block)建模历史生成姿态,增强跨姿态一致性。
- 3D扩散模型扩展:将传统2D扩散模型扩展至3D,支持多姿态序列联合生成。
实验设置
评估指标
主要结果
1. 定量对比
- 在UBC Fashion和TikTok数据集上,本方法的SSIM(0.941⁄0.753)、PSNR(25.655⁄18.466)和FID(11.487⁄103.708)均优于对比方法(如PIDM、MagicPose)。
- 推理效率:参数规模367M,推理时间5.5-24.1秒,显著低于PIDM(131M/28.64秒)和MagicPose(2081M/67.8秒)。
定性分析
消融实验
结论与价值
1. 科学价值
- 提出首个解耦姿态与外观指导的多姿态生成框架,明确了空间变换与纹理生成的独立优化路径。
- 全局感知机制为跨姿态一致性建模提供了新思路,扩展了Transformer在生成任务中的应用。
研究亮点
1. 方法创新:
- 通过GTD迭代生成姿态嵌入,将外观先验自然融入空间变换过程。
- 外观适配器采用零初始化卷积(zero-initialized convolution)稳定训练,避免高频噪声干扰。
性能突破:
用户研究:
61.4%的参与者认为本方法生成的图像在视觉质量和身份一致性上最优(表4),显著领先PIDM(13.6%)和MagicPose(8.3%)。
其他价值
- 微调策略:VAE解码器通过MSE损失和感知损失(perceptual loss)联合优化,显著提升了面部真实性。
- 条件丢弃机制:训练中随机丢弃5%参考图像,增强了模型对遮挡区域的生成鲁棒性。