Flexiact:面向异构场景的灵活动作控制技术研究
一、研究团队与发表信息
本研究的核心作者包括张诗艺*、庄俊皓*(清华大学深圳国际研究生院)、张朝阳†(腾讯ARC Lab)、单瀛(腾讯ARC Lab)以及唐彦松‡(清华大学深圳国际研究生院)。研究论文《Flexiact: Towards Flexible Action Control in Heterogeneous Scenarios》发表于SIGGRAPH Conference Papers ‘25(2025年8月10-14日,加拿大温哥华),是计算机视觉与图形学领域的顶级会议论文。
二、学术背景与研究目标
科学领域:该研究属于生成式人工智能(AIGC)与视频合成的交叉领域,聚焦于动作迁移(action transfer)任务,即从参考视频中提取动作并迁移至任意目标图像,生成具有一致外观的动态视频。
研究动机:传统动作迁移方法存在两大局限:
1. 预定义信号方法(如基于姿势引导)需目标图像与参考视频在空间结构(如骨骼、视角)上严格对齐,难以处理跨域或异构主体(如人与动物)。
2. 全局运动方法(如MotionDirector)无法适应目标图像的多样化空间布局。
研究目标:提出Flexiact框架,实现无需空间对齐的跨主体动作迁移,同时保持动作准确性与外观一致性。
三、研究方法与流程
Flexiact基于CogVideoX-I2V(图像到视频扩散模型),通过两阶段训练引入两大创新模块:
RefAdapter:空间结构适配器
频率感知动作提取(FAE)
四、实验结果与贡献
1. 定量评估:
- 基准数据集:250对视频-图像,覆盖25类动作(如瑜伽、动物跳跃)。
- 指标对比:
- 动作保真度(Motion Fidelity):Flexiact(0.4103)显著优于基线MD-I2V(0.3496)。
- 外观一致性(Appearance Consistency):Flexiact(0.9162)优于无FAE的版本(0.9134)。
定性效果:
消融实验:
五、研究结论与价值
1. 科学价值:
- 首次提出去噪过程驱动的动作提取框架(FAE),突破传统时空分离架构的限制。
- 通过RefAdapter实现异构空间结构的自适应,为跨域动作迁移提供新范式。
六、研究亮点
1. 方法创新:
- 动态频率调制:FAE通过时间步感知的注意力权重调整,统一动作与外观控制。
- 轻量化适配:RefAdapter以少量参数实现媲美ReferenceNet的细粒度控制。
七、局限与展望
当前方法需针对每个参考视频微调,未来可探索前馈式动作迁移(feed-forward transfer)以提升效率。
数据与代码开源:研究代码与模型权重已公开,项目主页见Flexiact。
注:专业术语首次出现时标注英文原文,如LoRA(Low-Rank Adaptation)、FAE(Frequency-Aware Action Extraction)。