分享自:

FlexiAct:异构场景下的灵活动作控制

期刊:Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25)DOI:10.1145/3721238.3730683

Flexiact:面向异构场景的灵活动作控制技术研究

一、研究团队与发表信息
本研究的核心作者包括张诗艺*、庄俊皓*(清华大学深圳国际研究生院)、张朝阳†(腾讯ARC Lab)、单瀛(腾讯ARC Lab)以及唐彦松‡(清华大学深圳国际研究生院)。研究论文《Flexiact: Towards Flexible Action Control in Heterogeneous Scenarios》发表于SIGGRAPH Conference Papers ‘25(2025年8月10-14日,加拿大温哥华),是计算机视觉与图形学领域的顶级会议论文。

二、学术背景与研究目标
科学领域:该研究属于生成式人工智能(AIGC)与视频合成的交叉领域,聚焦于动作迁移(action transfer)任务,即从参考视频中提取动作并迁移至任意目标图像,生成具有一致外观的动态视频。

研究动机:传统动作迁移方法存在两大局限:
1. 预定义信号方法(如基于姿势引导)需目标图像与参考视频在空间结构(如骨骼、视角)上严格对齐,难以处理跨域或异构主体(如人与动物)。
2. 全局运动方法(如MotionDirector)无法适应目标图像的多样化空间布局。

研究目标:提出Flexiact框架,实现无需空间对齐的跨主体动作迁移,同时保持动作准确性与外观一致性。

三、研究方法与流程
Flexiact基于CogVideoX-I2V(图像到视频扩散模型),通过两阶段训练引入两大创新模块:

  1. RefAdapter:空间结构适配器

    • 功能:将参考视频动作适配至不同空间结构(如不同姿势、视角)的目标图像,同时保持外观一致性。
    • 技术细节
      • 采用轻量级LoRA(Low-Rank Adaptation)参数注入,仅增加5%的模型参数量(66M)。
      • 训练时随机选择视频帧(而非首帧)作为条件图像,打破首帧强约束,增强空间灵活性。
      • 在潜在空间中替换首帧嵌入,避免生成视频被强制匹配条件图像。
    • 训练数据:42,000个视频(来自MiraData数据集),40,000步训练,学习率1e-5。
  2. 频率感知动作提取(FAE)

    • 核心发现:扩散模型去噪过程中,不同时间步关注不同频率特征——早期关注低频动作信息,后期关注高频外观细节。
    • 实现方法
      • 设计可学习的频率感知嵌入(frequency-aware embeddings),动态调整其与视频token的注意力权重。
      • 引入偏置公式(公式1),在去噪早期(如t=800)增强动作提取,后期(如t=200)保留外观细节。
      • 训练时对参考视频随机裁剪,避免嵌入过度关注布局。
    • 训练成本:每个参考视频需1,500-3,000步微调。

四、实验结果与贡献
1. 定量评估
- 基准数据集:250对视频-图像,覆盖25类动作(如瑜伽、动物跳跃)。
- 指标对比
- 动作保真度(Motion Fidelity):Flexiact(0.4103)显著优于基线MD-I2V(0.3496)。
- 外观一致性(Appearance Consistency):Flexiact(0.9162)优于无FAE的版本(0.9134)。

  1. 定性效果

    • 成功实现跨域迁移(如人类动作迁移至卡通角色),克服骨骼差异(图7-10)。
    • 对比基线MD-I2V,Flexiact在复杂动作(如深蹲后站立)中表现更精准(图5)。
  2. 消融实验

    • 移除FAE:动作准确性下降(如手臂伸展不完整)。
    • 移除RefAdapter:外观一致性受损(如面部细节偏差)。

五、研究结论与价值
1. 科学价值
- 首次提出去噪过程驱动的动作提取框架(FAE),突破传统时空分离架构的限制。
- 通过RefAdapter实现异构空间结构的自适应,为跨域动作迁移提供新范式。

  1. 应用价值
    • 降低影视/游戏动画制作成本,无需专业动作捕捉设备。
    • 支持非刚性主体(如动物、虚拟角色)的自然动作生成。

六、研究亮点
1. 方法创新
- 动态频率调制:FAE通过时间步感知的注意力权重调整,统一动作与外观控制。
- 轻量化适配:RefAdapter以少量参数实现媲美ReferenceNet的细粒度控制。

  1. 泛化能力
    • 在布局、骨骼、视角差异显著的场景中均表现鲁棒(图1)。

七、局限与展望
当前方法需针对每个参考视频微调,未来可探索前馈式动作迁移(feed-forward transfer)以提升效率。

数据与代码开源:研究代码与模型权重已公开,项目主页见Flexiact。


注:专业术语首次出现时标注英文原文,如LoRA(Low-Rank Adaptation)、FAE(Frequency-Aware Action Extraction)。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com