本文的主要作者包括 Nan Jiang(北京大学人工智能研究院、全国通用人工智能重点实验室)、Zimo He(北京大学人工智能研究院)、Zi Wang(北京邮电大学、全国通用人工智能重点实验室)、Hongjie Li(北京大学人工智能研究院)、Yixin Chen(全国通用人工智能重点实验室)、Siyuan Huang(全国通用人工智能重点实验室)以及Yixin Zhu(北京大学人工智能研究院)。该研究计划将于 2024 年 12 月 3 日至 6 日在东京举办的 SIGGRAPH Asia 2024 会议(SA Conference Papers ‘24)上发表。
本研究属于基于人工智能的角色动作生成与场景交互合成(human-scene interaction synthesis, HSI)的领域。传统的动作合成研究和模型在复杂场景中生成与文本指令契合的多阶段角色运动时,面临诸多挑战,如需求过多的用户输入、以单独系统处理不同动作阶段的割裂流程,以及缺乏高质量的场景交互数据集。为解决上述挑战,本文作者提出了一个综合框架,通过单一的文本指令和目标位置信号自动生成复杂的多阶段动作与交互,旨在增强虚拟角色在 3D 场景中的运动生成能力,实现更高的动作真实感和场景连贯性。
本研究开发了一个整合了locomotion(角色移动)、hand reaching(手部交互)及human-object interaction (HOI,如角色与物体的互动) 的综合模型,并定义了多阶段场景感知的运动生成框架。该模型通过以下几个阶段实现:
研究者将角色运动建模为长度为 L 的序列,通过 SMPL-X 参数化模型表示人体动作,同时结合 3D 场景的体素网格(voxel grid)表征方法。具体来说,3D 场景的局部部分被构建为 32x32x32 的占用体素网格序列,每个体素根据场景网格查询来标示是否被占据,以捕获当前以及潜在的目标场景环境。为响应复杂的人类交互,系统采用了双体素场景编码器(Dual Voxel Scene Encoder),既捕捉角色当前所在场景,也预测角色目标位置的环境细节特点。
研究者引入自回归扩散模型(Auto-Regressive Diffusion Model),利用随机噪声扩散和反向消噪过程生成目标动作序列。核心模型基于 DDPM(Denoising Diffusion Probabilistic Models),训练网络逐步去噪当前帧的动作数据,最终生成拟合文本指令语义的运动序列。特别地,研究者设计了一种嵌入时间帧的文本编码器(frame-embedded text encoder),将动作执行的时间步长嵌入文本描述,提升模型对动作序列语义时间模式的理解与一致性。
模型配备了自主调度器,用于判断当前阶段动作是否完成并转入下一阶段。调度器以最近生成的动作片段为基础,基于 Transformer 编码器预测当前阶段完成的概率,并决定是否终止当前片段或开始新阶段。
为解决现有 HSI 数据不足的难题,研究者构建了一个大型的运动捕捉数据集 LInGO,涵盖了多种室内场景(如卧室、办公室等)里的 40 种动作类型,总时长为 16 小时。数据采集通过先进的 VICON 光学运动捕捉系统结合虚拟现实(VR)设备实现,并借助 GPT-4 增强自然语言标注的丰富性,为模型提供强大支撑。
研究者设计了一系列实验评估框架的性能,包括角色移动(locomotion)、目标物抓取(object reaching)以及场景交互动作生成(interactive motion synthesis)等设置:
本文提出的框架从多个维度解决了传统 HSI 领域的关键难题,不仅实现了文本指令驱动的高质量运动生成,还整合了多阶段、多样化的交互动作,为数字角色动画领域的自动化和智能化开辟了新方向。该研究的科学意义包括:
尽管该方法为角色动作生成和场景交互提供了突破性技术,研究者也指出仍有改进空间,如未充分研究手部精细操作与面部表情、对某些交互类型的泛化性能尚需验证等。
此研究通过创新理论和方法桥接了文本指令与三维环境间的互通,为未来的数字化角色交互技术奠定了坚实基础。这不仅拓展了计算机动画和人工智能的研究边界,也为多领域的工业应用带来重要借鉴价值。