从文本指令生成自主角色场景交互

分享自：
从文本指令生成自主角色场景交互

期刊:SIGGRAPH Asia 2024 Conference PapersDOI:https://doi.org/10.1145/3680528.3687595
学术报告：基于文本指令的自主角色与场景交互合成研究作者与单位本文的主要作者包括 Nan Jiang（北京大学人工智能研究院、全国通用人工智能重点实验室）、Zimo He（北京大学人工智能研究院）、Zi Wang（北京邮电大学、全国通用人工智能重点实验室）、Hongjie Li（北京大学人工智能研究院）、Yixin Chen（全国通用人工智能重点实验室）、Siyuan Huang（全国通用人工智能重点实验室）以及Yixin Zhu（北京大学人工智能研究院）。该研究计划将于 2024 年 12 月 3 日至 6 日在东京举办的 SIGGRAPH Asia 2024 会议（SA Conference Papers ‘24）上发表。
学术背景和研究目的本研究属于基于人工智能的角色动作生成与场景交互合成（human-scene interaction synthesis, HSI）的领域。传统的动作合成研究和模型在复杂场景中生成与文本指令契合的多阶段角色运动时，面临诸多挑战，如需求过多的用户输入、以单独系统处理不同动作阶段的割裂流程，以及缺乏高质量的场景交互数据集。为解决上述挑战，本文作者提出了一个综合框架，通过单一的文本指令和目标位置信号自动生成复杂的多阶段动作与交互，旨在增强虚拟角色在 3D 场景中的运动生成能力，实现更高的动作真实感和场景连贯性。
研究方法与体系结构详解本研究开发了一个整合了locomotion（角色移动）、hand reaching（手部交互）及human-object interaction (HOI，如角色与物体的互动) 的综合模型，并定义了多阶段场景感知的运动生成框架。该模型通过以下几个阶段实现：
数据表示与场景编码研究者将角色运动建模为长度为 L 的序列，通过 SMPL-X 参数化模型表示人体动作，同时结合 3D 场景的体素网格（voxel grid）表征方法。具体来说，3D 场景的局部部分被构建为 32x32x32 的占用体素网格序列，每个体素根据场景网格查询来标示是否被占据，以捕获当前以及潜在的目标场景环境。为响应复杂的人类交互，系统采用了双体素场景编码器（Dual Voxel Scene Encoder），既捕捉角色当前所在场景，也预测角色目标位置的环境细节特点。
动作扩散模型（Motion Diffusion Model）研究者引入自回归扩散模型（Auto-Regressive Diffusion Model），利用随机噪声扩散和反向消噪过程生成目标动作序列。核心模型基于 DDPM（Denoising Diffusion Probabilistic Models），训练网络逐步去噪当前帧的动作数据，最终生成拟合文本指令语义的运动序列。特别地，研究者设计了一种嵌入时间帧的文本编码器（frame-embedded text encoder），将动作执行的时间步长嵌入文本描述，提升模型对动作序列语义时间模式的理解与一致性。
自主调度器（Autonomous Scheduler）模型配备了自主调度器，用于判断当前阶段动作是否完成并转入下一阶段。调度器以最近生成的动作片段为基础，基于 Transformer 编码器预测当前阶段完成的概率，并决定是否终止当前片段或开始新阶段。
数据集开发：LInGO 数据集为解决现有 HSI 数据不足的难题，研究者构建了一个大型的运动捕捉数据集 LInGO，涵盖了多种室内场景（如卧室、办公室等）里的 40 种动作类型，总时长为 16 小时。数据采集通过先进的 VICON 光学运动捕捉系统结合虚拟现实（VR）设备实现，并借助 GPT-4 增强自然语言标注的丰富性，为模型提供强大支撑。
实验结果分析研究者设计了一系列实验评估框架的性能，包括角色移动（locomotion）、目标物抓取（object reaching）以及场景交互动作生成（interactive motion synthesis）等设置：
Locomotion：模型需要在复杂的室内场景中自主导航，避障并到达目标点。实验显示，与对比方法 Trumans 相比，本文模型生成的路径更自然，障碍穿透率显著降低，脚部滑动现象也最小化。
Object Reaching：角色根据指令到目标物处完成抓取动作。本模型比对照方法在抓取误差、时间消耗等多个指标上均有显著优势，且通过双体素编码器增强了手部运动的自然性。
Interactive Motion：模型被测试在多种模拟动态场景中完成场景物体交互（如坐沙发、拿起物体等）。定量分析显示，本模型在语义精确性、多样性等指标上优于其他方法。
研究结论与意义本文提出的框架从多个维度解决了传统 HSI 领域的关键难题，不仅实现了文本指令驱动的高质量运动生成，还整合了多阶段、多样化的交互动作，为数字角色动画领域的自动化和智能化开辟了新方向。该研究的科学意义包括：
方法创新：综合双体素场景表示、时间嵌入文本编码和动作扩散模型，实现了语义引导的自然“三维角色-场景交互”（3D HSI）生成。
数据贡献：提供了标注详尽的 LInGO 数据集，涵盖多样的室内场景与交互动作，对该领域的未来研究有重要推动意义。
应用价值：可为虚拟现实、电子游戏动画、机器人运动规划等多领域应用提供技术支持。
研究亮点提出了高维语义感知场景编码器（如双体素编码器）以捕获动态场景几何约束；
自主调度器结合时间帧嵌入实现对复杂多阶段动作指令的拆分和生成；
构造了具有语义细粒度标注和长时序交互片段的 VR 辅助运动数据集；
证明了扩散模型在推理复杂人类-场景交互中的强大能力，可进一步推广至其他人形自主动画任务。
展望与局限尽管该方法为角色动作生成和场景交互提供了突破性技术，研究者也指出仍有改进空间，如未充分研究手部精细操作与面部表情、对某些交互类型的泛化性能尚需验证等。
此研究通过创新理论和方法桥接了文本指令与三维环境间的互通，为未来的数字化角色交互技术奠定了坚实基础。这不仅拓展了计算机动画和人工智能的研究边界，也为多领域的工业应用带来重要借鉴价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问