基于文本指令的3D人体-物体交互生成研究

分享自：
基于文本指令的3D人体-物体交互生成研究

期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence
这篇文档属于类型a，即报告了一项原创研究。以下是基于文档内容生成的学术报告：
EigenActor：基于不变动作基的变体人体-物体交互生成研究
一、作者及发表信息
 本研究由Xuehao Gao、Yang Yang、Shaoyi Du、Yang Wu、Yebin Liu和Guo-jun Qi共同完成，发表于IEEE Transactions on Pattern Analysis and Machine Intelligence期刊。研究聚焦于从文本指令推断三维人体-物体交互（Human-Object Interaction, HOI）的跨模态合成任务。
二、学术背景
 随着硬件和生成模型的快速发展，AI生成内容（AIGC）领域取得了显著突破。AIGC通过人工智能技术辅助或替代人工创作，生成基于用户需求的内容（如图像、视频、三维网格和场景）。作为AIGC研究的重要组成部分，数据驱动的人体运动合成生成自然且逼真的三维人体姿态，广泛应用于虚拟化身、数字动画、人机交互、游戏设计、电影脚本可视化和增强现实/虚拟现实（AR/VR）内容创作等领域。
 然而，现有的文本到HOI合成方法主要采用从文本到物体特定三维人体运动的直接映射，由于跨模态差距较大，性能存在瓶颈。本研究观察到，具有相同交互意图但针对不同目标的HOI样本（如“举起椅子”和“举起杯子”）通常包含相似的动作特定身体运动模式，同时表现出不同的物体特定交互风格。因此，学习有效的动作特定运动先验和物体特定交互先验对于文本到HOI模型至关重要，并主导其在文本-HOI语义一致性和人体-物体交互逼真性方面的表现。
 本研究提出了一种新颖的文本到HOI任务的人体姿态生成策略：首先推断与物体无关的规范身体动作，然后丰富物体特定交互风格。具体而言，第一阶段的规范身体动作推断专注于学习类内可共享的身体运动先验，并将给定的文本语义映射到动作特定的规范三维身体运动；第二阶段的物体特定交互推断专注于物体可供性学习，并在推断的动作特定身体运动基础上丰富物体特定交互风格。
三、研究流程
 1. 问题定义
 研究提出了一种名为EigenActor的文本到HOI合成系统，该系统从指定的三维物体几何形状和人类-物体交互文本中推断出n帧的全身姿态序列和物体运动序列。具体而言，在第n帧中，使用推断的SMPL参数表示其三维身体姿态，包括根平移、身体关节的轴角旋转和面部表情参数；物体的6自由度（6-DOF）姿态包含物体在第n帧的三维旋转和平移参数；物体几何形状表示三维物体的形状，文本指令描述意图的人类-物体交互。
方法框架
 EigenActor系统包含两个核心组件：
 BodyNet：从给定的文本指令和特定物体形状条件上下文中合成三维全身姿态。
 
ObjectNet：基于推断的身体姿态和给定的文本-物体条件规划三维物体运动。
 
BodyNet采用两阶段人体姿态推断策略：首先合成动作特定的规范运动，然后丰富物体特定交互风格。具体包括：
 - 身体运动解耦：从文本注释的HOI样本中分解动作特定运动先验和物体特定交互先验。
 - 动作特定运动扩散：采用基于扩散的生成模型学习从文本条件到类内规范运动的跨模态映射。
 - 物体特定交互扩散：采用扩散模型学习从文本-物体联合条件到身体交互风格的后验分布。
ObjectNet包含三个基本组件：
 - 接触部分推断：分析目标物体的正确手接触部分。
 - 物体运动扩散：推断三维物体运动。
 - 交互优化：整合推断的三维身体-物体共运动，并提高它们之间的操作逼真性。
实验设计
 研究在三个大规模数据集（HIMO、FullBodyManipulation和GRAB）上进行了广泛实验，验证了EigenActor在文本-HOI语义一致性、人体-物体交互逼真性和少样本学习鲁棒性方面的显著优势。
四、主要结果
 1. 定量比较
 在HIMO数据集上，EigenActor在文本-HOI语义一致性、人体-物体交互逼真性和生成多样性方面显著优于其他最先进方法。例如，在top-3 R-precision评估指标上，EigenActor比CHOIS和HIMO-Gen分别提高了21%和8%的性能；在FID和MM-Dist评估中，EigenActor显著优于HIMO-Gen；在Cprec和C%评估中，EigenActor的手-物体接触准确性和物理合理性表现更好。
定性比较
 通过可视化比较，EigenActor生成的HOI样本在运动自然性和交互逼真性方面优于其他方法。例如，HIMO-Gen或CHOIS生成的HOI样本存在身体-物体交互不真实、手部脱离和姿态不协调等问题，而EigenActor生成的样本在这些方面表现更好。
少样本学习
 在训练样本较少的情况下，EigenActor显著优于其他基线方法。例如，在仅使用10%训练样本时，EigenActor在FID指标上比HIMO-Gen提高了50%的性能。
用户研究
 通过用户研究，EigenActor在HOI交互逼真性和文本-HOI语义一致性方面显著优于其他最先进方法，甚至与真实HOI样本相当。
五、结论
 本研究提出了一种强大的文本到HOI合成系统EigenActor，通过解耦动作特定运动先验和物体特定交互先验，从HOI样本中提取有效信息。基于提出的两阶段人体姿态推理策略，EigenActor生成的全身姿态不仅符合意图语义，还能自然地与目标物体交互。在三个大规模数据集上的广泛定量和定性评估验证了EigenActor在文本-HOI语义一致性、人体-物体交互逼真性和少样本学习鲁棒性方面的显著优势。
六、研究亮点
 1. 重要发现
 - 提出了动作特定运动先验和物体特定交互先验的解耦策略，显著提高了文本到HOI合成的性能。
 - 开发了一种强大的物体运动预测器，规划与推断身体姿态一致的物体姿态序列。
方法创新
采用基于扩散的生成模型学习动作特定运动和物体特定交互风格的后验分布。
 
提出了一种新颖的两阶段人体姿态推理策略，显著提高了生成姿态的语义一致性和交互逼真性。
 
应用价值
EigenActor在虚拟化身、数字动画、人机交互、游戏设计和AR/VR内容创作等领域具有广泛的应用前景。
 
七、其他有价值内容
 研究还探讨了EigenActor的局限性，例如文本指令的模糊性可能导致生成的HOI样本在物体运动轨迹上的可控性较差。未来的研究方向包括引入物体三维位置先验和物体-地面碰撞约束，以提高HOI合成的可控性和逼真性。
这篇报告详细介绍了EigenActor研究的背景、方法、实验和结论，为相关领域的研究者提供了全面的参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问