分享自:

使用分层二维修复生成生动交互的三维场景

期刊:38th conference on neural information processing systems (NeurIPS 2024)

ARCHITECT:基于分层2D修复生成生动交互式3D场景的学术报告

作者及机构
本研究的核心团队由来自美国马萨诸塞大学阿默斯特分校(UMass Amherst)的Yian Wang、Xiaowen Qiu、Jiageng Liu、Zhehuan Chen和Chuang Gan,上海交通大学(Shanghai Jiao Tong University)的Jiting Cai,以及卡内基梅隆大学(Carnegie Mellon University)的Yufei Wang和Zhou Xian,麻省理工学院(MIT)的Tsun-Hsuan Wang共同完成。该研究发表于第38届神经信息处理系统会议(NeurIPS 2024)。


学术背景
科学领域与动机
本研究属于计算机视觉、生成式人工智能与机器人技术的交叉领域。当前,为机器人及具身智能(embodied AI)研究创建大规模交互式3D环境面临两大挑战:一是现有方法(如人工设计、程序化生成、基于扩散模型的场景生成或大语言模型LLM引导设计)存在人力成本高、依赖预定义规则或训练数据、3D空间推理能力有限等问题;二是复杂场景的细节生成(如家具布局、小物体摆放)缺乏真实性和开放性。

技术背景
传统方法中,LLM因语言空间的局限性难以捕捉真实场景的几何关系,而预训练的2D图像生成模型(如扩散模型)在物体配置和场景布局上更具优势。研究团队提出ARCHITECT框架,通过分层2D图像修复(hierarchical 2D inpainting)结合深度估计,将2D生成结果提升至3D空间,并利用仿真环境中的几何线索控制相机参数与深度尺度,实现高保真3D场景构建。


研究流程与方法
1. 初始化模块(Initializing Module)
- 输入:空场景或预定义布局(如文本描述、平面图)。
- 关键步骤
- 视角选择:通过启发式方法选择覆盖场景最大可见范围的初始视角(如房间对角视角)。
- 背景渲染:使用PyRender和Luisarender渲染仅含背景的逼真图像,获取真实深度与相机参数。
- 掩码生成:根据物体遮挡情况动态调整修复区域掩码(inpainting mask),避免已有物体被覆盖。

2. 分层修复模块(Hierarchical Inpainting Module)
- 大物体生成
- 基于LLM生成文本提示(prompt),指导扩散模型(如SD-XL)在掩码区域填充家具等大物体。
- 通过高斯模糊和腐蚀技术优化掩码边界,确保生成内容与背景无缝融合。
- 小物体生成
- 在已生成的大物体(如桌子、架子)上,通过立方体填充策略定义局部修复区域,生成小物体(如餐具、玩具)。
- 采用迭代修复增强场景复杂度,例如在书架分层填充书籍或装饰品。

3. 视觉感知模块(Visual Perception Module)
- 物体识别:结合GPT-4V和Grounded-SAM检测并分割生成图像中的物体实例。
- 深度估计与3D重建
- 使用Marigold模型估计相对深度,并通过参考深度(来自仿真背景)进行尺度校准。
- 通过相机参数将2D分割结果反投影为3D点云,利用DBSCAN聚类去除离群点,生成物体包围盒。

4. 物体放置模块(Placing Module)
- 大物体放置:从Objaverse等数据库检索3D模型,基于包围盒约束和冲突检测优化位置与朝向。
- 小物体放置:通过文本到3D生成(如MVDream+InstantMesh)创建物体实例,调整比例与方向以适应局部空间。

创新方法
- 分层控制修复:通过仿真渲染的几何信息约束扩散模型,解决生成图像中相机参数与深度尺度缺失的问题。
- 开放词汇生成:无需预训练室内布局数据,直接利用2D生成模型的先验知识支持多样化场景(如公寓、超市)。


主要结果
1. 场景生成质量
- 定性对比:与Holodeck、Text2Room等基线相比,ARCHITECT生成的场景在细节丰富度(如餐桌摆设、货架物品)和语义合理性上显著更优(图3)。例如,Holodeck因依赖LLM的空间推理,生成的理发店场景存在语义错误,而ARCHITECT能准确生成理发椅与工具。
- 定量评估:在CLIP分数(0.7173 vs. 0.6502)、BLIP分数(0.5859 vs. 0.3463)和用户评分(视觉质量3.87/5)上均超越基线(表2)。

  1. 机器人任务支持

    • 在具身AI任务中(图4-5),生成的场景支持复杂交互,如“将玻璃杯从餐桌移至厨房”或“整理抽屉内物品”。通过LLM动态筛选相关物体,减少无关对象的物理模拟开销。
  2. 物体生成能力

    • 结合SDS损失(Score Distillation Sampling)和RichDreamer模型,生成高质量大型家具(如木质桌子、婴儿床)和小物体(水果碗、玩具龙),弥补数据库覆盖不足的局限(图6)。

结论与价值
科学意义
- 提出首个基于2D扩散模型的零样本(zero-shot)3D场景生成框架,突破了传统方法对规则或数据的依赖。
- 通过“仿真渲染+分层修复”实现几何一致性控制,为2D到3D的提升提供了新范式。

应用价值
- 为机器人训练提供高保真、可交互的虚拟环境,加速具身智能的策略学习。
- 支持开放词汇场景生成,扩展至非家居场景(如零售店、医院),具有广泛落地潜力。

局限性
当前依赖现有3D资产库,未来需结合生成式模型(如InstantMesh)进一步丰富物体多样性。


研究亮点
1. 方法创新:首次将分层2D修复与3D几何控制结合,解决生成场景的深度与相机参数问题。
2. 技术整合:融合扩散模型、LLM、视觉感知模型与仿真渲染,实现端到端的复杂场景生成。
3. 跨领域应用:成果适用于机器人学、虚拟现实及游戏开发等多个领域。

其他价值
- 公开代码与实验细节,推动社区复现与拓展(项目页:https://vis-www.cs.umass.edu/architect)。
- 用户研究(115名参与者)验证了生成场景的实用性与优越性(附录D)。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com