分享自:

结构化3D潜在空间用于可扩展和多功能3D生成

期刊:CVPR

基于结构化潜在空间的高质量三维资产生成方法研究

作者及机构
该研究由Jianfeng Xiang(清华大学/微软研究院)、Zelong Lv(中国科学技术大学/微软研究院)、Sicheng Xu、Yu Deng、Ruicheng Wang(中国科学技术大学/微软研究院)、Bowen Zhang、Dong Chen、Xin Tong、Jiaolong Yang(微软研究院)共同完成,发表于CVPR会议(计算机视觉与模式识别领域顶会)。


学术背景
随着AI生成内容(AIGC)在2D图像领域的突破,3D生成模型的质量仍落后于2D模型。传统3D表示方法(如网格、点云、辐射场、3D高斯)各有局限:网格难以建模细节外观,辐射场缺乏精确几何提取能力,且不同表示的网络架构兼容性差。为此,研究团队提出结构化潜在表示(Structured Latent, SLAT),旨在构建统一的3D生成范式,支持多格式输出(辐射场、3D高斯、网格)和灵活编辑,突破现有方法的单一性限制。

研究目标包括:
1. 开发融合几何与外观信息的统一潜在空间;
2. 实现10秒内高质量3D生成;
3. 支持文本/图像引导的局部编辑。


研究方法与流程
1. SLAT表示设计
- 稀疏3D网格结构:定义激活体素(active voxels)记录物体表面交点的局部潜在变量(local latents),空间分辨率默认64³,平均激活体素数20k,显著降低计算量。
- 视觉特征融合:通过DINOv2预训练视觉模型提取多视角图像特征,投影至体素并平均聚合,增强几何与纹理细节。

  1. 编码与解码架构

    • 稀疏VAE:基于Transformer的变分自编码器,输入为体素化特征,输出SLAT。采用3D窗口注意力机制优化局部信息交互。
    • 多格式解码器
      • 3D高斯解码器:生成位置偏移、颜色、透明度等参数,约束高斯分布靠近激活体素;
      • 辐射场解码器:输出局部辐射体积的CP分解张量;
      • 网格解码器:通过FlexiCubes参数生成等值面,分辨率提升至256³。
  2. 两阶段生成模型Trellis

    • 阶段一(稀疏结构生成):使用Rectified Flow Transformer将二值3D网格压缩为低分辨率特征,通过交叉注意力注入文本(CLIP特征)或图像(DINOv2特征)条件。
    • 阶段二(潜在变量生成):针对稀疏结构优化Transformer,引入稀疏卷积降采样与时间调制模块,生成局部潜在变量。
  3. 训练与数据

    • 数据集:整合Objaverse-XL、ABO等公开数据集,共50万3D资产,每资产渲染150视图,GPT-4生成文本描述。
    • 模型规模:训练参数量达20亿的XL模型,使用64块A100 GPU,批量大小256,400k训练步。
  4. 3D编辑应用

    • 细节变异:固定结构,重生成局部潜在变量;
    • 区域编辑:基于Repaint算法修改目标体素,结合条件提示生成新内容。

主要结果
1. 重建质量:在Toys4K数据集上,SLAT的PSNR(32.74)、LPIPS(0.025)显著优于3DTopia-XL(25.340.074)和Clay(仅几何评估),证明其多格式解码能力。
2. 生成效果
- 文本/图像到3D:生成资产细节丰富(如透明玻璃杯、带皮革套的复古相机),几何结构精确(推土机镂空驾驶室);
- 定量对比:Frechet距离(FDDinov2=238.6)和用户研究(67.1%偏好率)均超越InstantMesh、Shap-E等基线。
3. 编辑灵活性:成功实现局部添加(岛屿增加河流)、替换(机械臂改装武器)等操作,无需微调。


结论与价值
1. 科学价值:SLAT首次实现统一潜在空间下的多格式3D生成,解决了几何与外观建模的割裂问题;Rectified Flow模型在3D生成中验证了高效性。
2. 应用价值:为游戏、影视等数字产业提供快速(10秒/资产)、高质量的3D内容生成工具,支持定制化编辑。


研究亮点
1. 创新表示:SLAT结合稀疏结构与密集视觉特征,兼顾效率与细节;
2. 规模化训练:20亿参数模型在50万资产上训练,为当前最大规模之一;
3. 编辑友好性:通过局部潜在变量实现零调参编辑,突破传统方法局限性。

其他贡献
- 公开项目页面(trellis3d.github.io)提供生成示例与部分代码;
- 提出“3D表示无关”的生成范式,减少对新表示方法的依赖。

(注:全文严格遵循术语规范,如“Rectified Flow”保留原名称,“active voxels”首次译为“激活体素”并标注英文。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com