基于结构化潜在空间的高质量三维资产生成方法研究
作者及机构
该研究由Jianfeng Xiang(清华大学/微软研究院)、Zelong Lv(中国科学技术大学/微软研究院)、Sicheng Xu、Yu Deng、Ruicheng Wang(中国科学技术大学/微软研究院)、Bowen Zhang、Dong Chen、Xin Tong、Jiaolong Yang(微软研究院)共同完成,发表于CVPR会议(计算机视觉与模式识别领域顶会)。
学术背景
随着AI生成内容(AIGC)在2D图像领域的突破,3D生成模型的质量仍落后于2D模型。传统3D表示方法(如网格、点云、辐射场、3D高斯)各有局限:网格难以建模细节外观,辐射场缺乏精确几何提取能力,且不同表示的网络架构兼容性差。为此,研究团队提出结构化潜在表示(Structured Latent, SLAT),旨在构建统一的3D生成范式,支持多格式输出(辐射场、3D高斯、网格)和灵活编辑,突破现有方法的单一性限制。
研究目标包括:
1. 开发融合几何与外观信息的统一潜在空间;
2. 实现10秒内高质量3D生成;
3. 支持文本/图像引导的局部编辑。
研究方法与流程
1. SLAT表示设计
- 稀疏3D网格结构:定义激活体素(active voxels)记录物体表面交点的局部潜在变量(local latents),空间分辨率默认64³,平均激活体素数20k,显著降低计算量。
- 视觉特征融合:通过DINOv2预训练视觉模型提取多视角图像特征,投影至体素并平均聚合,增强几何与纹理细节。
编码与解码架构
两阶段生成模型Trellis
训练与数据
3D编辑应用
主要结果
1. 重建质量:在Toys4K数据集上,SLAT的PSNR(32.74)、LPIPS(0.025)显著优于3DTopia-XL(25.34⁄0.074)和Clay(仅几何评估),证明其多格式解码能力。
2. 生成效果:
- 文本/图像到3D:生成资产细节丰富(如透明玻璃杯、带皮革套的复古相机),几何结构精确(推土机镂空驾驶室);
- 定量对比:Frechet距离(FDDinov2=238.6)和用户研究(67.1%偏好率)均超越InstantMesh、Shap-E等基线。
3. 编辑灵活性:成功实现局部添加(岛屿增加河流)、替换(机械臂改装武器)等操作,无需微调。
结论与价值
1. 科学价值:SLAT首次实现统一潜在空间下的多格式3D生成,解决了几何与外观建模的割裂问题;Rectified Flow模型在3D生成中验证了高效性。
2. 应用价值:为游戏、影视等数字产业提供快速(10秒/资产)、高质量的3D内容生成工具,支持定制化编辑。
研究亮点
1. 创新表示:SLAT结合稀疏结构与密集视觉特征,兼顾效率与细节;
2. 规模化训练:20亿参数模型在50万资产上训练,为当前最大规模之一;
3. 编辑友好性:通过局部潜在变量实现零调参编辑,突破传统方法局限性。
其他贡献
- 公开项目页面(trellis3d.github.io)提供生成示例与部分代码;
- 提出“3D表示无关”的生成范式,减少对新表示方法的依赖。
(注:全文严格遵循术语规范,如“Rectified Flow”保留原名称,“active voxels”首次译为“激活体素”并标注英文。)