结构化3D潜在空间用于可扩展和多功能3D生成

分享自：
结构化3D潜在空间用于可扩展和多功能3D生成

期刊:CVPR
基于结构化潜在空间的高质量三维资产生成方法研究
作者及机构
 该研究由Jianfeng Xiang（清华大学/微软研究院）、Zelong Lv（中国科学技术大学/微软研究院）、Sicheng Xu、Yu Deng、Ruicheng Wang（中国科学技术大学/微软研究院）、Bowen Zhang、Dong Chen、Xin Tong、Jiaolong Yang（微软研究院）共同完成，发表于CVPR会议（计算机视觉与模式识别领域顶会）。
学术背景
 随着AI生成内容（AIGC）在2D图像领域的突破，3D生成模型的质量仍落后于2D模型。传统3D表示方法（如网格、点云、辐射场、3D高斯）各有局限：网格难以建模细节外观，辐射场缺乏精确几何提取能力，且不同表示的网络架构兼容性差。为此，研究团队提出结构化潜在表示（Structured Latent, SLAT），旨在构建统一的3D生成范式，支持多格式输出（辐射场、3D高斯、网格）和灵活编辑，突破现有方法的单一性限制。
研究目标包括：
 1. 开发融合几何与外观信息的统一潜在空间；
 2. 实现10秒内高质量3D生成；
 3. 支持文本/图像引导的局部编辑。
研究方法与流程
 1. SLAT表示设计
 - 稀疏3D网格结构：定义激活体素（active voxels）记录物体表面交点的局部潜在变量（local latents），空间分辨率默认64³，平均激活体素数20k，显著降低计算量。
 - 视觉特征融合：通过DINOv2预训练视觉模型提取多视角图像特征，投影至体素并平均聚合，增强几何与纹理细节。
编码与解码架构
稀疏VAE：基于Transformer的变分自编码器，输入为体素化特征，输出SLAT。采用3D窗口注意力机制优化局部信息交互。
 
多格式解码器：
 3D高斯解码器：生成位置偏移、颜色、透明度等参数，约束高斯分布靠近激活体素；
 
辐射场解码器：输出局部辐射体积的CP分解张量；
 
网格解码器：通过FlexiCubes参数生成等值面，分辨率提升至256³。
 
两阶段生成模型Trellis
阶段一（稀疏结构生成）：使用Rectified Flow Transformer将二值3D网格压缩为低分辨率特征，通过交叉注意力注入文本（CLIP特征）或图像（DINOv2特征）条件。
 
阶段二（潜在变量生成）：针对稀疏结构优化Transformer，引入稀疏卷积降采样与时间调制模块，生成局部潜在变量。
 
训练与数据
数据集：整合Objaverse-XL、ABO等公开数据集，共50万3D资产，每资产渲染150视图，GPT-4生成文本描述。
 
模型规模：训练参数量达20亿的XL模型，使用64块A100 GPU，批量大小256，400k训练步。
 
3D编辑应用
细节变异：固定结构，重生成局部潜在变量；
 
区域编辑：基于Repaint算法修改目标体素，结合条件提示生成新内容。
 
主要结果
 1. 重建质量：在Toys4K数据集上，SLAT的PSNR（32.74）、LPIPS（0.025）显著优于3DTopia-XL（25.34⁄0.074）和Clay（仅几何评估），证明其多格式解码能力。
 2. 生成效果：
 - 文本/图像到3D：生成资产细节丰富（如透明玻璃杯、带皮革套的复古相机），几何结构精确（推土机镂空驾驶室）；
 - 定量对比：Frechet距离（FDDinov2=238.6）和用户研究（67.1%偏好率）均超越InstantMesh、Shap-E等基线。
 3. 编辑灵活性：成功实现局部添加（岛屿增加河流）、替换（机械臂改装武器）等操作，无需微调。
结论与价值
 1. 科学价值：SLAT首次实现统一潜在空间下的多格式3D生成，解决了几何与外观建模的割裂问题；Rectified Flow模型在3D生成中验证了高效性。
 2. 应用价值：为游戏、影视等数字产业提供快速（10秒/资产）、高质量的3D内容生成工具，支持定制化编辑。
研究亮点
 1. 创新表示：SLAT结合稀疏结构与密集视觉特征，兼顾效率与细节；
 2. 规模化训练：20亿参数模型在50万资产上训练，为当前最大规模之一；
 3. 编辑友好性：通过局部潜在变量实现零调参编辑，突破传统方法局限性。
其他贡献
 - 公开项目页面（trellis3d.github.io）提供生成示例与部分代码；
 - 提出“3D表示无关”的生成范式，减少对新表示方法的依赖。
（注：全文严格遵循术语规范，如“Rectified Flow”保留原名称，“active voxels”首次译为“激活体素”并标注英文。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问