分享自:

零样本单图像到3D对象:Zero-1-to-3

期刊:ICCV

基于扩散模型的单图像3D重建与新颖视角合成研究:Zero-1-to-3框架

作者与机构
该研究由哥伦比亚大学的Ruoshi Liu、Rundi Wu、Basile Van Hoorick与Carl Vondrick,以及丰田研究院(Toyota Research Institute)的Pavel Tokmakov、Sergey Zakharov共同完成,发表于计算机视觉领域顶级会议ICCV(国际计算机视觉大会)。

学术背景

研究领域与动机
本研究属于计算机视觉与三维重建交叉领域,聚焦于单图像新颖视角合成(novel view synthesis)零样本3D重建(zero-shot 3D reconstruction)。传统方法依赖大量3D标注数据(如CAD模型)或类别特定先验,限制了其在开放场景中的泛化能力。而人类仅需单视角图像即可推断物体3D结构,这种能力启发研究者探索如何从大规模预训练的2D扩散模型中提取几何先验。

技术背景
扩散模型(如Stable Diffusion)通过互联网规模的图像-文本数据训练,已展现出强大的生成能力,但其隐含的3D几何信息尚未充分挖掘。本研究提出Zero-1-to-3框架,旨在通过微调扩散模型,实现相机视角的显式控制,从而解决单图像3D重建的欠约束问题。

研究方法与流程

1. 核心框架设计

目标函数
给定单张RGB图像( x ),模型需合成指定相机外参(旋转( r )和平移( t ))下的新视角图像( \hat{x}{r,t} )。采用条件潜在扩散模型(latent diffusion model)架构,通过以下目标函数微调预训练的Stable Diffusion:
[ \min
\theta \mathbb{E}{z \sim \mathcal{E}(x), t, \epsilon \sim \mathcal{N}(0,1)} |\epsilon - \epsilon\theta(z_t, t, c(x, r, t))|2^2 ]
其中( \mathcal{E} )为图像编码器,( \epsilon
\theta )为去噪U-Net,( c(x, r, t) )为输入图像与相机参数的联合嵌入。

双流条件机制
- 高层语义流:将输入图像的CLIP嵌入与相机参数拼接,通过交叉注意力引导生成过程。
- 局部细节流:将输入图像与去噪图像通道拼接,保留物体身份与细节一致性。

2. 数据与训练

数据集
使用Objaverse(包含80万+3D模型)渲染12个随机视角的图像对,构成训练集。每对图像通过外参矩阵计算相对视角变换( (r, t) )。

训练策略
- 采用分类器无关引导(classifier-free guidance)提升生成质量。
- 通过合成数据微调,使模型学习视角控制机制,同时保留预训练模型的泛化能力。

3. 3D重建流程

结合Score Jacobian Chaining (SJC)框架优化神经辐射场(NeRF):
1. 随机视角采样:从神经场中渲染新视角图像。
2. 扩散模型监督:使用Zero-1-to-3对渲染图像去噪,计算梯度更新3D表示。
3. 辅助损失:包括输入视角的MSE损失、深度平滑损失和近视角一致性损失。

主要实验结果

1. 新颖视角合成

基准测试
在Google Scanned Objects (GSO)和RTMV数据集上,Zero-1-to-3显著优于基线方法(如DietNeRF、Image Variation):
- GSO数据集:PSNR 18.378(基线最高8.933),FID 0.027(基线最低12.919)。
- RTMV数据集:PSNR 10.405(基线最高7.953),SSIM 0.606(基线最高0.456)。

泛化能力
- 野外图像:对手机拍摄或网络图片(如印象派绘画)生成的视角保持几何与纹理一致性(图7)。
- 生成图像:对DALL·E-2生成的虚拟物体(如“蒸汽波风格90年代电脑”)也能合成合理视角(图10)。

2. 3D重建

定量结果
- GSO数据集:Volumetric IoU 0.5052(Point-E为0.2944),Chamfer Distance 0.0717(最优基线0.0804)。
- RTMV数据集:IoU 0.2196(基线最高0.1550),验证了复杂场景下的鲁棒性。

定性分析
相比MCC(依赖深度输入)和Point-E(稀疏点云输出),Zero-1-to-3重建的网格更完整(图9),尤其在遮挡区域细节更丰富。

结论与价值

科学意义
- 首次证明大规模扩散模型隐含强3D几何先验,仅通过2D图像训练即可实现视角控制。
- 提出“合成数据微调+零样本泛化”范式,为开放世界3D理解提供新思路。

应用价值
- 内容创作:支持从文本到3D(如DALL·E图像转3D)、艺术画作三维化等场景。
- 机器人视觉:单视角物体重建可用于抓取与导航任务。

研究亮点

  1. 零样本能力:模型在未见过类别(如印象派绘画)上表现优异,无需3D标注。
  2. 方法创新:通过双流条件机制分离语义与几何控制,平衡生成质量与一致性。
  3. 跨任务兼容性:同一框架同时支持新颖视角合成与3D重建,优于专用基线。

未来方向

  • 复杂场景扩展:当前训练数据以单物体为主,需提升多物体交互场景的重建能力。
  • 动态建模:结合视频扩散模型,探索动态场景的4D重建。
  • 图形管线整合:进一步挖掘扩散模型在光照、材质等传统图形任务中的潜力。

该研究为2D视觉先验向3D几何的迁移提供了里程碑式案例,其代码与模型已开源,推动社区在生成式3D重建领域的探索。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com