作者与机构
该研究由哥伦比亚大学的Ruoshi Liu、Rundi Wu、Basile Van Hoorick与Carl Vondrick,以及丰田研究院(Toyota Research Institute)的Pavel Tokmakov、Sergey Zakharov共同完成,发表于计算机视觉领域顶级会议ICCV(国际计算机视觉大会)。
研究领域与动机
本研究属于计算机视觉与三维重建交叉领域,聚焦于单图像新颖视角合成(novel view synthesis)和零样本3D重建(zero-shot 3D reconstruction)。传统方法依赖大量3D标注数据(如CAD模型)或类别特定先验,限制了其在开放场景中的泛化能力。而人类仅需单视角图像即可推断物体3D结构,这种能力启发研究者探索如何从大规模预训练的2D扩散模型中提取几何先验。
技术背景
扩散模型(如Stable Diffusion)通过互联网规模的图像-文本数据训练,已展现出强大的生成能力,但其隐含的3D几何信息尚未充分挖掘。本研究提出Zero-1-to-3框架,旨在通过微调扩散模型,实现相机视角的显式控制,从而解决单图像3D重建的欠约束问题。
目标函数
给定单张RGB图像( x ),模型需合成指定相机外参(旋转( r )和平移( t ))下的新视角图像( \hat{x}{r,t} )。采用条件潜在扩散模型(latent diffusion model)架构,通过以下目标函数微调预训练的Stable Diffusion:
[ \min\theta \mathbb{E}{z \sim \mathcal{E}(x), t, \epsilon \sim \mathcal{N}(0,1)} |\epsilon - \epsilon\theta(z_t, t, c(x, r, t))|2^2 ]
其中( \mathcal{E} )为图像编码器,( \epsilon\theta )为去噪U-Net,( c(x, r, t) )为输入图像与相机参数的联合嵌入。
双流条件机制
- 高层语义流:将输入图像的CLIP嵌入与相机参数拼接,通过交叉注意力引导生成过程。
- 局部细节流:将输入图像与去噪图像通道拼接,保留物体身份与细节一致性。
数据集
使用Objaverse(包含80万+3D模型)渲染12个随机视角的图像对,构成训练集。每对图像通过外参矩阵计算相对视角变换( (r, t) )。
训练策略
- 采用分类器无关引导(classifier-free guidance)提升生成质量。
- 通过合成数据微调,使模型学习视角控制机制,同时保留预训练模型的泛化能力。
结合Score Jacobian Chaining (SJC)框架优化神经辐射场(NeRF):
1. 随机视角采样:从神经场中渲染新视角图像。
2. 扩散模型监督:使用Zero-1-to-3对渲染图像去噪,计算梯度更新3D表示。
3. 辅助损失:包括输入视角的MSE损失、深度平滑损失和近视角一致性损失。
基准测试
在Google Scanned Objects (GSO)和RTMV数据集上,Zero-1-to-3显著优于基线方法(如DietNeRF、Image Variation):
- GSO数据集:PSNR 18.378(基线最高8.933),FID 0.027(基线最低12.919)。
- RTMV数据集:PSNR 10.405(基线最高7.953),SSIM 0.606(基线最高0.456)。
泛化能力
- 野外图像:对手机拍摄或网络图片(如印象派绘画)生成的视角保持几何与纹理一致性(图7)。
- 生成图像:对DALL·E-2生成的虚拟物体(如“蒸汽波风格90年代电脑”)也能合成合理视角(图10)。
定量结果
- GSO数据集:Volumetric IoU 0.5052(Point-E为0.2944),Chamfer Distance 0.0717(最优基线0.0804)。
- RTMV数据集:IoU 0.2196(基线最高0.1550),验证了复杂场景下的鲁棒性。
定性分析
相比MCC(依赖深度输入)和Point-E(稀疏点云输出),Zero-1-to-3重建的网格更完整(图9),尤其在遮挡区域细节更丰富。
科学意义
- 首次证明大规模扩散模型隐含强3D几何先验,仅通过2D图像训练即可实现视角控制。
- 提出“合成数据微调+零样本泛化”范式,为开放世界3D理解提供新思路。
应用价值
- 内容创作:支持从文本到3D(如DALL·E图像转3D)、艺术画作三维化等场景。
- 机器人视觉:单视角物体重建可用于抓取与导航任务。
该研究为2D视觉先验向3D几何的迁移提供了里程碑式案例,其代码与模型已开源,推动社区在生成式3D重建领域的探索。