本文介绍了一项由Jonathon Luiten、Georgios Kopanas、Bastian Leibe、Deva Ramanan等人开展的研究,题为《动态3D高斯:通过持久的动态视图合成进行跟踪》(Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis)。该研究发表在计算机视觉与图形学领域的相关期刊,并结合了深度学习与计算机视觉的最新进展,旨在为动态场景重建与六自由度(6-DOF)点跟踪提供一种新方法。
动态3D场景重建和长期点跟踪是计算机视觉领域的重要研究方向,具有广泛的应用价值,尤其在机器人、增强现实(AR)、虚拟现实(VR)及自动驾驶等领域。这些领域需要对动态场景进行精确的重建与跟踪,以实现对环境的准确感知和交互。
然而,现有的动态场景建模方法通常依赖于静态视图的图像或单一视角的监控数据,无法处理复杂的动态物体和场景。为了解决这些问题,许多方法采用了神经辐射场(NeRF)等新兴技术来进行视图合成,但这些方法仍然面临着精度不高、效率低下和无法准确建模动态物体等挑战。
在这项研究中,作者提出了一种基于动态3D高斯模型的方法,既能高效地进行场景的动态视图合成,又能实现长期的3D点跟踪。通过使用动态3D高斯模型,研究者能够在不同时间步骤上持续跟踪场景中的各个物体,同时准确还原物体的运动轨迹和空间变化。
本研究的核心方法是基于动态3D高斯分布进行场景建模。与传统的点云表示方法不同,3D高斯通过在空间中设置不同的高斯分布来表示场景中的每个物体。这些高斯粒子(或称为“点”)具有三维中心、颜色、透明度、旋转等属性,并且这些属性在不同时间步之间是持久的,即颜色、透明度和大小不随时间变化,只有位置和旋转会发生改变。
为了更好地捕捉物体的动态变化,作者对这些3D高斯点进行了旋转和平移约束,从而确保这些粒子能精确地模拟物体的运动轨迹和旋转变化。通过引入物理学上的刚性约束(local rigidity constraints)和旋转相似性约束(local rotational-similarity constraints),研究者保证了高斯粒子在动态场景中的位置和旋转保持一致性,并避免了由于场景复杂性带来的不一致问题。
该研究的实验分为以下几个主要步骤:
数据准备与预处理:首先,研究者利用来自CMU Panoptic Studio数据集的同步多视角视频进行实验。该数据集包含了27个训练相机和4个测试相机,覆盖了动态场景的不同视角。为了确保数据的准确性,研究者对图像进行了去畸变处理,并调整了图像的尺寸和格式。
模型初始化:在每个时间步骤,模型初始化通过稀疏的深度摄像头数据进行,利用这些数据为每个时间步骤生成一个粗略的点云。然后,研究者使用已知的深度信息进行进一步优化,生成更加密集和准确的动态3D高斯模型。
基于优化的训练过程:在每个时间步骤,作者使用基于梯度的优化方法,结合可微分渲染技术,通过不断调整高斯粒子的参数,使得每个时间步骤的渲染图像尽可能与输入的真实图像一致。优化过程中,场景的颜色、透明度、大小等静态参数保持不变,只有位置和旋转参数会发生变化。
动态跟踪与视图合成:该方法的一个显著特点是,不依赖于光流、姿态骨架或其他形式的对应信息。动态跟踪和视图合成是通过对每个时间步的动态场景进行建模并应用物理学约束来实现的。这使得该方法在不需要额外输入的情况下,能够准确跟踪场景中的每个3D点,且能够渲染出高质量的动态视图。
作者在多个数据集上进行了实验,展示了该方法在动态3D视图合成和3D点跟踪方面的优越性能。
动态视图合成:在动态场景的视图合成任务中,研究者的模型在PSNR(峰值信噪比)和SSIM(结构相似性)等指标上都优于现有的3D高斯分布方法(3GS-O)。尤其是在动态物体的合成和背景建模上,模型的表现更为出色。
3D跟踪:在3D点跟踪任务中,该方法在长期跟踪的精度上也取得了显著的突破,3D MTE(中位轨迹误差)仅为2.21cm,比3GS-O的结果低了近10倍,且具有100%的生存率。
2D跟踪:在2D点跟踪任务中,该方法也显示出优秀的性能,MTE为1.57像素,相比之下,PIPS等现有方法的误差要大得多。
本研究提出了一种创新的动态3D高斯建模方法,解决了动态场景建模和3D点跟踪中的多个挑战。该方法不仅能够高效地重建动态3D场景,还能在不依赖光流等传统技术的情况下,实现高精度的点跟踪。该方法的关键创新在于利用3D高斯粒子表示动态场景,并通过持久的动态视图合成技术进行优化和跟踪。
此外,研究者还提出了一种新的物理约束机制,使得高斯粒子能够在动态场景中稳定地运动和旋转,保证了建模和跟踪的长期一致性。该方法具有广泛的应用潜力,尤其在虚拟现实、增强现实、机器人以及自动驾驶等领域,能够提供精确的动态场景重建与跟踪能力。
本研究的亮点主要体现在以下几个方面:
动态3D高斯建模的创新:该方法使用动态3D高斯粒子来表示动态场景,突破了传统点云表示的局限,能够更加准确地捕捉物体的运动轨迹和旋转变化。
持久的动态视图合成:通过持久的动态视图合成,研究者能够在不同时间步之间保持一致的物理约束,确保了建模和跟踪结果的精度。
无额外输入的跟踪能力:与传统方法不同,该方法不依赖于光流、姿态骨架等额外输入,而是通过自适应优化与物理约束自动实现跟踪。
高效的渲染与训练速度:得益于优化的渲染方法和CUDA加速,研究者的模型能够在短时间内进行高质量的训练和渲染,满足实时渲染的需求。
尽管本研究在动态3D建模和跟踪方面取得了显著的进展,但仍存在一些限制。例如,该方法目前只能跟踪初始帧中可见的部分,无法处理新进入场景的物体。此外,方法依赖于多摄像头设置,无法在单目视频上直接应用。未来的研究可以针对这些问题进行进一步优化,例如通过引入基于单目视频的动态3D重建方法,扩展该方法的应用范围。
总体而言,本文的研究成果为动态3D场景重建和跟踪提供了一个新的解决方案,具有广泛的应用前景,尤其是在虚拟现实、增强现实以及自动驾驶等领域。