分享自:

Tensor4D:高效神经4D分解实现高保真动态重建与渲染

期刊:Computer Vision Foundation / IEEE

面向中文研究者的技术报告:Tensor4D——用于高保真动态重建与渲染的高效神经4D分解方法

一、 研究团队与发表信息

本研究的主要作者包括 Ruizhi Shao、Zerong Zheng、Hanzhang Tu、Boning Liu、Hongwen Zhang 和 Yebin Liu。其中,Ruizhi Shao、Zerong Zheng(共同一作)、Hanzhang Tu、Boning Liu、Hongwen Zhang 和 Yebin Liu 来自清华大学自动化系,Zerong Zheng 同时隶属于 NNKosmos Technology 公司。这项研究成果作为计算机视觉领域的重要进展,发表于计算机视觉与模式识别(CVPR)会议上。本文是基于计算机视觉基金会(Computer Vision Foundation)提供的开放获取版本,其在去除会议水印后,与最终被接受的版本完全一致。

二、 学术背景与研究动机

本研究隶属于计算机视觉、计算机图形学与三维重建的交叉领域,核心目标是解决动态场景的高质量重建与逼真渲染问题。随着增强现实(AR)、虚拟现实(VR)、三维内容创作等应用的兴起,从一组输入图像中复原动态场景并进行自由视角合成变得至关重要。传统的基于网格的方法在处理薄结构、镜面表面和拓扑变化时,容易产生重建错误和渲染伪影。

近年来,以神经辐射场(Neural Radiance Fields, NeRF)为代表的神经渲染方法在静态场景的新视角合成方面取得了令人瞩目的成就。这些方法被迅速扩展到动态场景,主流思路有两种:一种是“NeRF-t”类方法,将时间作为NeRF表示的额外输入维度;另一种是“D-NeRF”类方法,将动态场景解耦为一个规范(canonical)辐射场和一个动态运动场。这两种方法的基石都是学习一个4D(空间三维+时间一维)函数。然而,直接使用多层感知机(MLP)拟合此类函数通常面临极高的时间和计算成本。

为了解决静态NeRF的加速问题,研究者们提出了使用离散数据结构(如体素网格、三平面)的方案。但这些技术难以直接扩展到动态领域,因为引入额外的时间维度将导致内存占用呈指数级增长,从而无法建模高质量的外观细节。因此,本研究旨在寻求一种既能利用显式特征网格加速网络训练,又能在引入时间维度时避免巨大内存消耗的动态场景表示方法。

三、 详细研究方法与流程

本研究提出了名为“Tensor4D”的动态场景建模方法,其核心是一种高效的分层三投影(Hierarchical Tri-projection)分解算法。整个研究流程涵盖了方法设计、两种应用场景下的实现、实验验证与消融分析。

1. 核心方法:分层三投影分解 该研究没有直接构建高分辨率的4D张量,而是提出通过分层三投影分解来建模4D场。这一方法扩展了EG3D中的三投影思想。 * 第一步分解(4D到3D):首先,将一个完整的4D时空场 $f(x, y, z, t)$ 投影为三个“时间感知”的体积张量。具体而言,通过三投影算子 $\pi_3$,将4D张量分解为 ${f_z(x, y, t), f_y(x, z, t), f_x(y, z, t)}$。这三个体积分别沿x、y、z轴保留了时间信息。 * 第二步分解(3D到2D):为了进一步降低空间复杂度并实现高分辨率表示,研究团队对第一步得到的每个特征体积再次应用三投影分解,将其进一步分解为三个2D特征平面。例如,对于 $fz(x, y, t)$,将其分解为 ${f{zt}(x, y), f{zy}(x, t), f{zx}(y, t)}$。对其他两个体积进行类似操作。 * 最终表示与查询:通过这两步分解,一个4D场被紧凑地表示为九个2D特征平面。对于任意时空坐标 $(x, y, z, t)$,可以通过将其投影到这九个平面上并通过双线性插值检索对应值,来高效地查询其在4D场中的特征。这种分层分解将空间复杂度从 $O(N^4)$ 降低到了 $O(N^2)$(N为空间分辨率),显著减少了内存占用。 * 与六平面分解的对比:本研究强调其方法与同期出现的六平面分解(如HexPlane)不同。六平面分解仅将时间维度与单一空间维度配对(xt, yt, zt)。而Tensor4D的方法首先在空间域分解得到三个时间感知体积,再独立分解为九个平面。这使得九个平面彼此不同,能够利用时间和空间维度所有可能的组合(xt, yt, zt, xyt, yzt, xzt, xyzt)中的信息,从而更高效地捕获动态场景中强烈、复杂且长程的时间变化。

2. 粗到精(Coarse-to-fine)策略 为了进一步提升4D分解的效率,研究团队引入了一个可选的粗到精策略,在不同训练阶段将4D场分解到不同尺度。 * 粗粒度阶段:使用低分辨率特征平面(128x128)来分解4D场。这有助于提高训练过程的鲁棒性并实现快速收敛。 * 精粒度阶段:在粗粒度训练之后,额外使用高分辨率特征平面(512x512)进行4D分解,以表示动态细节并实现高质量渲染。最终的4D场被分解为粗粒度和精粒度两部分:$f(x, y, z, t) = {\pi_3(\pi_3(f^{lr})), \pi_3(\pi_3(f^{hr}))}$。

3. 在动态重建任务中的应用 研究团队将提出的4D张量分解方法应用于两种输入设置下的动态重建任务。 * 应用一:稀疏固定多视角相机下的动态重建 * 场景与目标:使用安装在32英寸Looking Glass全息显示器边框上的6个前向RGB相机系统,采集包含各种挑战性人体动作(如跳舞、竖拇指、挥手、戴帽子、操作包)的序列。目标是实现低内存和时间成本下的高效、高质量动态重建,并在稀疏固定相机设置下保持鲁棒性。 * 技术方案:采用提出的分解方法(结合粗到精策略)来分解“NeRF-t”表示(即时间条件辐射场)。具体而言,使用九组低分辨率(LR)特征平面和九组高分辨率(HR)特征平面来表示4D NeRF-t场。 * 渲染流程:对于射线上的采样点,首先从LR和HR平面查询其特征并拼接,再与时空坐标的位置编码(Positional Encoding)一起输入几何MLP $E_g$,以获得高维特征 $f$ 和密度 $\sigma$。接着,将 $f$ 与观察方向的位置编码拼接,输入颜色MLP $E_c$ 预测RGB颜色 $c$。最后通过体渲染(Volume Rendering)合成图像。 * 损失函数:训练损失包括颜色损失 $L_c$、所有分解特征平面的总变分(Total Variation, TV)正则化损失 $L_r$(以保持稀疏性),以及基于符号距离场(SDF)的表面平滑约束损失 $L_e$。总损失为 $L_m = \lambda_r L_r + \lambda_e L_e + \lambda_c L_c$。

  • 应用二:单目相机下的动态重建
    • 场景与目标:使用D-NeRF提供的合成数据集(如“lego”、“standup”、“jumpingjacks”),处理单目视频输入。由于单目设置比稀疏视角输入更加病态(ill-posed),需要显式解耦外观和运动以保证跨帧一致性。
    • 技术方案:分别分解D-NeRF框架中的4D流场(flow field)和3D规范表示。
      • 4D流场:仅采用粗粒度分解,使用低分辨率特征平面,以更关注粗略和刚性的运动,提高流估计的鲁棒性,实现更好的形状与运动解耦。
      • 3D规范表示:采用粗粒度和精粒度分解,得到6个特征平面。
    • 渲染流程:对于采样点,首先从9个流平面查询其流特征,通过流MLP $E_f$ 预测其在规范空间中的坐标。然后,从6个规范特征平面查询其规范特征。后续步骤与多视角方案类似,通过几何MLP和颜色MLP进行预测并体渲染。
    • 损失函数:与多视角方案类似,包括颜色损失、特征正则化损失和表面约束损失,总损失为 $L_s = \lambda_c L_c + \lambda_r L_r + \lambda_e L_e$。

4. 实验设计与基线对比 * 数据集:多视角实验使用自建的6相机真实世界数据集和12相机环形采集的360度全身序列。单目实验使用D-NeRF的合成数据集。 * 基线方法:选择了与工作最相关的先进基线进行对比,包括D-NeRF、NeRF-t、TineuVox和NeuS-t。其中,NeRF-t和NeuS-t是本研究将原始NeRF和NeuS扩展为时间条件版本。 * 评估指标:采用均方误差(MSE)、峰值信噪比(PSNR)、结构相似性(SSIM)和学习感知图像块相似度(LPIPS)来定量评估渲染质量。同时比较了训练时间和模型参数量(内存消耗)。

四、 主要研究结果

本研究在单目合成数据集和稀疏视角真实数据集上进行了广泛的定性与定量实验,结果验证了Tensor4D方法的有效性。

1. 定性结果 如图4所示,对于各种人体动作、服装风格和配饰,Tensor4D能够渲染出高质量的动态场景图像,并忠实地复原薄手指运动、半透明丝绸、手-物体交互、面部表情和衣物褶皱等外观细节。补充视频提供了更好的可视化效果。

2. 定量比较结果 * 在单目合成数据集上:如表1所示,在“lego”、“standup”和“jumpingjacks”三个场景中,本研究的完整方法(Ours)在多数指标(PSNR, SSIM, LPIPS)上优于D-NeRF、NeRF-t和TineuVox等基线方法,证明了其在渲染质量和准确性方面的优越性。 * 在稀疏视角真实数据集上:如表2所示,使用四个相机视图进行训练,保留两个视图进行评估。本研究的完整方法在三个测试序列上均取得了最佳的综合性能,显著优于D-NeRF、TineuVox和NeuS-t等基线,表明其在高保真外观细节合成方面的优势。 * 训练效率比较:如表3和表4所示,与原始的D-NeRF、NeRF-t和NeuS-t相比,本方法在单目和多视角场景下均大幅减少了训练时间(从数十小时缩短至约两小时)。与同样使用显式结构的TineuVox相比,Tensor4D在内存消耗相当或更低的情况下,实现了更优的渲染质量,这得益于其分层分解能够在更高空间分辨率(512^3 vs. 256^3)下高效表示4D场。

3. 消融研究结果 * 正则化项的作用:通过对比“Ours-nerf-t”和“Ours-d-nerf”(无正则化项)与完整方法,验证了总变分正则化和表面平滑约束对提升渲染质量、减少伪影的有效性(见表1,表2及表5中“Ours(w/o regular)”)。 * 分层分解 vs. 六平面分解:如表5所示,在单目和多视角案例中,本研究提出的分层分解方法(9平面)均优于六平面分解变体(“Ours(6-planes)”),验证了分层分解在捕获动态信息方面的有效性。

五、 研究结论与价值

本研究提出了Tensor4D,一种从稀疏视角视频甚至单目视频中学习高质量动态场景神经表示的新方法。其核心贡献在于一种新颖的分层三投影分解方法,该方法通过九个2D特征平面紧凑且内存高效地建模4D张量,从而捕获时空信息。

科学价值: 1. 方法创新:提出了一种全新的、高效的4D场显式表示框架,解决了动态神经渲染中内存与计算效率的瓶颈问题。 2. 理论贡献:分层分解机制为高维张量的紧凑表示提供了新的思路,其隐含的低秩约束在输入观测有限时能起到内在正则化的作用。 3. 性能突破:在极稀疏(4个)固定相机或单目相机设置下,实现了高质量、高保真的动态重建与自由视角合成,超越了现有主流方法。

应用价值: 1. 低成本沉浸式通信:如图1所示,该方法仅需少量稀疏布置的RGB相机,即可实现精细几何重建和时间一致的新视角合成,并展示在全息显示器上。这为构建低成本、便携且高度沉浸式的远程呈现(Telepresence)系统提供了可行的技术路径。 2. 推动相关领域:该高效框架可促进AR/VR、三维内容生产、娱乐产业中对动态内容的高效创建与交互。

六、 研究亮点

  1. 核心创新点:分层三投影分解方法是本研究最核心的亮点。它将复杂的4D建模问题,通过两次投影分解,优雅地转化为对多个2D平面的学习,在极大降低复杂度的同时保持了强大的表示能力。
  2. 优异的性能表现:在极具挑战性的稀疏视角和单目设置下,实现了当时最先进的动态重建与渲染质量,同时大幅提升了训练效率。
  3. 灵活的框架设计:所提出的分解方法具有普适性,可无缝集成到不同的动态NeRF框架(如NeRF-t和D-NeRF)中,并针对多视角和单目输入设计了针对性的优化策略和正则化方法。
  4. 全面的实验验证:研究不仅在合成数据上进行了测试,更构建了真实世界的多视角数据集,进行了详尽的定量、定性比较和消融实验,充分证明了方法的有效性和鲁棒性。

七、 其他有价值内容

  1. 研究局限性:作者也坦诚地指出了方法的局限。首先,由于需要对4D场进行分解,必须预设场景的包围盒(Bounding Box),因此难以重建背景或包围盒外的物体。其次,尽管强正则化项在稀疏视图下有益于鲁棒性,但也限制了方法处理流体、烟雾等极具挑战性案例的能力。
  2. 代码与数据开源:作者承诺将在GitHub上发布代码和数据集,这有利于促进领域内的可重复研究和后续工作的推进,体现了研究的开放精神。
  3. 对后续研究的启示:这项工作为未来面向低成本、便携、沉浸式远程呈现系统的研究提供了重要的灵感和技术基础。其高效分解的思想也可能启发其他需要处理高维时空信号的研究方向。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com