SOGS：用于先进三维高斯溅射的二阶锚点

分享自：
SOGS：用于先进三维高斯溅射的二阶锚点

期刊:Computer Vision Foundation / IEEE
关于SOGS：一种实现高质量渲染与小模型尺寸平衡的先进3D高斯泼溅技术的学术研究报告
一、 研究作者、机构与发表信息 本研究的主要作者为张佳辉（Jiahui Zhang）、詹方能（Fangneng Zhan）、邵岭（Ling Shao）和陆世健（Shijian Lu）。作者单位分别为南洋理工大学（Nanyang Technological University）、哈佛大学（Harvard University）、麻省理工学院（MIT）以及中国科学院大学-终结者人工智能实验室（UCAS-Terminus AI Lab, University of Chinese Academy of Sciences）。通讯作者为陆世健。该研究以论文形式发表，是计算机视觉领域顶级会议CVPR（计算机视觉与模式识别会议）的录用论文。根据文末参考文献的年份推断，该研究很可能发表于2024年或2025年的CVPR会议上。
二、 研究的学术背景与目标 本研究属于计算机视觉领域，具体聚焦于三维场景表示与渲染，特别是新颖视图合成（Novel View Synthesis）任务。该任务是虚拟现实、场景仿真等应用的关键技术。近年来，3D高斯泼溅（3D Gaussian Splatting, 3D-GS）技术因其能够实现高质量实时渲染而受到广泛关注。然而，传统的3D-GS方法通常需要存储海量的3D高斯（Gaussian）以精确拟合每个训练视图，这不仅导致模型庞大，也忽略了场景的底层几何结构。
为了应对这一挑战，锚点式（Anchor-based）3D-GS方法应运而生，例如Scaffold-GS。这类方法引入锚点（Anchor）来存储特征，并通过多层感知机（MLP）从这些锚点特征中预测3D高斯的属性（如位置、颜色、透明度等），从而利用场景结构指导高斯分布，减少冗余，在保持渲染质量的同时压缩模型。然而，Scaffold-GS面临一个核心困境：为了获得高质量的渲染，需要较大的锚点特征维度，但这会导致模型尺寸显著增大；反之，减少锚点特征维度虽然能缩小模型，却会严重损害高斯属性预测的准确性，导致渲染图像中出现明显的纹理和几何伪影。后续工作如HAC试图通过压缩技术减少Scaffold-GS的存储大小，但并未减少训练和渲染时实际使用的锚点特征维度和模型大小。
因此，本研究旨在解决锚点式3D-GS中渲染质量与模型大小之间的权衡难题。具体研究目标是：设计一种新型的锚点式3D-GS技术，能够在显著降低锚点特征维度和模型大小的同时，实现甚至超越现有方法的渲染质量。
三、 研究的详细工作流程与方法 本研究提出了一种名为SOGS（Second-Order Anchor for advanced 3D Gaussian Splatting）的创新方法。其核心思想是引入二阶锚点（Second-Order Anchor），并辅以选择性梯度损失（Selective Gradient Loss, SGL）。整个工作流程可以概括为以下几个关键步骤：
基础框架与初始化： SOGS建立在Scaffold-GS的基础之上。首先，使用运动恢复结构（Structure-from-Motion, SfM）工具如COLMAP从多视角图像中生成初始点云。然后，将整个场景体素化（Voxelize），并将每个体素的中心设置为一个锚点。与Scaffold-GS类似，每个锚点存储一个局部场景特征向量 f_a ∈ R^d（d为特征维度，SOGS将其从Scaffold-GS的32维显著降低至12或16维）、一个缩放因子 l_a 和K个偏移量 o_a。锚点的位置、特征等属性是可学习的。
二阶锚点构造与特征增强： 这是SOGS的核心创新。其目标是利用所有锚点特征之间的统计相关性来增强每个锚点的表征能力，从而弥补因特征维度降低而造成的信息损失。
计算协方差与相关矩阵：将所有N个锚点的特征集合 F_a ∈ R^(N×d) 视为观测样本，其中d个特征维度被视为d个变量。首先计算这d个变量之间的协方差矩阵 Σ ∈ R^(d×d)，并计算均值向量 μ 用于特征中心化。为了消除不同变量方差大小对相关性度量的影响，将协方差矩阵标准化为相关矩阵 R。
提取主协变模式：对相关矩阵 R 进行特征分解（Eigendecomposition），得到特征向量矩阵 Q 和特征值对角矩阵 Λ。特征向量代表了锚点特征维度之间不同的协变（Co-variation）模式，特征值大小代表了该模式的重要性。SOGS选取对应最大特征值的top-m个特征向量 P = [p_1, ..., p_m]（文中设定m=2），作为全局共享的最主要的协变关系方向。
锚点特异性特征提取与增强：对于每个锚点的特征 f_a，将其分别与每一个主协变方向向量 p_i 拼接，并通过一个轻量级的双层MLP f_i(·) 进行处理。这个MLP的作用是基于第i个全局协变模式，提取该锚点所对应的局部特异性纹理和结构信息，输出增强特征 f_i^t。这个过程可以理解为：全局协变模式 P 提供了“如何组合特征维度能有效表征纹理/结构”的先验知识，而MLP则根据每个锚点的具体特征 f_a，实例化出该锚点区域的细节。
高斯属性预测：最后，将原始的锚点特征 f_a 与所有m个提取的增强特征 {f_i^t} 拼接起来，共同输入到预测MLP f(·) 中，结合相机相对位置和视角方向，预测出该锚点所对应的K个3D高斯的属性（不透明度α、颜色c、旋转四元数q、缩放s）。高斯的位置则由锚点位置加上学习到的偏移量乘以缩放因子得到。至关重要的是，增强特征 {f_i^t} 是由 f_a 衍生而来，并未增加锚点存储的特征维度d，即在不增加模型存储开销的前提下实现了特征增强。
选择性梯度损失（SGL）的设计与应用： 为了在紧凑的锚点特征下进一步提升渲染质量，特别是纹理和几何细节，SOGS设计了一个新的损失函数。
梯度图计算：使用Sobel算子分别计算渲染图像 I' 和其真实值（Ground Truth）图像 I 的水平方向和垂直方向梯度图（g_x', g_y' 和 g_x, g_y）。梯度图能够突出图像中的边缘和纹理变化区域。
动态区域选择：简单地计算渲染图与真值图梯度之间的L1或L2损失，会被梯度图中大片的平坦（低梯度）区域所主导，使得模型忽略对关键纹理/边缘区域的学习。为此，SOGS引入了一个权重图。该权重图是渲染图与真值图梯度图之间差异的绝对值（w_x = |g_x' - g_x|, w_y = |g_y' - g_y|）。这个差异图本身就反映了当前模型在哪些区域的纹理和几何结构上渲染误差较大。
损失函数构建：选择性梯度损失 L_s 定义为加权后的梯度差异：L_s = w_x * l_x + w_y * l_y，其中 l_x, l_y 是平均梯度差异。这样，损失函数会自适应地将优化重点放在那些难以渲染的、当前误差较大的纹理和结构区域。随着训练进行，权重图动态变化，模型聚焦的区域也随之动态调整。
整体训练与渲染流程： SOGS的整体训练目标函数是多个损失的加权和：L = λ_1 * L_1 + λ_ssim * L_ssim + λ_vol * L_vol + λ_s * L_s。其中，L_1 和 L_ssim 是渲染图像与真值图像之间的RGB颜色L1损失和D-SSIM损失，用于保证整体颜色和结构相似性；L_vol 是Scaffold-GS中使用的体积正则化项，用于控制高斯分布的紧凑性；L_s 就是上述的选择性梯度损失。训练完成后，渲染过程与标准3D-GS一致，通过将学习到的3D高斯投影到2D图像平面并进行α混合（Alpha-blending）来实现。
实验设计与评估： 研究在多个广泛使用的基准数据集上进行了全面实验，以验证SOGS的有效性。
数据集：包括Mip-NeRF360（9个场景）、Tanks & Temples（2个场景）、Deep Blending（2个场景）以及大规模室外场景数据集BungeeNeRF（6个场景）。这些数据集涵盖了从有界室内到无界室外的多种复杂场景。
对比方法：主要与同属锚点式3D-GS的基线方法Scaffold-GS进行对比，同时也与原始的3D-GS进行视觉比较。由于HAC和ContextGS等方法旨在压缩存储而非减少训练时模型大小，因此未将其纳入主要对比。
评估指标：使用峰值信噪比（PSNR，衡量图像保真度）、结构相似性指数（SSIM，衡量结构相似性）和学习感知图像块相似度（LPIPS，衡量感知质量）来量化渲染质量。同时，记录模型大小（通过锚点特征维度间接反映）。
消融实验：设置了严格的消融实验，在固定模型大小（锚点特征维度为32）的条件下，逐步添加二阶锚点模块和选择性梯度损失，以分离评估每个组件的贡献。
参数研究：探究了锚点特征维度 d 对SOGS性能的影响趋势。
四、 研究的主要结果 实验结果表明，SOGS成功地实现了其设计目标，在显著减小模型的同时，获得了卓越的渲染质量。
与基线方法的定量比较结果： 在Mip-NeRF360、Tanks & Temples和Deep Blending数据集上，SOGS在将锚点特征维度从Scaffold-GS的32维降低到16维（Mip-NeRF360）甚至12维（Tanks & Temples和Deep Blending）的情况下，在PSNR、SSIM和LPIPS所有三个指标上均一致地超越了使用32维特征的Scaffold-GS。例如，在Mip-NeRF360数据集上，SOGS（16维）的SSIM为0.815，PSNR为27.85，LPIPS为0.221，而Scaffold-GS（32维）的对应指标为0.806，27.50和0.252。这直接证明了SOGS方法的高效性：用更少的参数实现了更好的渲染质量。在更具挑战性的大规模BungeeNeRF数据集上，SOGS（16维）同样全面优于Scaffold-GS（32维）。
视觉对比结果： 论文提供了丰富的视觉对比图（见图1、图4、图6）。结果显示，与3D-GS和Scaffold-GS相比，SOGS渲染的图像具有更少的伪影和更清晰的细节。特别是在纹理复杂和几何结构精细的区域，SOGS的表现更加出色。梯度图（Gradient Maps）的对比进一步显示，SOGS能更好地恢复场景的纹理和几何边缘。这些视觉结果与定量指标相互印证，证实了SOGS在感知质量上的优势。
消融实验结果： 在BungeeNeRF数据集上的消融实验（表3）清晰地展示了各个组件的贡献：
基线（Base）：即标准的Scaffold-GS（32维）。
Base + SOA：在基线上加入二阶锚点模块。结果显示，PSNR、SSIM显著提升，LPIPS显著下降，证明仅凭二阶锚点特征增强就能有效提升高斯属性预测和渲染质量。
Base + SOA + SGL（即完整SOGS）：进一步加入选择性梯度损失。所有指标得到进一步改善，尤其是LPIPS从0.208大幅降至0.161，说明SGL对于提升纹理和几何细节的渲染质量至关重要。 消融实验的逻辑链条是：基线方法存在质量-尺寸权衡问题 -> 引入二阶锚点，通过特征增强在相同尺寸下提升质量 -> 再引入选择性梯度损失，进一步聚焦难渲染区域，最大化质量潜力。
参数研究结果： 图5展示了锚点特征维度 d 与SOGS性能（以PSNR为例）的关系。随着 d 增大，渲染质量（PSNR）持续提升，但提升幅度逐渐减小，呈现出饱和趋势。与此同时，模型大小和计算成本会线性增长。这一结果验证了特征维度是信息承载的上限，也说明了SOGS在 d=12 或 16 的设定下，是在模型大小和性能之间取得的一个优良平衡点。
可视化分析结果： 图6专门可视化了二阶锚点对场景纹理和结构的影响。对比“朴素锚点”和“二阶锚点”的渲染结果，可以明显看到后者在物体边缘、表面纹理等细节上更加锐利和清晰。这直观地证实了二阶锚点通过捕捉特征维度间的相关性，成功增强了锚点对局部纹理和结构模式的表征能力。
五、 研究的结论与价值 本研究的结论是：提出的SOGS方法，通过引入二阶锚点进行特征增强和选择性梯度损失进行针对性优化，成功地解决了锚点式3D高斯泼溅技术中渲染质量与模型大小之间的根本矛盾。SOGS能够在显著降低锚点特征维度（从而减小模型大小）的同时，实现优于原大尺寸基线模型的渲染质量。
该研究的价值体现在以下几个方面： * 科学价值：1) 理论创新：首次将二阶统计量（协方差/相关性）引入3D高斯泼溅的锚点表征中，为显式3D场景表示提供了一种新的特征增强思路，即利用特征维度间的内在相关性来挖掘和补偿信息。2) 方法创新：提出了动态区域选择的选择性梯度损失，为基于梯度的图像质量优化提供了新的视角，使模型能够自适应地关注训练过程中的难点区域。 * 应用价值：SOGS使得高质量的新颖视图合成能够以更小的模型存储和内存占用实现。这对于在存储和计算资源受限的设备（如移动端、XR头显）上部署实时高保真3D渲染应用具有重要的实际意义，有助于推动沉浸式视觉体验的普及。 * 对领域发展的意义：该工作为后续的3D-GS模型压缩和效率优化研究指明了新的方向，即不仅可以通过工程化的压缩算法，还可以通过改进模型本身的结构和表征能力来从根本上实现“小而强”的模型。
六、 研究的亮点 1. 核心创新点明确且有效：“二阶锚点”的概念是本研究最核心的亮点。它巧妙地利用所有锚点特征的全局协变信息来增强单个锚点的表征，在不增加存储开销的前提下提升了模型容量，思路新颖且效果显著。 2. 系统性解决方案：研究不仅提出了主干网络结构的改进（二阶锚点），还配套设计了专用的优化损失函数（选择性梯度损失），两者相辅相成，共同解决了小尺寸锚点下的高质量渲染问题。 3. 严谨的实验验证：研究在多个标准数据集上进行了充分的定量、定性、消融和参数分析，证据链完整，结论可靠。特别是在固定模型大小下的消融实验，有力证明了每个组件的独立贡献。 4. 优异的性能平衡：SOGS在模型大小（锚点维度12/16）和渲染质量（多项SOTA指标）之间达到了当前领先的平衡点，其“减量增效”的效果非常突出。
七、 其他有价值的内容 论文还提及，虽然由于二阶统计量的计算带来了一定的时间开销，但SOGS仍然保持了高效的训练和实时渲染的能力。这保证了其在实际应用中的可行性。此外，论文的图2提供了清晰的方法总览图，有助于读者快速理解SOGS的整体架构和工作流程。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问