类型a
三维高斯溅射超分辨视觉场景构建算法的研究报告
本研究由侯礼杰(Hou Lijie)、沈寅松(Shen Yinsong)、刘晓晨(Liu Xiaochen)等作者完成,主要来自中北大学仪器与电子学院、机电工程学院以及北京理工大学前沿技术研究院等机构。该论文发表于《中国测试》(China Measurement & Test)期刊2024年第50卷第9期。
机器人技术在工业化和自动化领域发挥着至关重要的作用,但在视觉信息感知方面仍面临诸多挑战,例如感知精度不足的问题。为了提升机器人在复杂工作环境中的视觉感知能力,研究团队提出了一种基于三维高斯溅射(3D Gaussian Splatting, 3DGS)的超分辨视觉场景构建算法。传统的3DGS方法虽然在渲染速度和重建精度上具有优势,但在低分辨率输入条件下容易出现颜色渲染错误、针状伪影以及纹理信息缺失等问题。为了解决这些问题,本文引入了真实世界增强型超分辨率生成对抗网络(Real-World Enhanced Super-Resolution Generative Adversarial Networks, Real-ESRGAN)作为预处理技术,并结合亚像素约束优化了三维重建细节的表征精细度。
本研究主要包括以下几个步骤:
1. 数据预处理与高分辨率视图生成:通过Real-ESRGAN算法对低分辨率二维图像进行超分辨率处理,生成高分辨率视图。这一步骤显著增强了输入图像的纹理细节和清晰度。
2. 亚像素约束的引入:通过对生成的高分辨率视图下采样并与原始低分辨率视图对齐,获得亚像素约束。这一约束能够确保纹理信息的准确性和丰富性,并提高三维重建的细节表征能力。
3. 初始化与稀疏点云生成:在初始化阶段生成稀疏点云,并利用可微三维高斯溅射(Differentiable 3D Gaussian Splatting)和相机位姿信息进行快速渲染。
4. 自适应密度控制与致密化:通过动态调整高斯覆盖区域的密度,确保渲染效果的均匀性和高质量。同时,通过克隆或分裂高斯基元来优化重建结果。
5. 实验验证与性能评估:在多个具有复杂纹理和镜面反射特征的场景中进行实验,对比传统3DGS方法与本文提出的增强型超分辨纹理学习三维高斯溅射(Enhanced Super-resolution Texture-learn 3D Gaussian Splatting, EST-3DGS)算法的性能。
研究团队选取了五个不同的场景进行实验,包括宽阔街景(39张图片)、带有建筑的街景(215张图片)、建筑物近景(135张图片)、草坪近景(77张图片)以及山林远景(94张图片)。这些场景涵盖了从简单到复杂的多种纹理和光照条件,能够全面评估算法的性能。
实验数据处理在搭载Intel Xeon Gold 6248R CPU和NVIDIA GeForce RTX 3090的工作站上完成。研究团队使用峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似度(LPIPS)三个指标对渲染质量进行定量评估。此外,还通过定性评估比较了不同算法在视觉效果上的差异。
在五个实验场景中,EST-3DGS算法相较于传统3DGS方法展现了显著的优势。例如,在场景1中,传统3DGS在渲染路灯颜色时出现了明显的色彩偏差,而EST-3DGS能够更准确地表示路灯的颜色。在场景2和场景5中,传统3DGS表现出针状伪影和纹理缺失的问题,而EST-3DGS通过引入亚像素约束有效减少了这些问题。此外,在场景3中,EST-3DGS能够更完整地还原玻璃材质的镜面反射信息,体现了其在处理高反光材质方面的优越性。
定量评估结果显示,EST-3DGS算法在PSNR、SSIM和LPIPS三个指标上均显著优于传统3DGS方法。具体而言,PSNR指标平均提高了7.81%,SSIM指标平均提升了4.31%,LPIPS指标平均降低了38.35%。这些数据表明,EST-3DGS算法在图像重建质量和视觉场景构建任务中具有显著优势。
尽管EST-3DGS算法的训练时间略有增加(平均延长约20%),但其渲染质量得到了显著改善。在关闭垂直同步的条件下,EST-3DGS的渲染帧率虽略低于传统3DGS,但仍能满足机器人视觉信息感知的速率要求。因此,该算法实现了渲染效率和质量的有效平衡。
本研究提出的EST-3DGS算法通过引入Real-ESRGAN和亚像素约束,显著改善了传统3DGS在低分辨率输入时出现的颜色渲染错误、针状伪影以及纹理信息缺失等问题。该算法不仅在图像重建质量上取得了显著提升,还为机器人视觉信息感知提供了新的技术支持。未来,研究团队计划进一步优化算法的实时性能,以推动其在工业化和自动化领域的应用。
研究团队还通过消融实验评估了Real-ESRGAN和亚像素约束的独立贡献。结果表明,这两种方法在提升图像重建质量和优化高斯致密化效果方面均发挥了重要作用。