RMS-FlowNet++: 高效且稳健的大规模点云多尺度场景流估计

分享自：
RMS-FlowNet++: 高效且稳健的大规模点云多尺度场景流估计

期刊:international journal of computer visionDOI:10.1007/s11263-024-02093-9
关于《RMS-FlowNet++: Efficient and Robust Multi-Scale Scene Flow Estimation for Large-Scale Point Clouds》的学术报告第一部分：作者与发表信息本文是由Ramy Battrawy、René Schuster和Didier Stricker所撰写，作者均隶属于德国人工智能研究中心（German Research Center for Artificial Intelligence, DFKI）增强视觉（Augmented Vision）团队。本文发表于International Journal of Computer Vision，文章标题为《RMS-FlowNet++: Efficient and Robust Multi-Scale Scene Flow Estimation for Large-Scale Point Clouds》。文章于2024年5月23日在线发表，DOI为10.1007/s11263-024-02093-9。
第二部分：研究背景与研究目的学术背景
 动态环境的鲁棒感知是许多实际应用的重要基础任务，如自动驾驶、机器人导航、增强现实以及人机交互系统等。场景流（Scene Flow）是指估算两个连续3D场景之间的点位移向量，将场景中的点表示为一个稠密或半稠密的3D运动场。场景流能够为高阶计算机视觉任务（如物体跟踪、视觉里程计、动作识别等）提供关键支持。此外，已知摄像头内参数时，3D场景流还可投影至图像平面，生成基于像素坐标的光流（Optical Flow）。
近年来，尽管许多方法尝试通过立体图像序列联合几何重建与光流估算来获得稠密的场景流，但这种方法的精度强烈依赖于图像质量，低光照条件下表现较差。相比之下，激光雷达（LiDAR）传感器能以点云（Point Cloud）形式准确捕捉3D几何结构，且对光照条件不敏感，因此直接从3D点云中估算场景流的研究逐渐兴起。
然而，点云的不规则性、稀疏性及其点密度变化使其在处理和寻找3D空间中点的对应关系时具有显著挑战。现有方法或依赖中间表示（如点云投影到格点、体素化等），但这些方法常带来离散化伪影及信息丢失；或直接利用原始点云，通过深度神经网络与学习算法估算场景流。尽管近年来的研究在精度上不断提升，但需要付出的运行时间和计算代价也显著增加。
研究目的
 针对现有方法在高精度与高效性上的平衡困难，以及在应对超大点云时的准确性和内存需求问题，本文提出了一种新的端到端学习体系结构——RMS-FlowNet++。该方法旨在通过更有效的层次式场景流估算和随机采样（Random Sampling, RS），在实现高精度的同时显著降低内存消耗与运行时间，并支持高达25万点的超大规模点云场景。
第三部分：研究流程与方法1. 功能模块与网络架构设计
 RMS-FlowNet++的架构由以下模块组成： - 特征提取模块： 以RandLA-Net（Hu等, 2020）的特征聚合层为基础，多层次计算从点云的精细到粗略分辨率的特征集。在设计上，改进了RMS-FlowNet的特征提取部分，去除了解码器模块（Decoder），仅保留编码器模块，从而提高效率。该模块通过K近邻搜索（KNN）提取局部特征，对ft3ds数据集的输入点分辨率控制在8192。 - 流嵌入模块（Flow Embedding）： 这是核心创新部分。与现有方法使用最远点采样（Farthest Point Sampling, FPS）不同，本文利用随机采样（RS）结合一种新设计的“Patch-to-Dilated-Patch”流嵌入结构。流嵌入模块通过四个嵌入步骤从欧几里得空间与特征空间提取可靠的点对应关系，并采用残差连接（Residual Connection）与多层感知机（MLP）进一步增强流嵌入特征。 - 多尺度场景流预测： 通过三级流嵌入模块、两个变形层（Warping Layer）以及四个场景流估算器，层次化逐步预测多尺度场景流。最后，从高分辨率上采样到完整输入分辨率。 - 损失函数： 损失函数针对分层的场景流预测进行优化，并采用L2-范数联合四层不同分辨率的预测监督，逐步提升预测精度。
2. 数据预处理
 本文采用FlyingThings3D（Mayer等，2016）与KITTI场景流数据集（Menze和Geiger, 2015）进行实验。根据不同的预处理策略生成点云数据，包括消除遮挡点或保留遮挡点、随机降采样（如从25万稠密点取8192点）等。此外，数据增强策略包括几何增强（旋转和位移扰动）及动态重新采样，确保模型在ft3ds上的泛化性能，并能直接应用于真实数据集kittis。
第四部分：主要实验结果通过对比实验分析不同方法的表现，包括： 1. 精度：在多数据集上的EPE3D、ACC3DR等指标优于现有方法。如表明，对于ft3ds上的非遮挡点，本方法的EPE3D为0.029米，ACC3DR为98.10%；在KITTI数据集（非遮挡点）上，EPE3D仍达0.027米，ACC3DR为97.67%。 2. 泛化能力：与其他采用FPS的方法不同，RMS-FlowNet++训练中使用RS，在合理近邻数k（k=20）增强情况下，兼具高效性和鲁棒性，并能很好地适应FPS推理。 3. 对高密度点云的支持：相比竞争方法Bi-PointFlowNet（Cheng and Ko, 2022）和WM3D（Wang等, 2022），仅需较少内存，即可处理密度达22.5万点的场景流估算，且保持高精度。 4. 对遮挡点的鲁棒性：尽管模型是在非遮挡点上训练，RMS-FlowNet++对遮挡点泛化性能较优。譬如在ft3dso数据集上，ACC3DR亦可达94.78%。 5. 长距离精准度：对于丢弃超出35米远距离点的常规方法，本文进一步评估在更长距离（如210米）的场景流预测能力，结果表明，RMS-FlowNet++的预测精度显著优于WM3D和Bi-PointFlowNet。
第五部分：结论与研究意义科学意义 1. 新颖的“Patch-to-Dilated-Patch”流嵌入设计，解决了随机采样带来的低密度区域覆盖率不足问题； 2. 进一步优化流程，将复杂的流嵌入与特征提取操作整合到一个高效的分层框架中，降低耗时和内存占用； 3. 显示出直接从点云估算场景流在处理稠密大场景和泛化至真实数据场景上的优势。
应用价值 1. 为实际应用需求（如自动驾驶、增强现实或机器人场景感知）中高精度、高效率的大场景流估算提供解决方案； 2. 高密度点云场景模式上运行的能力为未来更多真实世界场景的应用铺平了道路。
第六部分：研究亮点与特色贡献随机采样方案的引入及其有效性验证，开辟了超稠密点云场景的应用可能；
在设计上显著增强了方法的可扩展性，与传统方法相比，在处理更多点或更稠密场景时效率大幅提升；
对遮挡点和长距离点支持良好，进一步提升了场景流估算模型的实用性。
第七部分：未来工作与展望未来，作者计划将RGB视觉信息与3D点云数据结合，同时加入传感器运动推断（Ego-Motion Estimation），以应对静态场景中的非纹理区域（如路面）的预测错误问题，进一步提高模型的广泛适用性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问