IEEE Robotics and Automation Letters》于2020年6月接受了题为《Cross-View Semantic Segmentation for Sensing Surroundings》的研究文章,主要研究成员包括Bowen Pan, Jiankai Sun, Ho Yin Tiga Leung, Alex Andonian,以及Bolei Zhou。Bowen Pan和Alex Andonian来自美国麻省理工学院的Computer Science and Artificial Intelligence Laboratory,而Jiankai Sun, Ho Yin Tiga Leung和Bolei Zhou则隶属于香港中文大学信息工程系。
随着在语义理解领域的技术进步,例如语义分割已被应用于多个自动化领域,如自动驾驶。然而,现有语义分割网络主要专注于从单视角图像中提取语义内容,存在较大的局限性。机器人在未知环境中需要感知周围空间配置以实现自由导航,仅通过单一视角的语义分割,并不能提供足够的空间信息。为解决这一问题,本研究提出了一种新的视觉任务“Cross-View Semantic Segmentation(跨视角语义分割)”,旨在从多个第一视角(First-View)输入推断出自上而下视角(Top-Down View)的语义地图,以像素级别显示物体的空间分布和自由空间。
然而,生成自上而下视角的语义标注数据面临困难,基于真实世界的数据标注成本极高。研究为此通过在3D仿真环境中训练模型,并结合领域自适应技术将模型迁移至真实世界数据,以克服这一挑战。
研究的主要目标包括: 1. 提出一种新的视觉任务Cross-View Semantic Segmentation,帮助机器人灵活感知周围环境。 2. 提出一个名为View Parsing Network (VPN)的新型框架,用于从多角度和多模态的第一视角观察中聚合特征,并输出自上而下的语义地图。 3. 使用领域自适应技术,将在仿真环境中训练的VPN模型迁移至真实世界场景。
研究包括以下几个关键步骤:
Cross-View Semantic Segmentation的目标是:输入为多个从不同角度和模态采集的第一视角观测,输出为自上而下视角的语义地图。这种语义地图标注了各像素的语义分类,如椅子、地板、墙等。输入图像可以涵盖多种模态,包括RGB图像、深度图和语义标注。
VPN设计为两阶段结构: 第一阶段:通过仿真环境中的多视角和多模态数据来训练模型。输入的第一视角观测通过多个编码器提取出特征图,然后这些特征图被传递到新设计的View Transformer Module (VTM)中。VTM包括View Relation Module (VRM)和View Fusion Module (VFM),VRM用于学习第一视角与自上而下视角之间的像素依赖关系,而VFM则将所有视角的特征地图进行融合。最后通过解码器生成自上而下语义地图。 第二阶段:将模型从仿真环境迁移至真实世界数据中。研究改进了现有的领域自适应算法,以适应跨视角语义分割任务,包括像素级自适应和输出空间自适应。
研究使用了三种数据集: - House3D Cross-View Dataset:室内场景数据,包含143k训练集和20k验证集样本。 - CARLA Cross-View Dataset:户外驾驶场景数据,包含28,000对图像及其标注。 - Nuscenes Dataset:真实世界数据,每个样本包含6个方向的RGB图像,用于无监督训练和评价。
实验衡量模型性能的指标为像素精度(Pixel Accuracy)和平均交并比(Mean IoU),并将VPN与3D几何方法及现有的跨视角生成算法进行比较。
研究提出的VTM模块是VPN的重要组成部分,专为解决标准语义分割网络在跨视角任务中的限制而设计。实验表明,在模型融合多个视角时,VTM相比传统的解码器架构表现更优。此外,VPN中的Sim-to-Real适配流程包括两部分:通过语义标注作风格迁移的像素级适配,以及基于输出空间的对抗式训练,提高了模型从仿真数据到真实数据的泛化能力。
实验结果表明:VPN在House3D数据集中以4视角Depth-Semantic模型为例,获得了86.2%的像素精度和43.6%的平均交并比,极大优于基线方法。在CARLA数据集上表现类似,在领域适配后,模型在Nuscenes数据集中实现了78.8%的像素精度和31.9%的平均交并比。此外,研究还验证了VPN对真实机器人场景的鲁棒性,例如Locobot中的语义导航实验,机器人能够从初始位置出发,通过解析RGB输入生成语义地图并规划路径。
研究最终得出以下结论: 1. VPN框架能够有效融合多视角和多模态信息,生成轻量化且高效的自上而下视角语义地图。 2. 尽管未使用真实标注数据,VPN通过领域自适应技术成功迁移至真实场景。 3. 跨视角语义分割任务对传统3D重建方法是一种计算更高效的替代方案,特别适用于物体高度信息不重要的应用场景。
这项研究具有重要的学术和实际意义。学术价值上,研究提出了新的任务和框架,为机器视觉和机器人环境感知领域拓展了思路。应用价值上,VPN框架可在自动驾驶、室内导航和移动机器人等场景发挥作用,可用较低计算成本实现环境感知。
以上内容详细介绍了该研究的背景、方法、实验及结果,希望对从事相关领域工作的研究者有所启发。