分享自:

跨视角语义分割用于感知环境

期刊:IEEE Robotics and Automation LettersDOI:10.1109/LRA.2020.3001045

IEEE Robotics and Automation Letters》于2020年6月接受了题为《Cross-View Semantic Segmentation for Sensing Surroundings》的研究文章,主要研究成员包括Bowen Pan, Jiankai Sun, Ho Yin Tiga Leung, Alex Andonian,以及Bolei Zhou。Bowen Pan和Alex Andonian来自美国麻省理工学院的Computer Science and Artificial Intelligence Laboratory,而Jiankai Sun, Ho Yin Tiga Leung和Bolei Zhou则隶属于香港中文大学信息工程系。

研究背景

随着在语义理解领域的技术进步,例如语义分割已被应用于多个自动化领域,如自动驾驶。然而,现有语义分割网络主要专注于从单视角图像中提取语义内容,存在较大的局限性。机器人在未知环境中需要感知周围空间配置以实现自由导航,仅通过单一视角的语义分割,并不能提供足够的空间信息。为解决这一问题,本研究提出了一种新的视觉任务“Cross-View Semantic Segmentation(跨视角语义分割)”,旨在从多个第一视角(First-View)输入推断出自上而下视角(Top-Down View)的语义地图,以像素级别显示物体的空间分布和自由空间。

然而,生成自上而下视角的语义标注数据面临困难,基于真实世界的数据标注成本极高。研究为此通过在3D仿真环境中训练模型,并结合领域自适应技术将模型迁移至真实世界数据,以克服这一挑战。

研究目标

研究的主要目标包括: 1. 提出一种新的视觉任务Cross-View Semantic Segmentation,帮助机器人灵活感知周围环境。 2. 提出一个名为View Parsing Network (VPN)的新型框架,用于从多角度和多模态的第一视角观察中聚合特征,并输出自上而下的语义地图。 3. 使用领域自适应技术,将在仿真环境中训练的VPN模型迁移至真实世界场景。

研究流程与技术细节

研究包括以下几个关键步骤:

1. 问题定义

Cross-View Semantic Segmentation的目标是:输入为多个从不同角度和模态采集的第一视角观测,输出为自上而下视角的语义地图。这种语义地图标注了各像素的语义分类,如椅子、地板、墙等。输入图像可以涵盖多种模态,包括RGB图像、深度图和语义标注。

2. VPN框架设计

VPN设计为两阶段结构: 第一阶段:通过仿真环境中的多视角和多模态数据来训练模型。输入的第一视角观测通过多个编码器提取出特征图,然后这些特征图被传递到新设计的View Transformer Module (VTM)中。VTM包括View Relation Module (VRM)和View Fusion Module (VFM),VRM用于学习第一视角与自上而下视角之间的像素依赖关系,而VFM则将所有视角的特征地图进行融合。最后通过解码器生成自上而下语义地图。 第二阶段:将模型从仿真环境迁移至真实世界数据中。研究改进了现有的领域自适应算法,以适应跨视角语义分割任务,包括像素级自适应和输出空间自适应。

3. 数据集与实验

研究使用了三种数据集: - House3D Cross-View Dataset:室内场景数据,包含143k训练集和20k验证集样本。 - CARLA Cross-View Dataset:户外驾驶场景数据,包含28,000对图像及其标注。 - Nuscenes Dataset:真实世界数据,每个样本包含6个方向的RGB图像,用于无监督训练和评价。

实验衡量模型性能的指标为像素精度(Pixel Accuracy)和平均交并比(Mean IoU),并将VPN与3D几何方法及现有的跨视角生成算法进行比较。

4. 新技术和创新点

研究提出的VTM模块是VPN的重要组成部分,专为解决标准语义分割网络在跨视角任务中的限制而设计。实验表明,在模型融合多个视角时,VTM相比传统的解码器架构表现更优。此外,VPN中的Sim-to-Real适配流程包括两部分:通过语义标注作风格迁移的像素级适配,以及基于输出空间的对抗式训练,提高了模型从仿真数据到真实数据的泛化能力。

5. 模拟与真实场景实验

实验结果表明:VPN在House3D数据集中以4视角Depth-Semantic模型为例,获得了86.2%的像素精度和43.6%的平均交并比,极大优于基线方法。在CARLA数据集上表现类似,在领域适配后,模型在Nuscenes数据集中实现了78.8%的像素精度和31.9%的平均交并比。此外,研究还验证了VPN对真实机器人场景的鲁棒性,例如Locobot中的语义导航实验,机器人能够从初始位置出发,通过解析RGB输入生成语义地图并规划路径。

核心结论与学术价值

研究最终得出以下结论: 1. VPN框架能够有效融合多视角和多模态信息,生成轻量化且高效的自上而下视角语义地图。 2. 尽管未使用真实标注数据,VPN通过领域自适应技术成功迁移至真实场景。 3. 跨视角语义分割任务对传统3D重建方法是一种计算更高效的替代方案,特别适用于物体高度信息不重要的应用场景。

意义与前景

这项研究具有重要的学术和实际意义。学术价值上,研究提出了新的任务和框架,为机器视觉和机器人环境感知领域拓展了思路。应用价值上,VPN框架可在自动驾驶、室内导航和移动机器人等场景发挥作用,可用较低计算成本实现环境感知。

亮点

  1. 提出了全新视觉任务Cross-View Semantic Segmentation。
  2. VPN框架创新性地解决了多视角信息融合与表示问题。
  3. 成功实施了跨领域适配技术,使模型从仿真环境到真实场景的迁移成为可能。
  4. 在真实世界机器人任务中展现了实际应用潜力。

以上内容详细介绍了该研究的背景、方法、实验及结果,希望对从事相关领域工作的研究者有所启发。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com