基于CBAM-ST-GCN的增强型深度强化学习移动机器人端到端视觉导航框架

分享自：
基于CBAM-ST-GCN的增强型深度强化学习移动机器人端到端视觉导航框架

期刊:Neural NetworksDOI:10.1016/j.neunet.2026.108622
关于“CBAM-ST-GCN：一种基于增强深度强化学习的端到端移动机器人视觉导航框架”的学术研究报告
第一， 研究基本信息
本研究由来自中国南京航空航天大学的Mingyang Xie, Wei Yu, Huanyu Jin, Wei Li 和 Xin Chen等人共同完成。研究论文《CBAM-ST-GCN: An enhanced DRL-based end-to-end visual navigation framework for mobile robot》发表于期刊《Neural Networks》，该卷刊于2026年（具体为第198卷，论文编号108622）。该文章于2025年7月19日收稿，历经修订后于2026年1月16日被正式接受，并于2026年1月20日在线发布。
第二， 研究学术背景
本研究属于机器人与人工智能交叉领域，具体聚焦于移动机器人的自主视觉导航技术。随着移动机器人在物流、智能制造、紧急救援等领域的广泛应用，对其在复杂动态环境中进行自主、可靠导航的能力提出了更高要求。当前，基于激光雷达的导航方案成本高昂且系统复杂，而深度相机提供了一种更具成本效益的紧凑替代方案，因此开发基于视觉的高可靠性导航策略至关重要。
现有的视觉导航方法主要分为基于规则的方法和基于学习的方法。基于深度强化学习（Deep Reinforcement Learning， DRL）的端到端策略因其能够将原始传感器数据直接映射为控制指令，具有高适应性和对人工规则依赖少的优点，被视为一种有前景的解决方案。然而，在高维视觉输入和动态障碍物引入的环境非平稳性双重挑战下，传统的DRL方法面临着策略学习收敛困难、训练不稳定以及在动态环境中碰撞风险高的问题。具体挑战包括：1) 视觉输入的高维度减缓了训练进程和收敛速度；2) 动态环境中的高碰撞可能性。
基于上述背景，本研究旨在解决现有DRL视觉导航策略的瓶颈，其核心目标是：提出一种增强的端到端视觉导航框架，通过引入创新的注意力机制和时空图建模方法，显著提升算法在动态环境中的收敛速度、导航成功率和避障能力。
第三， 研究详细工作流程
本研究提出了一种名为CBAM-ST-GCN的新型DRL框架。整体工作流程可以概括为：系统输入模块负责处理原始传感器数据；感知模块通过两个核心组件——卷积块注意力模块（Convolutional Block Attention Module， CBAM）和时空图卷积网络（Spatio-Temporal Graph Convolutional Network， ST-GCN）——来增强对视觉信息和动态障碍物运动特征的提取与表征；交互模块则基于软演员-评论家（Soft Actor-Critic， SAC）算法训练策略网络与价值网络，实现与环境的交互并生成最终的动作决策。具体流程详述如下：
1. 问题建模与观察空间设计： 研究者将移动机器人在有限视野深度相机下的导航问题建模为一个部分可观测马尔可夫决策过程（Partially Observable Markov Decision Process， POMDP）。观察空间被精心设计为四部分组合：连续三帧的深度图像历史序列（用于捕捉视觉场景变化）、连续三帧的动态障碍物图历史（用于建模障碍物时空关系）、机器人相对于目标的极坐标位置以及机器人自身的状态（线速度、角速度和航向角）。其中，动态障碍物被编码为图结构：节点代表机器人自身及感知范围内的所有动态障碍物（包含位置和航向角信息），边表示节点间的关系，这种表示方法为后续的图神经网络处理奠定了基础。
2. 算法核心模块： * 注意力增强的视觉特征编码（CBAM模块）： 为了应对高维视觉输入导致的收敛慢问题，研究者引入了CBAM模块。该模块对连续的深度图像帧进行处理，包含时间注意力和空间注意力两个子模块。时间注意力模块计算并赋予不同时间帧以不同的权重，使模型关注对当前决策更关键的历史时刻。空间注意力模块则为图像中的每个空间区域（像素）分配权重，引导模型聚焦于对导航和避障至关重要的区域（如障碍物边缘、可通行区域）。通过这种时空双重注意力机制，模型能够更高效地提取任务相关特征，从而加速训练收敛。 * 动态障碍物表征块（ST-GCN模块）： 为了有效处理动态障碍物并预测其行为，研究者设计了ST-GCN模块。该模块以前述构建的障碍物图为输入。首先，在空间维度上，使用图卷积网络（GCN）进行特征传播与聚合。研究者构建了一个星形图，将机器人节点作为中心节点，与所有观测到的动态障碍物节点相连，通过定义的邻接矩阵实现机器人与其周围障碍物间的信息交互。经过多层空间图卷积后，每个节点的特征都聚合了其邻居（即其他障碍物和机器人）的信息。随后，在时间维度上，对连续时间步的图特征进行时间卷积，从而融合时空信息，最终输出一个富含时空耦合信息的节点特征表示，其中机器人中心节点的特征将被用于最终的动作决策。 * 基于速度障碍物（Velocity Obstacle， VO）的奖励函数设计： 为了在动态环境中主动、安全地避障，研究者创新地将速度障碍物概念融入DRL的奖励函数中。除了常规的到达目标奖励、静止惩罚和碰撞惩罚外，他们引入了一个“方向性惩罚项”。该机制通过计算机器人与每个动态障碍物的相对速度方向，判断其是否落入“碰撞锥”（Collision Cone）内。如果相对速度方向指向可能发生碰撞的区域，则根据距离给予惩罚，距离越近或方向越危险，惩罚越大。这使得机器人能够在发生物理碰撞之前，就预测并避免那些可能导致碰撞的速度指令，从而学习到更保守、更安全的避障策略。
3. 训练流程与实验设置： 研究采用SAC算法进行训练，因其具有良好的探索性和训练稳定性。训练过程采用了课程学习（Curriculum Learning）策略，分为两个阶段：第一阶段在障碍物稀疏的环境中进行训练；第二阶段在模型基础上，增加静态和动态障碍物的密度，在更复杂的环境中进行训练，以提升模型的鲁棒性。
仿真实验在Gazebo平台上构建了四种不同复杂度的场景：行人环境、稀疏动态环境、中等密度动态环境和高密度动态环境。使用的机器人模型为TurtleBot3，配备RealSense D435i深度相机。训练硬件包括高性能CPU、GPU和大内存。研究设置了详细的训练参数（如批大小、学习率、折扣因子等）和奖励函数权重。
第四， 研究主要结果
研究通过大量的仿真对比实验和消融实验，全面验证了所提CBAM-ST-GCN框架的有效性。
1. 综合性能对比： 在四种测试环境中，将CBAM-ST-GCN与多种基线方法进行了比较，包括传统路径规划算法（Fast Planner）、元启发式算法（BAS）、经典DRL算法（DDQN）、改进的DRL算法（TD3）、基于视觉Transformer（ViT）的DRL算法以及不包含VO惩罚项的CBAM-ST-GCN变体（CBAM-ST-GCN(NV)）。评估指标包括成功率、平均任务时间、平均路径长度和平均速度。
成功率： CBAM-ST-GCN在所有环境中均取得了最高的成功率。特别是在最具挑战性的高密度动态环境中，其成功率达到了72%，显著高于其他所有方法（ViT为38%，BAS为34%，Fast Planner仅为21%，而DDQN和TD3甚至无法收敛）。这证明了该框架在高度动态场景下的强大鲁棒性。
路径与速度分析： 与CBAM-ST-GCN(NV)相比，完整的CBAM-ST-GCN虽然平均路径长度略有增加，但成功率大幅提升（例如在中等密度环境中从71%提升至83%），且平均速度基本保持不变。这表明引入VO惩罚项使机器人采取了更安全、保守的避障策略，以稍长的路径换取了显著更高的任务可靠性，并未牺牲效率。
轨迹可视化分析： 在行人环境中的轨迹对比显示，传统方法（Fast Planner）路径直接但易导致重规划和运动不稳定；一些DRL方法（DDQN， ViT）倾向于直冲目标，忽视动态因素导致碰撞；CBAM-ST-GCN(NV)能保持与障碍物的距离，但在密集动态环境中决策仍有风险；而完整的CBAM-ST-GCN则能生成更平滑、适应性强且安全的轨迹，主动规避潜在碰撞区域。
2. 消融实验分析： * 收敛性分析： 训练回报曲线显示，引入CBAM模块能显著加速早期收敛速度并提高最终回报值；引入ST-GCN模块虽未明显加速收敛，但能提升最终回报性能，表明其对障碍物运动特征的提取提升了决策质量；而结合了CBAM和ST-GCN的完整模型在收敛速度和最终性能上均优于基线。可视化注意力热图证实，CBAM能有效引导模型关注静态/动态障碍物的形状特征以及对未来导航关键的空间区域。 * 模块贡献量化： 在行人环境中测试表明，单独使用CBAM可使成功率相比纯CNN基线提升9%；单独使用ST-GCN可提升11%；两者结合（CBAM-ST-GCN(NV)）可进一步提升至84%，证明了两个模块在视觉特征提取和时空推理方面的互补效益。 * 实时性能评估： 在车载计算平台（NVIDIA Jetson Xavier NX）上测量了各模块的推理时间和参数量。CBAM和ST-GCN的引入仅带来了微小的参数量增加和延迟（从CNN的25ms增加到29ms），完全满足实时性要求。而基于ViT的模块则带来了巨大的计算开销和延迟（214ms），说明其不适合实时部署，凸显了本文所提轻量级设计的优势。
3. 实物实验验证： 研究进一步在真实世界环境中进行了验证，设计了移动方块和移动行人两种动态场景。实验采用TurtleBot3机器人，使用动作捕捉系统获取动态障碍物信息。结果表明，所提算法能使机器人在面对动态障碍物时实时调整速度和方向，成功避免碰撞并到达目标。机器人保持了稳定的前进速度（0.2-0.3 m/s），主要通过调整角速度进行转向，并在必要时减速，成功平衡了安全性与效率。
第五， 研究结论与价值
本研究成功提出并验证了一种名为CBAM-ST-GCN的增强型DRL端到端视觉导航框架。该框架通过集成CBAM注意力机制和ST-GCN时空图卷积网络，并设计融合速度障碍物概念的奖励函数，有效解决了动态环境下移动机器人视觉导航的收敛慢、避障难问题。
其科学价值在于：1) 为DRL在部分可观测动态环境中的应用提供了一种结合注意力机制与图神经网络的创新架构范式；2) 将速度障碍物这一经典运动规划概念创造性地转化为DRL中的奖励塑造项，为结合经典控制理论与深度学习方法提供了新思路；3) 通过详尽的消融实验和对比分析，清晰地揭示了各模块（CBAM， ST-GCN， VO奖励）对最终性能的具体贡献及其内在机理。
其应用价值在于：所提框架在仿真和实物实验中均展现出更高的导航成功率、更快的收敛速度以及出色的动态避障能力，且模型轻量、满足实时性要求，为移动机器人在物流仓库、公共服务、智能工厂等真实动态场景中的安全、可靠部署提供了切实可行的技术方案。
第六， 研究亮点
方法创新性： 本研究的核心亮点在于提出了一个融合了卷积注意力模块（CBAM）、时空图卷积网络（ST-GCN）和速度障碍物（VO）奖励的综合性增强框架。这不是简单的模块堆砌，而是针对视觉导航中“感知-表征-决策”链条的痛点进行的系统性设计。
有效的性能提升： 通过大量实验证实，该框架在动态环境中的导航成功率（尤其在复杂环境下）显著优于多种前沿对比方法，并且训练收敛速度更快。
轻量化与实时性： 相比于同样引入注意力机制但计算复杂的ViT模型，本研究所用的CBAM-ST-GCN结构在保证性能大幅提升的同时，仅增加了极小的计算开销，证明了其在资源受限的嵌入式平台上实际应用的潜力。
理论结合实践： 将传统机器人学中成熟的速度障碍物（VO）理论融入DRL的奖励函数设计中，是一种巧妙的跨领域结合，使数据驱动的学习过程具备了基于模型的安全引导，提升了避障行为的可解释性和安全性。
第七， 其他有价值内容
研究者坦率地指出了当前工作的一个局限性：在实物实验中，动态障碍物的位置和速度信息依赖于外部的光学动作捕捉系统，这限制了框架在完全自主（仅依赖机载传感器）场景中的普适性。为此，他们在未来工作展望中明确指出，将致力于集成基于视觉的动态障碍物检测算法，以实时获取障碍物运动信息，从而使该框架能够应用于更广泛的、无外部辅助设备的真实动态环境。这表明本研究是一个持续研究计划中的重要一环，并为后续技术发展指明了方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问