这篇题为《HSRL: A Hierarchical Control System Based on Spiking Deep Reinforcement Learning for Robot Navigation》的研究论文由来自浙江大学计算机科学与技术学院的Bo Yang、Qingao Chai、De Ma、Gang Pan和Huajin Tang,以及浙江实验室的Shibo Zhou和Chaohui Lin,浙江工业大学的Rui Yan共同完成,其中Huajin Tang为通讯作者。该研究已被2025年IEEE国际机器人与自动化会议(ICRA)接收,将于2025年5月19-23日在美国亚特兰大举行的大会上发表。
本研究属于机器人导航与人工智能交叉领域,特别是聚焦于脉冲神经网络(Spiking Neural Networks, SNNs)在自主移动机器人导航中的应用。随着机器人技术近年来的快速发展,轮式移动机器人因其简单高效的特点在自主导航领域占据重要地位。传统导航方法主要依赖同步定位与建图(SLAM)技术或基于深度强化学习(DRL)的方法,但这些方法在应对真实环境时面临三个主要挑战:仿真到现实(sim2real)的迁移问题、动态不可行的动作输出,以及神经网络推理的高能耗问题。
针对这些挑战,研究团队受生物神经系统启发,提出了一种新型分层控制框架HSRL(Hierarchical Spiking Reinforcement Learning),旨在实现机器人在真实复杂环境中的鲁棒导航。该研究的主要目标是开发一个能够同时解决动态可行性、能效优化和仿真到现实迁移问题的机器人导航系统。
研究采用了两层架构设计:高层决策层使用脉冲GRU网络(Spiking GRU)处理部分可观测环境,低层执行层则采用连续吸引子神经网络(CANNs, Continuous Attractor Neural Networks)生成精确连续的动作。这一分层结构允许系统在尊重机器人物理约束的前提下进行实时决策。
高层决策层的脉冲GRU网络引入了短期记忆能力,用于处理部分可观测马尔可夫决策过程(POMDP)问题。相比传统神经网络,这种基于脉冲的方法显著降低了能耗,同时增强了系统对噪声的鲁棒性,有助于缩小仿真与现实的差距。低层CANNs控制器将高层动作转化为精细、动态可行的控制命令。
为解决脉冲信号传输中的信息丢失问题,研究采用了自适应群体编码(adaptive population coding)方法提升关键数据(如本体感觉输入和低层特征)的维度。具体编码过程如图2所示:在训练阶段,代理接收本体感觉信息sother={s1,s2,s3,…,sh}和动态参数τ∈T。每个单元si∈sother∪T由一组神经元c编码,定义神经元数量为k。每个神经元c具有高斯感受野(μ,σ),这些是论文中的可训练参数。
群体编码公式为:e=exp(-1⁄2((s-μ)/σ)^2),其中e∈R^(h×k)是群体编码数据,h是输入数据的维度。之后将它们连接起来s=concat(e,sscan),并使用泊松编码方法获得输入z∈R^(h×k×t)给后续的脉冲层。
为了赋予代理记忆能力,研究中嵌入了一个脉冲GRU记忆层(图3所示)。网络还包括基于双态漏电积分激发(LIF)模型的脉冲MLP和脉冲卷积层。其动力学方程为:
ci(t) = dc·ci(t-1) + ∑j wijoj(t)
其中c表示突触电流,dc是电流衰减因子,oj是层j的脉冲输出,wij表示从层i到j的连接权重。膜电压惯量计算如下:
vl(t) = dv·vi(t-1) + ci(t), if vi(t-1) < vth oi(t) = 1 & vi(t) = 0, otherwise
脉冲GRU层是门控循环单元(GRU)网络的改良版本,通过维护在一个单元内穿越两个门的内部状态,使其能够在历史和时序上下文中处理数据。
吸引子网络是一种特殊的循环神经网络,能够根据外部刺激生成可调整的吸引子序列。研究采用一维连续吸引子网络,其动力学由以下方程描述:
τ du(x,t)/dt = -u(x,t) + ρ∫∞∞ j(x,x′)r(x′,t)dx′ - v(x,t) + iext(x,t) r(x,t) = u(x,t)^2 / [1 + kρ∫∞−∞ u(x′,t)^2 dx′]
其中,v(x,t)代表位置x中每个神经元的反馈抑制;τ和ρ分别表示神经元时间常数和神经元密度;k决定全局抑制强度;iext(x,t)代表高斯形式的输入。研究中用SNN的高层命令脉冲输出作为iext(x,t)输入到CANN,引导神经凸点的运动。
预训练的脉冲GRU和CANN模型可以直接连接(无需联合训练),但其性能可能不理想(如表2结果所示)。这种次优性可能源于高层决策网络对底层动作执行网络不熟悉,因此需要从头开始同时训练。这一联合训练过程分两个阶段进行:首先独立训练高层决策网络,然后联合训练高层和低层网络。
训练在Gazebo环境中进行(如图4所示),代理通过与环境的交互来优化其行为。使用梯度下降最小化批评网络的时序差分(TD)误差:
y = r + γq(s′,a′) TDerror = ((y - q(s,a)))
奖励函数设计鼓励代理朝向目标前进,同时避开静态和动态障碍物。
研究团队通过一系列实验验证了HSRL框架的有效性:
为进行比较评估,研究对比了以下方法(均使用相同输入): - 动态窗口方法(DWA):基于模型的导航算法 - SDDPG:使用脉冲MLP层的方法 - 脉冲GRU - 脉冲LSTM - ANN GRU - HSRL(无联合训练)
如图4所示,环境中有十个随机放置的静态障碍物和十个随机移动的动态障碍物。ANN GRU模型初期快速上升后相对高位收敛;相比之下,HSRL模型在前600次迭代和后续400次迭代中均呈现持续上升趋势。
研究设置了目标点、障碍物和机器人在一条直线上进行的实验(障碍物位于中间),收集了左右轮动作输出(每维0到1)的1000次试验数据。
在空间分布实验中,ANN GRU表现出均匀无偏差策略;SDDPG显示出强大的决策能力;脉冲GRU也将输出集中为分布形式,避免动作过度分散。而通过联合训练的HSRL模型在指定范围内产生值呈现平滑空间过渡。
在时间分布实验中,ANN GRU和SNN模型(SDDPG和脉冲GRU)生成离散输出值,而采用分层架构的HSRL模型产生连续值(如图5h所示)。使用连续神经网络输出不仅为保障代理平滑动作轨迹提供合理框架,还便于实时适应其变化动态。
实证评估在动态和迷宫样环境中进行(图6a-c)。如表2所示:
为评估不同导航模型对噪声输入响应的鲁棒性,在动态仿真设置中进行了一系列实验(图6a)。如图6(d-g)所示四个关键指标分析表明: - 随着噪声标准差增加,各模型性能预期受损 - ANN GRU性能迅速恶化,当噪声标准差达到0.6时机器人无法到达目标点 - 基于SNNs的模型(SDDPG、脉冲GRU和HSRL)展现出对噪声条件的优异适应性
在真实实验室环境中(图7a)评估了基于成功率、导航距离和时间消耗的性能。使用具有三个全向轮和360度激光雷达的Kobuki机器人进行实验,每个模型进行10次重复实验并平均结果。
ANN GRU模型在真实环境中的泛化性和鲁棒性表现不佳。相比之下,SNN模型有效解决了sim2real差距问题: - HSRL导航距离为25.2m(最优) - 成功率达到1.0(最优) - 时间消耗68.1s(最优)
Darwin3是由浙江大学开发的基于SNN的神经形态芯片,采用22纳米工艺制造,集成575个神经核心(每个4096个神经元和超过1000万突触)。HSRL模型被编译部署在Darwin3上,通过网口与主机通信向机器人发送运动命令。
性能指标(图8c)显示: - 与Xavier NX相比,功耗降低51.4% - 响应速度更快 - 成功率为1.0(最优) - 导航距离32.9m - 时间