这篇文档属于类型a,即报告了一项原创性科学研究。以下是详细的学术报告:
浙江大学计算机科学与技术学院的Bo Yang、Qingao Chai、De Ma、Gang Pan和Huajin Tang,浙江实验室的Shibo Zhou和Chaohui Lin,以及浙江工业大学的Rui Yan共同合作,在2025年IEEE国际机器人与自动化会议(ICRA)上发表了一篇题为《HSRL: A Hierarchical Control System Based on Spiking Deep Reinforcement Learning for Robot Navigation》的研究论文。该研究提出了一种基于脉冲深度强化学习(Spiking Deep Reinforcement Learning, SDRL)的分层控制框架,旨在解决机器人在真实环境中的导航问题。
机器人导航技术的快速发展使得自主导航成为可能,但真实环境中的动态复杂性、机器人动作的动态可行性以及高能耗成为主要挑战。传统方法如同时定位与建图(SLAM)依赖于精确的几何地图,适应性不足,而深度强化学习(Deep Reinforcement Learning, DRL)在动态环境中表现出色,但仍面临仿真到现实的迁移(sim2real)、动态不可行动作和高能耗等问题。受生物神经系统的启发,脉冲神经网络(Spiking Neural Network, SNN)因其低能耗和抗噪声能力成为解决方案之一。
本研究的目标是设计一种分层控制框架,结合脉冲神经网络和连续吸引子神经网络(Continuous Attractor Neural Networks, CANNs),以提高机器人在动态环境中的导航性能和能源效率。
研究分为以下几个主要步骤:
研究团队提出了一个两层的分层控制框架: - 高层决策层:使用基于脉冲门控循环单元(Spiking GRU)的网络,处理部分可观测环境(Partially Observable Markov Decision Process, POMDP)并生成粗粒度动作指令。 - 低层执行层:采用CANN生成连续的动作序列,确保动作的平滑性和动态可行性。
系统的训练分为两个阶段:先独立训练高层网络,再联合训练高低层网络。
为了解决脉冲信号的信息丢失问题,研究采用了自适应群体编码(population coding)方法。具体流程如下: - 输入编码:机器人状态信息(如激光雷达数据、本体感受数据)通过高斯感受野编码为脉冲信号,生成高维数据后再通过泊松编码转换为时间序列脉冲。 - 解码:输出数据通过一维卷积操作解码,恢复为连续动作信号。
脉冲GRU层基于改进的GRU结构,采用泄漏积分发放(Leaky Integrate-and-Fire, LIF)神经元模型。其动态方程如下: - 电流衰减和膜电位计算确保脉冲的时序传递。 - 重置门和更新门通过脉冲神经元实现,增强了模型的记忆能力。
CANN通过外部输入(高层脉冲指令)生成动态吸引子,驱动神经“波峰”移动。其动态方程包含神经元时间常数、连接强度和全局抑制参数,确保动作连续性。
在包含动态障碍物和迷宫的仿真环境中,HSRL框架的表现优于基线模型(如DWA、SDDPG、Spiking GRU等),具体表现如下: - 成功率:HSRL在动态环境中的成功率显著高于其他模型(如0.79 vs. Spiking GRU的0.73)。 - 轨迹平滑性:CANN生成的连续动作避免了离散动作的突变,提升了机器人运动的稳定性。
在输入数据加入高斯噪声的测试中,HSRL表现出更强的鲁棒性。当噪声标准差达到0.6时,传统ANN-GRU模型失效,而HSRL仍能保持较高的导航成功率。
在实验室环境中,HSRL框架成功部署于Kobuki机器人,实现了高效避障和目标导航。其成功率和路径优化效果均优于对比模型。
研究将模型部署于Darwin3神经形态芯片,结果显示: - 能耗降低:与GPU平台相比,功耗减少51.4%。 - 实时性提升:计算延迟显著降低,验证了SNN在嵌入式设备中的潜力。
本研究提出的HSRL框架通过分层设计和脉冲神经网络,解决了机器人导航中的动态可行性、能耗和仿真到现实迁移问题。其科学价值体现在: 1. 方法论创新:首次将脉冲GRU与CANN结合,实现了分层动作生成。 2. 应用价值:在真实环境中展示了零样本迁移能力,为机器人导航提供了可扩展的方案。 3. 硬件兼容性:在神经形态芯片上的成功部署为低功耗机器人控制开辟了新途径。
研究还探讨了动态参数τ的调节机制,为机器人适应性控制提供了新思路。此外,群体编码方法的引入有效缓解了脉冲信号的信息损失问题,为SNN的应用提供了技术参考。
以上报告涵盖了研究的背景、方法、结果和意义,希望能够为相关领域的研究者提供全面的参考。