分享自:

基于扩展卡尔曼滤波加速深度Q网络学习的自主导航算法及辅助安全模块研究

期刊:ETTDOI:10.1002/ett.4946

这篇文档发表在 Transactions on Emerging Telecommunications Technologies 期刊2024年2月的第35卷第2期,文章编号为e4946。文章主要作者为Carlos Daniel de Sousa Bezerra、Flávio Henrique Teles Vieira以及Anderson da Silva Soares,他们均来自巴西戈亚斯联邦大学。其中第一作者Carlos D. S. Bezerra的通讯单位为该校Instituto de Informática (INF)学院。

本研究的学术背景集中在人工智能与机器人学的交叉领域,具体关注自主移动机器人的导航控制。在人工智能和工业4.0时代,自主移动系统(包括自动驾驶汽车和移动机器人)的应用日益广泛,深刻影响着人类生活和经济模式。然而,实现精确、安全且不依赖于环境条件的自主驾驶策略是该领域面临的核心挑战。强化学习(Reinforcement Learning, RL)作为一种通过试错来学习最优策略的机器学习方法,尤其适合序列决策问题,如机器人导航。其中,深度Q网络(Deep Q-Networks, DQN)算法结合了深度神经网络与Q学习,在处理高维状态空间问题上表现出色,已被应用于多种自主系统场景。然而,强化学习的一个普遍问题是收敛速度慢,特别是在状态空间巨大时,需要大量的训练回合(episodes),这在需要快速学习或适应新环境(如路线变更、新增障碍物)的应用中是关键瓶颈。

另一方面,扩展卡尔曼滤波器(Extended Kalman Filter, EKF)是状态估计领域的经典算法,适用于非线性系统,能够基于传感器测量和系统动力学模型,对系统的未来状态进行预测,并处理传感器噪声。传统上,EKF被广泛应用于导航、定位和控制问题。本研究团队受到前人将卡尔曼滤波用于加速传统Q学习(一种表格化方法)的启发,旨在探索将EKF与现代的DQN算法相结合的可能性。

因此,本研究的主要目标是:针对自主移动机器人导航问题,提出一种新的控制算法(EKf-DQN),通过集成EKF来加速DQN的学习过程,从而更快、更精确地获得导航策略。此外,为了提高导航过程的安全性,研究还提出了一个基于ResNet50深度神经网络的视觉安全模块,用于检测环境中的人员以避免碰撞。具体的研究目标包括:1) 提出融合视觉与非视觉传感器、并结合EKF加速器的DQN导航控制算法;2) 为自主导航设计并评估一个合适的奖励函数;3) 提出并使用ResNet50构建移动机器人的人员检测安全模块;4) 将所提算法与文献中的其他算法进行性能比较。

本研究详细的工作流程基于计算机仿真展开,采用CoppeliaSim(原名V-REP)作为仿真平台,并在Python中实现控制代码。

研究工作流程详解

第一步:环境与机器人建模。 研究构建了一个包含多个障碍物和六个连续目标点(绿色和白色圆圈)的模拟环境,机器人需要穿越所有目标点并到达最终房间。使用的移动机器人模型是差分驱动的Pioneer 3DX。机器人配备了多种传感器:视觉传感器(RGB-D相机)用于感知环境和深度信息;非视觉传感器包括GPS(提供全局坐标)、编码器(里程计)和IMU(测量线速度和角速度)。这些传感器数据将被融合以提供给控制算法。此外,机器人的动作空间被定义为离散的左、右轮角速度组合(例如 (3, 3), (1.5, 1), (1, 1.5) rad/s)。

第二步:算法核心——EKf-DQN混合架构的设计与实现。 这是本研究最具创新性的环节。核心思想是利用EKF对机器人未来的非视觉传感器状态(位置、速度)进行一步或多步预测,并将这些预测状态提前输入到DQN的经验回放(replay buffer)中,从而加速学习。具体工作流程如下: 1. 状态定义与融合:机器人的状态由视觉和非视觉两部分组成。非视觉状态向量 Snv = [x, y, vl, ω],其中x, y来自GPS(或EKF估计),vl, ω来自IMU。视觉状态是通过一个定制的卷积神经网络(CNN)从RGB-D图像中提取的特征。这两部分特征在输入DQN网络之前,通过“晚期融合”(late fusion)策略进行拼接。 2. EKF状态预测器:针对差分机器人建立了非线性的状态空间模型(方程9)。在每一步,算法读取非视觉传感器的原始测量值,并运行EKF算法。EKF不仅提供当前状态的最优估计,更重要的是,它能基于系统动力学模型,预测出未来第 k+p 步的状态(研究中主要采用 p=1,即预测下一步状态 Sk+1)。这个预测状态 Sk+1 将作为“非视觉状态”输入到DQN网络中,代替或补充当前的测量状态。 3. 改进的DQN学习过程:算法1展示了完整的EKf-DQN流程。与传统DQN相比,关键修改在于贝尔曼更新方程。传统DQN使用未来观测状态 s’ 来更新Q值:Q(s,a) = r + γ max Q(s’, a’)。而在EKf-DQN中,作者提出使用EKF预测的未来状态 Sk+p 来更新:Q(s,a) = r + γ max Q(Sk+p, a)。这意味着智能体在评估当前动作的价值时,不仅考虑当前奖励和下一观测状态的潜在价值,还融入了基于模型预测的、更“超前”的未来状态信息。这被认为可以引导智能体更快地学习到长期有益的决策序列。预测的状态-动作对(Sk+1, sv, a, Sk+2, sv+1, r, done)被存储在经验回放中供网络训练采样。 4. 奖励函数设计:研究设计了一个专门的奖励函数来引导学习。奖励 r = (dist_{k-1} - dist_k) 如果机器人正在移动且未到达目标,这意味着距离目标越近奖励越大;如果发生碰撞,则奖励为 -1;如果成功到达一个目标点,则奖励为 +1。穿越所有六个目标并完成任务的累计奖励约为20+。

第三步:安全模块的开发与集成。 为了提升安全性,研究独立开发了一个基于监督学习的人员检测安全模块。该模块使用预训练的ResNet50卷积神经网络作为骨干,并针对人员检测任务进行了微调(fine-tuning)。训练数据结合了真实世界的RGB-D人员数据集和CoppeliaSim中生成的合成人员图像。为了解决ResNet50原生处理三通道RGB图像而RGB-D图像有四通道(RGB+深度)的问题,研究通过将深度通道映射为颜色强度,将其转换为三通道的“伪RGB”图像输入网络。安全模块被设置为具有最高优先级:当RGB-D相机输入图像经ResNet50计算,输出为“有人”(置信度>0.9)时,模块将覆盖EKf-DQN控制器的输出,直接向机器人执行器发送刹车指令,直到人员离开视野。

第四步:仿真实验与性能评估。 所有算法均在相同的CoppeliaSim环境中进行训练和测试。评估采用以下关键指标:平均奖励任务成功率(在一系列回合中成功完成导航任务的比率)。研究进行了多组对比实验:1)训练阶段对比:分别训练标准的DQN算法和提出的EKf-DQN算法(使用Sk+1预测),记录它们在300个训练回合中的奖励曲线和成功率。2)静态环境部署测试:训练完成后,固定网络权重,在静态(无移动人员)环境中多次运行训练好的EKf-DQN智能体,评估其性能。3)动态环境安全测试:在环境中加入随机移动的虚拟人员,分别测试不带安全模块和带安全模块的EKf-DQN控制器的表现。4)与先进算法对比:还将EKf-DQN与Dueling Double DQN (D3QN)和 Advantage Actor-Critic (A2C)等其他强化学习算法进行了比较。

数据分析工作流程:主要通过绘制“奖励-回合数”曲线,并计算其滑动平均(如20回合滑动平均)来观察学习收敛趋势。通过多次独立运行(使用不同的随机种子)获取平均成功率等统计数据,并使用t检验来验证性能提升的统计显著性。对于安全模块,则通过记录其在模拟中的触发概率和任务完成情况来评估效果。

主要研究结果

关于学习加速(EKf-DQN vs. DQN): 仿真结果清晰地支持了研究假设。从奖励曲线图(图9,10,11)可以看出,虽然最终EKf-DQN和标准DQN都收敛到了相近的平均奖励水平(约25),但EKf-DQN的学习曲线上升得更快。特别是在训练早期(约第100回合),EKf-DQN的滑动平均奖励已达到约8,而标准DQN此时仅为约5。标准DQN需要到第200回合左右才能达到EKf-DQN在第100回合的水平,这表明EKF的引入将学习速度提高了大约一倍。成功率指标进一步证实了这一点:在三次独立训练测试中,EKf-DQN的平均成功率为16.55%,显著高于标准DQN的7.44%(表3)。t检验结果(t = -7.057, p ≈ 2.36e-9)强有力地拒绝了“两者性能无差异”的零假设,证实EKf-DQN的成功率在统计学上显著优于标准DQN,置信区间为(-11.69%, -6.53%)。

关于算法对比: 与Dueling Double DQN (D3QN)的对比显示,D3QN也取得了具有竞争力的性能(平均奖励9.30,成功率15.88%),略优于标准DQN但略逊于EKf-DQN。研究指出,EKf-DQN的优势在于其计算效率:D3QN需要更复杂的网络结构(分离价值流和优势流),而EKf-DQN保持了DQN的简洁架构,仅通过添加计算高效的EKF进行增强。而策略梯度方法A2C在本研究设定的导航问题上表现不佳,未被列入主要对比图表。

关于部署性能: 在静态环境部署测试中(表4),训练好的EKf-DQN智能体表现优异,在五次测试中平均成功率高达93.33%,平均奖励达到23.56,证明了所学策略的有效性和鲁棒性。图12展示了一次成功的导航轨迹,机器人顺利通过了所有目标点。

关于安全模块效能: 在动态环境测试中(表5),安全模块的作用至关重要。不带安全模块的EKf-DQN控制器,由于环境中移动人员的干扰,平均成功率大幅下降至24%,平均奖励仅为11.84。而集成了安全模块后,成功率跃升至72%,平均奖励提升至19.18。这意味着安全模块将任务成功率提升了约200%,有效避免了与行人的碰撞,保障了任务执行。图13展示了安全模块在模拟中激活的概率变化。

结论与意义

本研究得出明确结论:提出的EKf-DQN算法在自主移动机器人导航任务中,相对于传统的DQN算法,能够显著加速学习过程,并取得更高的成功率和平均奖励。EKF作为状态预测器,能够有效、准确地预测机器人未来状态,并将此信息融入DQN的经验回放和Q值更新中,从而更快地引导智能体找到最优或接近最优的导航策略。这一发现证实了研究初始的假设。

本研究的价值体现在以下几个方面: 1. 科学价值:提出了一种新颖的混合学习框架,成功地将经典的状态估计理论(卡尔曼滤波)与现代的深度强化学习相结合。这为加速强化学习收敛提供了一个新的思路,即利用环境或系统的内部模型(即使是不完美的模型)来提供额外的、前瞻性的学习信号,超越了纯粹依赖试错的经验积累模式。 2. 方法论贡献:详细阐述了将EKF集成到DQN中的具体技术路径,包括状态向量的定义、贝尔曼方程的修改、以及经验回放数据的组织方式,为后续相关研究提供了可复现的蓝本。 3. 应用价值:所开发的完整系统(EKf-DQN控制器 + ResNet50安全模块)为解决实际的自主机器人导航问题提供了一个高效、安全的解决方案。该方法特别适用于需要快速在线学习或适应动态变化环境的场景,如仓储物流、室内服务机器人等。 4. 工程实践意义:研究通过详细的仿真实验,验证了算法各组成部分的有效性,并提供了与多种基线算法的量化比较,具有很高的参考价值。同时,对传感器融合(视觉与非视觉)、奖励函数设计、安全模块集成等工程细节的探讨,对实际系统开发具有指导意义。

研究亮点

  1. 创新性的算法融合:将扩展卡尔曼滤波器(EKF)作为学习加速器与深度Q网络(DQN)进行杂交,提出EKf-DQN算法,这是本研究的核心创新点。该方法不是简单地将EKF用于传感器滤波,而是创造性地将其预测的未来状态用于引导RL的时序差分学习,加速策略收敛。
  2. 显著且经统计验证的性能提升:通过严谨的仿真实验和统计学t检验,证实了EKf-DQN在加速学习和提高任务成功率方面相对于标准DQN的显著优越性。数据支撑坚实可信。
  3. 完整且实用的系统架构:研究不仅关注核心控制算法,还构建了一个包含多传感器融合(RGB-D, GPS, IMU)和独立视觉安全模块的完整自主导航系统架构。这种对系统级安全性和实用性的考虑,提升了研究的完整度和应用潜力。
  4. 详尽的对比分析:研究不仅与基础算法对比,还与D3QN等更先进的RL算法进行了比较,客观地定位了所提方法的性能水平,并分析了其在计算复杂度上的潜在优势。
  5. 解决实际挑战:明确针对强化学习收敛慢这一实际挑战提出解决方案,并考虑了动态环境中的人员安全问题,使研究具有很强的现实指向性。

此外,研究还公开了演示视频,增加了工作的透明度和可验证性。作者在结论中也展望了未来的工作方向,包括硬件实现、探索在Dueling DQN等更高级架构中应用EKf加速的潜力、以及集成激光雷达(LiDAR)等多传感器以进一步提升系统性能,显示了持续研究的潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com