基于扩展卡尔曼滤波加速深度Q网络学习的自主导航算法及辅助安全模块研究

分享自：
基于扩展卡尔曼滤波加速深度Q网络学习的自主导航算法及辅助安全模块研究

期刊:ETTDOI:10.1002/ett.4946
这篇文档发表在 Transactions on Emerging Telecommunications Technologies 期刊2024年2月的第35卷第2期，文章编号为e4946。文章主要作者为Carlos Daniel de Sousa Bezerra、Flávio Henrique Teles Vieira以及Anderson da Silva Soares，他们均来自巴西戈亚斯联邦大学。其中第一作者Carlos D. S. Bezerra的通讯单位为该校Instituto de Informática (INF)学院。
本研究的学术背景集中在人工智能与机器人学的交叉领域，具体关注自主移动机器人的导航控制。在人工智能和工业4.0时代，自主移动系统（包括自动驾驶汽车和移动机器人）的应用日益广泛，深刻影响着人类生活和经济模式。然而，实现精确、安全且不依赖于环境条件的自主驾驶策略是该领域面临的核心挑战。强化学习（Reinforcement Learning, RL）作为一种通过试错来学习最优策略的机器学习方法，尤其适合序列决策问题，如机器人导航。其中，深度Q网络（Deep Q-Networks, DQN）算法结合了深度神经网络与Q学习，在处理高维状态空间问题上表现出色，已被应用于多种自主系统场景。然而，强化学习的一个普遍问题是收敛速度慢，特别是在状态空间巨大时，需要大量的训练回合（episodes），这在需要快速学习或适应新环境（如路线变更、新增障碍物）的应用中是关键瓶颈。
另一方面，扩展卡尔曼滤波器（Extended Kalman Filter, EKF）是状态估计领域的经典算法，适用于非线性系统，能够基于传感器测量和系统动力学模型，对系统的未来状态进行预测，并处理传感器噪声。传统上，EKF被广泛应用于导航、定位和控制问题。本研究团队受到前人将卡尔曼滤波用于加速传统Q学习（一种表格化方法）的启发，旨在探索将EKF与现代的DQN算法相结合的可能性。
因此，本研究的主要目标是：针对自主移动机器人导航问题，提出一种新的控制算法（EKf-DQN），通过集成EKF来加速DQN的学习过程，从而更快、更精确地获得导航策略。此外，为了提高导航过程的安全性，研究还提出了一个基于ResNet50深度神经网络的视觉安全模块，用于检测环境中的人员以避免碰撞。具体的研究目标包括：1) 提出融合视觉与非视觉传感器、并结合EKF加速器的DQN导航控制算法；2) 为自主导航设计并评估一个合适的奖励函数；3) 提出并使用ResNet50构建移动机器人的人员检测安全模块；4) 将所提算法与文献中的其他算法进行性能比较。
本研究详细的工作流程基于计算机仿真展开，采用CoppeliaSim（原名V-REP）作为仿真平台，并在Python中实现控制代码。
研究工作流程详解
第一步：环境与机器人建模。 研究构建了一个包含多个障碍物和六个连续目标点（绿色和白色圆圈）的模拟环境，机器人需要穿越所有目标点并到达最终房间。使用的移动机器人模型是差分驱动的Pioneer 3DX。机器人配备了多种传感器：视觉传感器（RGB-D相机）用于感知环境和深度信息；非视觉传感器包括GPS（提供全局坐标）、编码器（里程计）和IMU（测量线速度和角速度）。这些传感器数据将被融合以提供给控制算法。此外，机器人的动作空间被定义为离散的左、右轮角速度组合（例如 (3, 3), (1.5, 1), (1, 1.5) rad/s）。
第二步：算法核心——EKf-DQN混合架构的设计与实现。 这是本研究最具创新性的环节。核心思想是利用EKF对机器人未来的非视觉传感器状态（位置、速度）进行一步或多步预测，并将这些预测状态提前输入到DQN的经验回放（replay buffer）中，从而加速学习。具体工作流程如下： 1. 状态定义与融合：机器人的状态由视觉和非视觉两部分组成。非视觉状态向量 Snv = [x, y, vl, ω]，其中x, y来自GPS（或EKF估计），vl, ω来自IMU。视觉状态是通过一个定制的卷积神经网络（CNN）从RGB-D图像中提取的特征。这两部分特征在输入DQN网络之前，通过“晚期融合”（late fusion）策略进行拼接。 2. EKF状态预测器：针对差分机器人建立了非线性的状态空间模型（方程9）。在每一步，算法读取非视觉传感器的原始测量值，并运行EKF算法。EKF不仅提供当前状态的最优估计，更重要的是，它能基于系统动力学模型，预测出未来第 k+p 步的状态（研究中主要采用 p=1，即预测下一步状态 Sk+1）。这个预测状态 Sk+1 将作为“非视觉状态”输入到DQN网络中，代替或补充当前的测量状态。 3. 改进的DQN学习过程：算法1展示了完整的EKf-DQN流程。与传统DQN相比，关键修改在于贝尔曼更新方程。传统DQN使用未来观测状态 s’ 来更新Q值：Q(s,a) = r + γ max Q(s’, a’)。而在EKf-DQN中，作者提出使用EKF预测的未来状态 Sk+p 来更新：Q(s,a) = r + γ max Q(Sk+p, a)。这意味着智能体在评估当前动作的价值时，不仅考虑当前奖励和下一观测状态的潜在价值，还融入了基于模型预测的、更“超前”的未来状态信息。这被认为可以引导智能体更快地学习到长期有益的决策序列。预测的状态-动作对（Sk+1, sv, a, Sk+2, sv+1, r, done）被存储在经验回放中供网络训练采样。 4. 奖励函数设计：研究设计了一个专门的奖励函数来引导学习。奖励 r = (dist_{k-1} - dist_k) 如果机器人正在移动且未到达目标，这意味着距离目标越近奖励越大；如果发生碰撞，则奖励为 -1；如果成功到达一个目标点，则奖励为 +1。穿越所有六个目标并完成任务的累计奖励约为20+。
第三步：安全模块的开发与集成。 为了提升安全性，研究独立开发了一个基于监督学习的人员检测安全模块。该模块使用预训练的ResNet50卷积神经网络作为骨干，并针对人员检测任务进行了微调（fine-tuning）。训练数据结合了真实世界的RGB-D人员数据集和CoppeliaSim中生成的合成人员图像。为了解决ResNet50原生处理三通道RGB图像而RGB-D图像有四通道（RGB+深度）的问题，研究通过将深度通道映射为颜色强度，将其转换为三通道的“伪RGB”图像输入网络。安全模块被设置为具有最高优先级：当RGB-D相机输入图像经ResNet50计算，输出为“有人”（置信度>0.9）时，模块将覆盖EKf-DQN控制器的输出，直接向机器人执行器发送刹车指令，直到人员离开视野。
第四步：仿真实验与性能评估。 所有算法均在相同的CoppeliaSim环境中进行训练和测试。评估采用以下关键指标：平均奖励 和 任务成功率（在一系列回合中成功完成导航任务的比率）。研究进行了多组对比实验：1）训练阶段对比：分别训练标准的DQN算法和提出的EKf-DQN算法（使用Sk+1预测），记录它们在300个训练回合中的奖励曲线和成功率。2）静态环境部署测试：训练完成后，固定网络权重，在静态（无移动人员）环境中多次运行训练好的EKf-DQN智能体，评估其性能。3）动态环境安全测试：在环境中加入随机移动的虚拟人员，分别测试不带安全模块和带安全模块的EKf-DQN控制器的表现。4）与先进算法对比：还将EKf-DQN与Dueling Double DQN （D3QN）和 Advantage Actor-Critic （A2C）等其他强化学习算法进行了比较。
数据分析工作流程：主要通过绘制“奖励-回合数”曲线，并计算其滑动平均（如20回合滑动平均）来观察学习收敛趋势。通过多次独立运行（使用不同的随机种子）获取平均成功率等统计数据，并使用t检验来验证性能提升的统计显著性。对于安全模块，则通过记录其在模拟中的触发概率和任务完成情况来评估效果。
主要研究结果
关于学习加速（EKf-DQN vs. DQN）： 仿真结果清晰地支持了研究假设。从奖励曲线图（图9，10，11）可以看出，虽然最终EKf-DQN和标准DQN都收敛到了相近的平均奖励水平（约25），但EKf-DQN的学习曲线上升得更快。特别是在训练早期（约第100回合），EKf-DQN的滑动平均奖励已达到约8，而标准DQN此时仅为约5。标准DQN需要到第200回合左右才能达到EKf-DQN在第100回合的水平，这表明EKF的引入将学习速度提高了大约一倍。成功率指标进一步证实了这一点：在三次独立训练测试中，EKf-DQN的平均成功率为16.55%，显著高于标准DQN的7.44%（表3）。t检验结果（t = -7.057, p ≈ 2.36e-9）强有力地拒绝了“两者性能无差异”的零假设，证实EKf-DQN的成功率在统计学上显著优于标准DQN，置信区间为（-11.69%， -6.53%）。
关于算法对比： 与Dueling Double DQN （D3QN）的对比显示，D3QN也取得了具有竞争力的性能（平均奖励9.30，成功率15.88%），略优于标准DQN但略逊于EKf-DQN。研究指出，EKf-DQN的优势在于其计算效率：D3QN需要更复杂的网络结构（分离价值流和优势流），而EKf-DQN保持了DQN的简洁架构，仅通过添加计算高效的EKF进行增强。而策略梯度方法A2C在本研究设定的导航问题上表现不佳，未被列入主要对比图表。
关于部署性能： 在静态环境部署测试中（表4），训练好的EKf-DQN智能体表现优异，在五次测试中平均成功率高达93.33%，平均奖励达到23.56，证明了所学策略的有效性和鲁棒性。图12展示了一次成功的导航轨迹，机器人顺利通过了所有目标点。
关于安全模块效能： 在动态环境测试中（表5），安全模块的作用至关重要。不带安全模块的EKf-DQN控制器，由于环境中移动人员的干扰，平均成功率大幅下降至24%，平均奖励仅为11.84。而集成了安全模块后，成功率跃升至72%，平均奖励提升至19.18。这意味着安全模块将任务成功率提升了约200%，有效避免了与行人的碰撞，保障了任务执行。图13展示了安全模块在模拟中激活的概率变化。
结论与意义
本研究得出明确结论：提出的EKf-DQN算法在自主移动机器人导航任务中，相对于传统的DQN算法，能够显著加速学习过程，并取得更高的成功率和平均奖励。EKF作为状态预测器，能够有效、准确地预测机器人未来状态，并将此信息融入DQN的经验回放和Q值更新中，从而更快地引导智能体找到最优或接近最优的导航策略。这一发现证实了研究初始的假设。
本研究的价值体现在以下几个方面： 1. 科学价值：提出了一种新颖的混合学习框架，成功地将经典的状态估计理论（卡尔曼滤波）与现代的深度强化学习相结合。这为加速强化学习收敛提供了一个新的思路，即利用环境或系统的内部模型（即使是不完美的模型）来提供额外的、前瞻性的学习信号，超越了纯粹依赖试错的经验积累模式。 2. 方法论贡献：详细阐述了将EKF集成到DQN中的具体技术路径，包括状态向量的定义、贝尔曼方程的修改、以及经验回放数据的组织方式，为后续相关研究提供了可复现的蓝本。 3. 应用价值：所开发的完整系统（EKf-DQN控制器 + ResNet50安全模块）为解决实际的自主机器人导航问题提供了一个高效、安全的解决方案。该方法特别适用于需要快速在线学习或适应动态变化环境的场景，如仓储物流、室内服务机器人等。 4. 工程实践意义：研究通过详细的仿真实验，验证了算法各组成部分的有效性，并提供了与多种基线算法的量化比较，具有很高的参考价值。同时，对传感器融合（视觉与非视觉）、奖励函数设计、安全模块集成等工程细节的探讨，对实际系统开发具有指导意义。
研究亮点
创新性的算法融合：将扩展卡尔曼滤波器（EKF）作为学习加速器与深度Q网络（DQN）进行杂交，提出EKf-DQN算法，这是本研究的核心创新点。该方法不是简单地将EKF用于传感器滤波，而是创造性地将其预测的未来状态用于引导RL的时序差分学习，加速策略收敛。
显著且经统计验证的性能提升：通过严谨的仿真实验和统计学t检验，证实了EKf-DQN在加速学习和提高任务成功率方面相对于标准DQN的显著优越性。数据支撑坚实可信。
完整且实用的系统架构：研究不仅关注核心控制算法，还构建了一个包含多传感器融合（RGB-D, GPS, IMU）和独立视觉安全模块的完整自主导航系统架构。这种对系统级安全性和实用性的考虑，提升了研究的完整度和应用潜力。
详尽的对比分析：研究不仅与基础算法对比，还与D3QN等更先进的RL算法进行了比较，客观地定位了所提方法的性能水平，并分析了其在计算复杂度上的潜在优势。
解决实际挑战：明确针对强化学习收敛慢这一实际挑战提出解决方案，并考虑了动态环境中的人员安全问题，使研究具有很强的现实指向性。
此外，研究还公开了演示视频，增加了工作的透明度和可验证性。作者在结论中也展望了未来的工作方向，包括硬件实现、探索在Dueling DQN等更高级架构中应用EKf加速的潜力、以及集成激光雷达（LiDAR）等多传感器以进一步提升系统性能，显示了持续研究的潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问