分享自:

动态环境下共融机器人深度强化学习导航算法

期刊:计算机工程与应用DOI:10.3778/j.issn.1002-8331.2405-0088

动态环境下共融机器人深度强化学习导航算法的研究进展

作者及机构
本研究由中北大学计算机科学与技术学院的顾金浩、况立群(通信作者)、韩慧妍、曹亚明、焦世超共同完成,团队成员同时隶属于机器视觉与虚拟现实山西省重点实验室及山西省视觉信息处理及智能机器人工程研究中心。研究成果发表于《computer engineering and applications》(计算机工程与应用)2025年第61卷第4期。

学术背景
随着移动服务机器人在商场、医院等室内场景的广泛应用,其动态环境下的导航能力成为关键挑战。传统导航算法(如ORCA)将人类视为静态障碍物,缺乏对人类行为复杂性和社会交互的考量。共融机器人(coexisting-cooperative-cognitive robot)概念的提出,要求机器人在物理安全(避免碰撞)和感知安全(行为符合人类社交习惯)两方面均满足社会接受度。为此,本研究提出一种结合社会力模型(social force model, SFM)与深度强化学习(deep reinforcement learning, DRL)的导航算法PS-DRL(perceived safety-DRL),旨在提升机器人在动态人群中的自主导航能力。

研究流程与方法
1. 社会力模型改进
- 传统SFM的局限性:仅基于相对位置计算排斥力,未考虑人类交互行为。
- 改进模型:引入“人群互动空间”概念,通过虚拟人建模群体行为(如图1所示),新增人群斥力项(式9),权重因子ωhh调节群体影响。
- 感知安全参数:定义行人感知安全系数(PSP)和人群感知安全系数(PSC),通过Sigmoid函数量化机器人侵入社交距离的程度(式10-11)。

  1. 深度强化学习框架设计

    • 价值网络:采用非线性深度神经网络替代传统线性函数(图3),输入包括机器人状态、行人位置/速度及PSC系数,通过多层感知机(MLP)和注意力机制提取交互特征(式12-16)。
    • 奖励函数重构:在物理安全基础上加入PSC惩罚项(式19),并设计“右手规则”惩罚机制(图4-5),引导机器人符合人类社交习惯。
    • 训练流程:分模仿学习(ORCA生成初始数据)和强化学习两阶段,使用经验回放池加速收敛(算法1)。
  2. 实验验证

    • 环境设置:12m×12m仿真场景,机器人半径0.3m,最大速度1m/s,对比ORCA、SCR、CD-SARL等5种基线方法。
    • 性能指标:导航成功率、碰撞率、平均用时及不适度(机器人侵入人类舒适区的时间占比)。
    • 结果
      • 不可见设置:PS-DRL成功率100%(对比CD-SARL的99.3%),导航时间缩短0.5秒(表2)。
      • 可见设置:PS-DRL不适度仅0.01%,远低于SCR的0.67%(表3)。
      • 轨迹分析:机器人成功规避人群交互中心,遵循右手规则完成“穿越”“超过”等行为(图8)。

主要结果与结论
1. 社会力模型有效性:改进后的SFM通过虚拟人建模群体交互,使机器人更早预判人群运动趋势(图2)。
2. 感知安全提升:PSC系数使机器人在保持1m社交距离时奖励值提升27%,显著降低行人不适感。
3. 算法性能优势:PS-DRL在两种测试场景中均实现零碰撞,且导航效率优于基线方法。

研究价值与亮点
- 科学价值:首次将感知安全系数融入DRL框架,为社交机器人导航提供量化评估标准。
- 应用价值:适用于医院导诊、商场服务等需高人类接受度的场景。
- 创新点
- 提出人群互动空间建模方法,增强群体行为预测能力。
- 设计基于右手规则的奖励塑造机制,解决传统规则难以量化的问题。
- 价值网络引入注意力机制,提升多智能体交互特征提取效率。

未来方向
作者计划优化算法实时性,并利用真实监控数据替代仿真训练,进一步验证方法的普适性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com