分享自:

基于深度强化学习和鲁棒控制的自主电动汽车分层速度控制

期刊:iet control theory & applicationsDOI:10.1049/cth2.12211

这篇文档属于 类型a,即报道一项独立原创研究的学术论文。以下是针对该研究的详细学术报告:


作者及机构:该研究由 Guangfei Xu(山东理工大学农业工程与食品科学学院)、Xiangkun He(2012 Noah’s Ark Lab, Beijing)、Meizhou Chen、Hequan Miao、Huanxiao Pang(均来自山东理工大学)、Jian Wu(聊城大学机械与汽车工程学院)、Peisong Diao(通讯作者,山东理工大学)、Wenjun Wang 等合作完成。文章《Hierarchical speed control for autonomous electric vehicle through deep reinforcement learning and robust control》发表于 IET Control Theory & Applications 期刊,2021年9月23日接受,DOI: 10.1049/cth2.12211。


学术背景

研究领域与动机

该研究属于 自动驾驶电动汽车(Autonomous Electric Vehicle, AEV)控制理论 领域,聚焦于 速度控制系统的分层架构设计。传统AEV的速度控制通常基于固定目标速度,但动态环境(如周围车辆变道、路况变化)和多重目标(效率、能耗、安全性、平顺性)的冲突使其面临挑战。因此,研究旨在提出一种结合 深度强化学习(Deep Reinforcement Learning, DRL)鲁棒控制(Robust Control) 的分层控制方法,实现动态环境下的最优速度决策与鲁棒跟踪。

关键技术背景

  1. 深度强化学习:通过与环境交互优化策略,但传统PPO(Proximal Policy Optimization)算法易陷入局部最优。
  2. 鲁棒控制:需应对轮胎刚度不确定性、路面扰动等干扰,线性矩阵不等式(Linear Matrix Inequality, LMI)是设计鲁棒控制器的关键工具。

研究目标

  • 决策层:开发一种改进的DRL算法(DMePPO),生成适应动态环境的最优速度。
  • 控制层:设计基于LMI的鲁棒控制器,精准跟踪速度并抵抗干扰。

研究流程与方法

1. 决策层:DMePPO算法开发

  • 改进点:在PPO算法中引入 启发式目标熵(Heuristic Target Entropy)自适应熵约束(Adaptive Entropy Constraint),避免策略过早收敛。
  • 状态与动作空间:输入17维状态变量(如自车速度、周围车辆速度与距离、加速度等,见表2),输出为加速度指令。
  • 奖励函数设计:多目标加权融合,包括交通效率(式24)、能耗(式25)、安全性(式26)、平顺性(式27)。权重向量设为 ( w = [1, 2, 1, 1] ),突出能耗优化。
  • 训练环境:基于SUMO交通仿真平台,加入7自由度(7-DOF)车辆动力学模型和Magic Tire轮胎模型以增强真实性。

2. 控制层:LMI鲁棒控制器设计

  • 模型构建:建立含不确定性的7-DOF车辆动力学模型(式29),考虑轮胎侧偏刚度变化(式30)。
  • 控制目标:最小化速度误差 ( e = v_{xr} - v_x ),并通过LMI求解满足H∞性能的反馈增益矩阵 ( K )(式40-43)。
  • 输出反馈:仅需可测量的横摆率 ( r ) 和速度误差 ( e ),降低传感器成本。

3. 仿真验证

  • 决策层测试:对比PPO与DMePPO在不同交通流下的表现。DMePPO在6000步内收敛(图3),平均能耗20 Wh/s(图4),最高速度35 m/s(图5),且碰撞次数趋近于零(图6)。
  • 控制层测试:对比PID、MPC与LMI控制器。LMI在扰动下跟踪误差最小(图14),加速度波动更平缓(图15),能耗降低(图16),驱动扭矩响应更快(图17)。

主要结果与逻辑关联

  1. DMePPO的优越性

    • 相比于PPO,DMePPO通过熵约束增强探索能力,在复杂交通流中实现更高奖励(图13)。
    • 多目标平衡:高速(30 m/s)与低能耗(图9-10)的兼顾,验证了奖励函数设计的有效性。
  2. LMI控制的鲁棒性

    • 在轮胎刚度不确定性和外部扰动下,LMI的跟踪误差比MPC降低30%(图14),证明其抗干扰能力。
    • 数据关联性:决策层生成的动态速度(如频繁加减速)被控制层精准执行,二者通过MATLAB-Python接口实时交互。

结论与价值

  1. 科学价值

    • 提出 首例结合DRL与LMI的分层速度控制架构,为AEV动态环境适应提供了新范式。
    • DMePPO算法通过自适应熵约束解决了策略探索不足的问题,可扩展至其他连续控制任务。
  2. 应用价值

    • 实际部署潜力:控制器仅需低成本传感器(如陀螺仪、GPS),适合商业化应用。
    • 能耗优化:仿真显示较传统方法节能15%(图16),对电动汽车续航提升显著。

研究亮点

  1. 方法创新

    • DMePPO算法:首次在PPO中引入启发式目标熵与自适应衰减因子(式8),突破局部最优限制。
    • 分层架构整合:DRL与鲁棒控制的协同设计,兼顾动态决策与稳定执行。
  2. 工程细节

    • 在SUMO中集成7-DOF模型与Magic Tire模型,提升仿真真实性。
    • LMI控制器通过减少状态变量依赖(仅需 ( r ) 和 ( e )),降低硬件需求。

其他价值

  • 开源潜力:研究未公开代码,但方法描述详细,可复现性较强。
  • 扩展方向:作者提议未来在实车测试中验证架构有效性(如山东农业机械项目支持的试验平台)。

总结:该研究通过“决策-控制”分层架构和算法创新,解决了AEV在动态环境中的速度控制难题,兼具理论突破和工程应用价值,为自动驾驶系统设计提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com