密集深度强化学习用于验证自动驾驶车辆的安全性

分享自：
密集深度强化学习用于验证自动驾驶车辆的安全性

工程学
交通与运载工程
期刊:natureDOI:10.1038/s41586-023-05732-2
【点击此处】阅读全文、收藏及针对性提问
学术报告：利用密集深度强化学习加速自动驾驶汽车安全性能验证一、研究团队与研究发表信息该研究由Shuo Feng、Haowei Sun、Xintao Yan、Haojie Zhu、Zhengxia Zou、Shengyin Shen和Henry X. Liu等研究人员共同完成，分别隶属于美国密歇根大学土木与环境工程系、密歇根大学交通研究所及清华大学自动化系、北京航空航天大学航天学院等学术机构。该成果发表于国际权威学术期刊《Nature》的2023年3月23日第615卷，文章标题为《Dense Reinforcement Learning for Safety Validation of Autonomous Vehicles》。
二、研究背景与研究目标随着自动驾驶汽车（Autonomous Vehicles, AV）的技术蓬勃发展，交通领域正处于一场百年来最重要的革命的边缘。自动驾驶技术具有提升交通安全性、改善出行效率以及推动环保可持续性的潜力，因此吸引了产业界、政府、学术界的广泛关注。然而，目前市场上仍未出现商用的满足高级别自动驾驶（如L4级别）的车辆，其主要瓶颈在于其安全性能尚未达到能够与人类驾驶员相比拟的水平。
现阶段，为验证自动驾驶汽车在自然驾驶环境（Naturalistic Driving Environment, NDE）中的安全性，需要花费极高的经济成本和时间。然而，安全关键事件（safety-critical events）的稀缺性使得这一验证过程极为低效。特别是要在标准或接近人类驾驶能力的水平上进行验证，传统方法（例如软件仿真、封闭道路测试和实际道路测试）可能需要上亿甚至上百亿英里的测试里程。
本文提出了一种密集深度强化学习（Dense Deep Reinforcement Learning, D2RL）的方法，以创建一种智能的测试环境，目标是显著提高安全性验证的效率，并降低此过程的不偏性损失。
研究的核心目标是：借助D2RL算法，通过人工智能驱动的背景车智能动作模拟，快速验证自动驾驶汽车的安全性能，并提升对其他安全关键系统的测试与训练效率。
三、研究方法与工作流程（1）研究总体工作流程研究分为多个步骤，包括数据获取与预处理、D2RL算法的开发与训练、智能测试环境的创建、仿真测试与实地测试，以及对新方法的性能验证。以下为各步骤的详细展开。
（2）数据获取与预处理研究使用大规模自然驾驶数据（Naturalistic Driving Dataset, NDD）来训练AI模型。这些数据来源于真实的驾驶记录，包括车辆的速度、位置、周边交通参数等。在数据处理中，利用关键性测度（Criticality Measure），将数据中的非关键状态剔除，仅保留对安全事件有重要影响的关键状态。
（3）D2RL算法开发与优化D2RL算法的核心创新在于对马尔科夫决策过程（Markov Decision Process）的编辑：通过去除非安全关键状态并重连关键状态，使安全事件相关的信息在训练数据中得以密集化。这一信息密集化的过程有效降低了梯度估计的方差，使利用深度强化学习模型来学习关键事件的过程成为可能。
为了实现这一目标，研究团队引入了一种新型的奖励函数，并设计了一个模拟智能背景车辆（Background Vehicles, BVs）的策略模型，通过Proximal Policy Optimization (PPO)算法优化相关参数。
（4）智能测试环境的创建研究利用仿真工具SUMO（Simulation of Urban Mobility）结合D2RL算法构建了一种增强现实智能测试平台。模型通过实时学习背景车辆的合适对抗性动作（adversarial maneuver），创建安全性关键情景以测试自动驾驶汽车。仿真测试环境还集成了物理道路设施和现实车辆样本，形成一种虚实结合的增强现实评价框架。
智能测试环境利用D2RL训练的AI代理，实现了针对不同测试场景动态部署对抗性背景车辆行为的能力，为评价安全性能提供了高效且不失偏的机制。
（5）仿真与实地测试为了验证方法的有效性，研究团队分别开展了基于仿真的系统测试和基于实地的验证：
仿真实验
模拟两种典型道路场景（高速公路与城市路网）。
模拟距离分为400米、2公里、4公里和25公里。
对比D2RL环境与自然驾驶环境（NDE）的效率。
实地实验
在位于密歇根州的American Center for Mobility (ACM)测试场和Mcity城市测试场中，对一台配置Autoware系统的改进版Lincoln MKZ自动驾驶汽车进行测试。
使用增强现实设备将虚拟背景车辆的交通流与物理车辆交互同步，使自动驾驶车的行为能够实现真实与虚拟环境的无缝整合。
四、主要研究结果（1）仿真实验结果D2RL智能测试环境在400米距离的高速场景中，测试效率提升约2100倍；而在更加复杂的25公里全程测试中，其效率也提升约940倍。
实验结果表明，通过D2RL方法，背景车辆能以高效方式生成安全事件相关的时间和空间场景。
在保证评估结果不偏性的前提下，D2RL显著降低了测试所需的总样本数。
（2）实地实验结果在ACM高速测试场中，基于D2RL的评估系统通过156次测试实现了安全性评估，耗时仅为传统方法的百万分之一。
在Mcity城市测试场中，D2RL环境同样以表现卓越，加速测试效率达105倍，且还能够有效生成多种碰撞事件类型。
（3）定量分析实验对不同事故类型（追尾、侧撞、正面碰撞等）和接近碰撞事件的分布进行了定量分析，进一步证明了D2RL测试的偏差控制能力。
五、研究结论与意义研究证明了D2RL方法在安全关键系统验证中的重要价值。密集学习方法有效解决了高维稀有事件估计中的难题，显著提高了自动驾驶汽车的安全性验证效率。
其科学意义在于推动了深度学习在安全关键系统领域的进一步应用，并为从事自动驾驶研发与验证的研究者提供了全新的工具。此外，D2RL框架具备可移植性，未来可扩展至医疗机器人、航空航天等其他高安全性需求领域。
六、研究亮点提出了密集深度强化学习（D2RL）这一全新方法。
智能测试环境实现了“AI评估AI”的概念性突破。
增强现实测试平台将真实与虚拟结合，有效加速了实地验证流程。
研究系统性地解决了稀有事件在多维场景下的学习瓶颈。
七、展望与未来研究研究指出，未来可以扩展D2RL方法涵盖更多维度的测试情景（如复杂天气）。此外，研究建议将形式化方法（Formal Methods）与D2RL结合，以进一步提升评估框架的鲁棒性与可信度。
总而言之，该研究以大规模高速仿真和实地验证为基础，为自动驾驶汽车及其他安全关键系统的研发开辟了新路径，其潜在影响深远。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问