该研究由Shuo Feng、Haowei Sun、Xintao Yan、Haojie Zhu、Zhengxia Zou、Shengyin Shen和Henry X. Liu等研究人员共同完成,分别隶属于美国密歇根大学土木与环境工程系、密歇根大学交通研究所及清华大学自动化系、北京航空航天大学航天学院等学术机构。该成果发表于国际权威学术期刊《Nature》的2023年3月23日第615卷,文章标题为《Dense Reinforcement Learning for Safety Validation of Autonomous Vehicles》。
随着自动驾驶汽车(Autonomous Vehicles, AV)的技术蓬勃发展,交通领域正处于一场百年来最重要的革命的边缘。自动驾驶技术具有提升交通安全性、改善出行效率以及推动环保可持续性的潜力,因此吸引了产业界、政府、学术界的广泛关注。然而,目前市场上仍未出现商用的满足高级别自动驾驶(如L4级别)的车辆,其主要瓶颈在于其安全性能尚未达到能够与人类驾驶员相比拟的水平。
现阶段,为验证自动驾驶汽车在自然驾驶环境(Naturalistic Driving Environment, NDE)中的安全性,需要花费极高的经济成本和时间。然而,安全关键事件(safety-critical events)的稀缺性使得这一验证过程极为低效。特别是要在标准或接近人类驾驶能力的水平上进行验证,传统方法(例如软件仿真、封闭道路测试和实际道路测试)可能需要上亿甚至上百亿英里的测试里程。
本文提出了一种密集深度强化学习(Dense Deep Reinforcement Learning, D2RL)的方法,以创建一种智能的测试环境,目标是显著提高安全性验证的效率,并降低此过程的不偏性损失。
研究的核心目标是:借助D2RL算法,通过人工智能驱动的背景车智能动作模拟,快速验证自动驾驶汽车的安全性能,并提升对其他安全关键系统的测试与训练效率。
研究分为多个步骤,包括数据获取与预处理、D2RL算法的开发与训练、智能测试环境的创建、仿真测试与实地测试,以及对新方法的性能验证。以下为各步骤的详细展开。
研究使用大规模自然驾驶数据(Naturalistic Driving Dataset, NDD)来训练AI模型。这些数据来源于真实的驾驶记录,包括车辆的速度、位置、周边交通参数等。在数据处理中,利用关键性测度(Criticality Measure),将数据中的非关键状态剔除,仅保留对安全事件有重要影响的关键状态。
D2RL算法的核心创新在于对马尔科夫决策过程(Markov Decision Process)的编辑:通过去除非安全关键状态并重连关键状态,使安全事件相关的信息在训练数据中得以密集化。这一信息密集化的过程有效降低了梯度估计的方差,使利用深度强化学习模型来学习关键事件的过程成为可能。
为了实现这一目标,研究团队引入了一种新型的奖励函数,并设计了一个模拟智能背景车辆(Background Vehicles, BVs)的策略模型,通过Proximal Policy Optimization (PPO)算法优化相关参数。
研究利用仿真工具SUMO(Simulation of Urban Mobility)结合D2RL算法构建了一种增强现实智能测试平台。模型通过实时学习背景车辆的合适对抗性动作(adversarial maneuver),创建安全性关键情景以测试自动驾驶汽车。仿真测试环境还集成了物理道路设施和现实车辆样本,形成一种虚实结合的增强现实评价框架。
智能测试环境利用D2RL训练的AI代理,实现了针对不同测试场景动态部署对抗性背景车辆行为的能力,为评价安全性能提供了高效且不失偏的机制。
为了验证方法的有效性,研究团队分别开展了基于仿真的系统测试和基于实地的验证:
仿真实验
实地实验
研究证明了D2RL方法在安全关键系统验证中的重要价值。密集学习方法有效解决了高维稀有事件估计中的难题,显著提高了自动驾驶汽车的安全性验证效率。
其科学意义在于推动了深度学习在安全关键系统领域的进一步应用,并为从事自动驾驶研发与验证的研究者提供了全新的工具。此外,D2RL框架具备可移植性,未来可扩展至医疗机器人、航空航天等其他高安全性需求领域。
研究指出,未来可以扩展D2RL方法涵盖更多维度的测试情景(如复杂天气)。此外,研究建议将形式化方法(Formal Methods)与D2RL结合,以进一步提升评估框架的鲁棒性与可信度。
总而言之,该研究以大规模高速仿真和实地验证为基础,为自动驾驶汽车及其他安全关键系统的研发开辟了新路径,其潜在影响深远。