本研究由Yang Miao(北京工业大学机械与能源工程学院,北京工业大学北京市先进制造技术重点实验室)、Yantang Li、Xiangyin Zhang、Jingxiang Xu(上海海洋大学工程学院)、Di Wu、Lejia Sun(西安电子科技大学微电子学院,宽带隙半导体材料与器件重点实验室)、Haibin Liu(北京工业大学机械与能源工程学院)共同完成。该研究以学术论文“An intelligent schedule maintenance method for hydrogen fuel cell vehicles based on deep reinforcement learning considering dynamic reliability”的形式,于2024年发表在期刊international journal of hydrogen energy第64卷上,该期刊由Elsevier Ltd代表Hydrogen Energy Publications LLC出版。
该研究的学术背景聚焦于氢能安全与车辆维护领域。氢燃料电池汽车(Fuel Cell Vehicles, FCVs)作为一种具有设计简单、可靠性高、运行安静、效率高且环境影响小的新型能源技术,正受到越来越多的关注。然而,氢气的低点火温度、小点火能量、宽爆炸范围和快速燃烧速度等特性,使其比传统化石燃料汽车更容易发生爆炸和泄漏事故,因此氢能系统的安全评估至关重要。在维护支持方面,传统的维护策略主要包括事后维修(Corrective Maintenance, CM)和计划性维护(Schedule Maintenance, SM)。其中,基于时间的计划性维护(Time-based SM,简称T-SM)虽然被认为是传统系统最安全的方法,但其为氢能系统带来了巨大的运营成本。此外,氢气分子的独特性质可能导致关键密封部件因频繁维护引起的压力波动而受到不可逆的损伤,而长期保持高压环境反而可能增强这些部件的密封性能。因此,这种过度保守的维护方式可能会无意中增加事故发生率,事与愿违。随着机器学习的发展,强化学习(Reinforcement Learning, RL)开始受到研究人员的注意。虽然RL在氢能领域已应用于燃料电池效率优化和资源调度等任务,但尚未有文献探索利用RL解决大规模氢能系统维护难题的可行性。因此,本研究旨在开发一种基于深度强化学习(Deep Reinforcement Learning, DRL)的智能计划性维护策略(RL-SM),以氢燃料电池汽车的氢供给回路(Hydrogen Supply Circuit, HSC)为例,解决涉及关键部件剩余使用寿命(Remaining Useful Life, RUL)和意外事故的最优维护决策问题,以期在安全与维护成本之间取得最佳平衡。
该研究的详细工作流程主要包括以下几个步骤,构成了一个从系统建模、环境构建到智能体训练与评估的完整框架:
研究系统定义与环境变量建模:本研究以氢燃料电池汽车的氢供给回路(HSC)为研究对象。该回路包含氢气储存罐、阀门、压力表、流量计、执行器、控制系统、冷却系统和燃料电池等众多部件,共同负责将氢气稳定、可靠地输送至燃料电池进行化学反应发电。为了创建一个供RL智能体学习和决策的模拟环境,研究团队为HSC建立了一个多层次框架,具体包含以下关键环境变量模型:
k建立为压力p和时间t的函数。当k达到临界值时,判定密封失效。k(t)被设定为组件单元(燃料电池除外)的第二个环境参数,用于预测密封件的剩余使用寿命。维护的目标是引导智能体通过维修行动使密封圈远离临界值。SOH(t)。当剩余容量降至预设回收阈值(通常为70-80%)时,燃料电池需要恢复。SOH(t)被设定为燃料电池组件(M5)的第二个环境参数。强化学习框架设计与智能体构建:
t。在每个时间步,智能体观察由上述环境变量构成的系统状态(st),然后从动作空间中选择一个动作(at),执行后环境反馈奖励(rt)并转移到下一个状态(st+1)。状态空间包含了5个组件、每个组件4个参数(故障状态、退化指数/SOH、订购状态、维修次数统计),共计20个输入维度。wait,不行动)、订购备件(order,为后续维修做准备)、维修(repair,需先订购)。为简化,每个时间步t只能对一个部件执行order,因此整体动作空间大小为7(对5个部件分别order、wait、repair)。reward = αr(t) - βu(h,1,1) + γ(soht - sohrec) - δct。其中,r(t)是FCV正常运行期间的累计奖励(受密封件退化折扣影响),u(h,1,1)是事故发生的二进制参数(事故导致负奖励),soht - sohrec反映电池容量健康状况(低于阈值时变为惩罚),ct是运行和维护成本。通过调整权重(α, β, γ, δ),可以塑造智能体对不同目标的偏好,从而训练出不同侧重点的策略。智能体训练与超参数设置:智能体在配备Intel Core i5-10400处理器的设备上进行训练。为了确保可重复性和评估稳定性,每个智能体使用10个不同的随机种子进行训练,并计算其性能的均值和标准差。关键超参数包括:学习率0.001,折扣因子0.99,经验池容量10000,小批量采样大小64。训练总共进行了5000个回合。为了监测收敛性,训练过程中每进行10次迭代,就用当前策略(设置ε=0,即仅利用最优策略)在环境中测试一次性能。
策略评估与对比分析:
该研究取得的主要结果如下:
不同权重策略的训练结果:β-策略(侧重安全)展现出最佳的综合性能。其训练奖励在训练过程中稳定增长至约200,测试奖励在约1500个训练回合后进入高效学习阶段并收敛。维护成本收敛至约80。系统安全运行至指定时间的成功率从训练初期的约10%,在约3500个训练周期后提升并稳定在接近100%,表明智能体学会了有效延长系统安全运行时间。γ-策略和δ-策略虽然在某些指标(如成本)上有所改进,但在整体奖励和系统安全成功率上均显著低于β-策略,验证了在氢能系统维护中安全性应作为首要考虑因素。
RL-SM策略与基线策略的对比结果:RL-SM智能体在多项关键指标上显著优于传统策略。
敏感性分析结果:研究对密封件退化模型和维护成本这两个关键输入参数进行了两因素敏感性分析(针对β-策略)。结果显示,即使密封件退化模型仅有5%的微小偏差,也会对智能体指导的维护程序产生重大影响。当偏差接近+5%(意味着密封圈剩余寿命比预期更短)时,平均奖励大幅下降,原因是智能体的维护间隔判断可能导致密封圈退化指数超过临界阈值,产生大量负奖励,这在现实中意味着高风险。这凸显了提高退化模型精度的重要性。成本偏差的影响则与预期相符,呈近似线性关系。
本研究的主要结论是,通过应用深度强化学习技术和独特的建模方法,成功开发出一种用于氢燃料电池汽车系统的智能、安全的计划性维护策略。该方法利用深度Q学习,通过深度神经网络进行决策,并在多目标优化奖励函数的指导下进行训练。其中,侧重事故率的β-策略表现卓越,其总奖励比传统T-SM策略提高了77%,成本降低了59%,并有效抑制了事故发生,提升了系统整体安全性。即使没有先验知识输入,RL智能体也能通过状态变量感知FCV氢供给系统的运行状态,并主动习得通过维护活动使系统保持在稳健状态的能力。基于强化学习的维护方法在动态系统中展现了卓越的可靠性,并有望在未来扩展到相关领域。
本研究的亮点和创新之处在于: 1. 研究问题新颖:首次将深度强化学习应用于解决大规模氢能系统(以FCV为例)的复杂维护决策问题,填补了该领域的研究空白。 2. 建模方法综合:创造性地将故障树分析(FTA)、部件剩余使用寿命预测模型(密封件退化模型、燃料电池SOH模型)和物流成本模型整合到一个统一的强化学习探索环境中,全面表达了运行稳定性、部件失效率和维修存储成本。 3. 方法先进有效:采用深度Q学习等先进的DRL算法处理高维状态空间,并通过精心设计的多目标奖励函数引导智能体学习最优策略。该方法在数据有限、状态可见性差的氢能系统早期发展阶段,展现出了在相对陌生环境中探索最优策略的固有优势和能力。 4. 结果显著:所提出的RL-SM策略在模拟对比中,在总奖励、成本控制和事故率降低方面均大幅优于传统时间基准维护策略,证明了其高效、稳定的决策能力。 5. 具有实际指导意义:研究不仅提供了理论框架和算法,还通过敏感性分析指出了模型精度对决策可靠性的关键影响,为未来实际应用指明了改进方向。
此外,本研究获得了中国国家重点研发计划(2021YFB4001001)的资助。作者声明无已知的可能影响所述工作的竞争性经济利益或个人关系。该工作为氢能系统,特别是氢燃料电池汽车的安全运行管理,提供了一种高效、智能的决策支持工具,对促进氢能产业的进一步发展和应用安全具有重要的科学与应用价值。