基于深度强化学习考虑动态可靠性的氢燃料电池汽车智能计划维护方法

分享自：
基于深度强化学习考虑动态可靠性的氢燃料电池汽车智能计划维护方法

能源工程与动力工程
化学
期刊:international journal of hydrogen energyDOI:10.1016/j.ijhydene.2024.03.270
【点击此处】阅读全文、收藏及针对性提问
本研究由Yang Miao（北京工业大学机械与能源工程学院，北京工业大学北京市先进制造技术重点实验室）、Yantang Li、Xiangyin Zhang、Jingxiang Xu（上海海洋大学工程学院）、Di Wu、Lejia Sun（西安电子科技大学微电子学院，宽带隙半导体材料与器件重点实验室）、Haibin Liu（北京工业大学机械与能源工程学院）共同完成。该研究以学术论文“An intelligent schedule maintenance method for hydrogen fuel cell vehicles based on deep reinforcement learning considering dynamic reliability”的形式，于2024年发表在期刊international journal of hydrogen energy第64卷上，该期刊由Elsevier Ltd代表Hydrogen Energy Publications LLC出版。
该研究的学术背景聚焦于氢能安全与车辆维护领域。氢燃料电池汽车（Fuel Cell Vehicles, FCVs）作为一种具有设计简单、可靠性高、运行安静、效率高且环境影响小的新型能源技术，正受到越来越多的关注。然而，氢气的低点火温度、小点火能量、宽爆炸范围和快速燃烧速度等特性，使其比传统化石燃料汽车更容易发生爆炸和泄漏事故，因此氢能系统的安全评估至关重要。在维护支持方面，传统的维护策略主要包括事后维修（Corrective Maintenance, CM）和计划性维护（Schedule Maintenance, SM）。其中，基于时间的计划性维护（Time-based SM，简称T-SM）虽然被认为是传统系统最安全的方法，但其为氢能系统带来了巨大的运营成本。此外，氢气分子的独特性质可能导致关键密封部件因频繁维护引起的压力波动而受到不可逆的损伤，而长期保持高压环境反而可能增强这些部件的密封性能。因此，这种过度保守的维护方式可能会无意中增加事故发生率，事与愿违。随着机器学习的发展，强化学习（Reinforcement Learning, RL）开始受到研究人员的注意。虽然RL在氢能领域已应用于燃料电池效率优化和资源调度等任务，但尚未有文献探索利用RL解决大规模氢能系统维护难题的可行性。因此，本研究旨在开发一种基于深度强化学习（Deep Reinforcement Learning, DRL）的智能计划性维护策略（RL-SM），以氢燃料电池汽车的氢供给回路（Hydrogen Supply Circuit, HSC）为例，解决涉及关键部件剩余使用寿命（Remaining Useful Life, RUL）和意外事故的最优维护决策问题，以期在安全与维护成本之间取得最佳平衡。
该研究的详细工作流程主要包括以下几个步骤，构成了一个从系统建模、环境构建到智能体训练与评估的完整框架：
研究系统定义与环境变量建模：本研究以氢燃料电池汽车的氢供给回路（HSC）为研究对象。该回路包含氢气储存罐、阀门、压力表、流量计、执行器、控制系统、冷却系统和燃料电池等众多部件，共同负责将氢气稳定、可靠地输送至燃料电池进行化学反应发电。为了创建一个供RL智能体学习和决策的模拟环境，研究团队为HSC建立了一个多层次框架，具体包含以下关键环境变量模型：
动态事故概率模型：采用故障树分析（Fault Tree Analysis, FTA）方法，以氢气泄漏为顶事件，分析了HSC中5个主要子系统（氢气储存罐系统M1、执行系统M2、控制系统M3、冷却系统M4、燃料电池M5）及其下属的53个基本事件的失效路径。基本事件的失效概率数据来自OREDA数据库，并假设在最初的5000小时内，氢气泄漏失效概率遵循韦布尔分布。在模拟环境中，事故的发生以二进制变量形式表示（0为正常运行，1为发生故障），其变化概率由韦布尔概率密度函数决定。这是组件单元的第一个环境参数。
密封件退化模型：针对HSC中广泛使用的聚合物密封圈（如丁腈橡胶O型圈），本研究引用并应用了团队先前研究中提出的在氢环境下基于阿伦尼乌斯外推法的性能退化模型。该模型将密封性能退化指数k建立为压力p和时间t的函数。当k达到临界值时，判定密封失效。k(t)被设定为组件单元（燃料电池除外）的第二个环境参数，用于预测密封件的剩余使用寿命。维护的目标是引导智能体通过维修行动使密封圈远离临界值。
燃料电池退化模型：引入一个广泛接受的半经验退化模型来评估燃料电池的整体健康状态（State of Health, SOH）。该模型考虑了电池的充放电功率、容量、循环寿命、温度等因素，计算当前的健康状态SOH(t)。当剩余容量降至预设回收阈值（通常为70-80%）时，燃料电池需要恢复。SOH(t)被设定为燃料电池组件（M5）的第二个环境参数。
维护成本模型：维护成本与具体部件相关，包括备件采购成本、存储成本（备件购入后持续产生）和维修活动产生的固定成本。每个部件的维修成本被简化为五个大类进行赋值。该模型用于计算每次维护决策所产生的即时和累计成本。
强化学习框架设计与智能体构建：
问题形式化：将维护决策问题建模为一个马尔可夫决策过程。时间被离散化为多个单位时间间隔t。在每个时间步，智能体观察由上述环境变量构成的系统状态（st），然后从动作空间中选择一个动作（at），执行后环境反馈奖励（rt）并转移到下一个状态（st+1）。状态空间包含了5个组件、每个组件4个参数（故障状态、退化指数/SOH、订购状态、维修次数统计），共计20个输入维度。
动作空间定义：对于HSC的每个部件，智能体有三种可选动作：等待（wait，不行动）、订购备件（order，为后续维修做准备）、维修（repair，需先订购）。为简化，每个时间步t只能对一个部件执行order，因此整体动作空间大小为7（对5个部件分别order、wait、repair）。
奖励函数设计：为实现多目标优化（最小化SM成本、维持燃料电池效率、防止部件超期、确保系统安全），定义了一个加权奖励函数：reward = αr(t) - βu(h,1,1) + γ(soht - sohrec) - δct。其中，r(t)是FCV正常运行期间的累计奖励（受密封件退化折扣影响），u(h,1,1)是事故发生的二进制参数（事故导致负奖励），soht - sohrec反映电池容量健康状况（低于阈值时变为惩罚），ct是运行和维护成本。通过调整权重（α, β, γ, δ），可以塑造智能体对不同目标的偏好，从而训练出不同侧重点的策略。
算法与网络结构：采用深度Q学习（Deep Q-Learning, DQL）算法，使用深度神经网络（DNN）来近似Q值函数，以处理高维状态空间。网络结构包括一个20个神经元的输入层（对应20维状态），两个各256个神经元、使用ReLU激活函数的全连接隐藏层，以及一个3个神经元的输出层（对应每个动作的Q值，未使用激活函数）。训练中采用了经验回放和ε-贪婪策略（初始探索率高，随训练逐渐降低）。目标网络用于稳定训练。所有环境和智能体代码均使用Python编写，神经网络基于PyTorch v1.20构建。
智能体训练与超参数设置：智能体在配备Intel Core i5-10400处理器的设备上进行训练。为了确保可重复性和评估稳定性，每个智能体使用10个不同的随机种子进行训练，并计算其性能的均值和标准差。关键超参数包括：学习率0.001，折扣因子0.99，经验池容量10000，小批量采样大小64。训练总共进行了5000个回合。为了监测收敛性，训练过程中每进行10次迭代，就用当前策略（设置ε=0，即仅利用最优策略）在环境中测试一次性能。
策略评估与对比分析：
不同权重策略的训练过程分析：研究通过调整奖励函数的权重，训练并比较了三种倾向性策略：侧重安全（β-策略）、侧重燃料电池性能（γ-策略）和侧重成本控制（δ-策略）。结果显示，β-策略在奖励值、成本控制和成功率方面表现最优且稳定，能有效延长系统连续运行时间并接近100%的成功率。γ-策略因过于保守导致成功率显著下降，奖励较低。δ-策略在成本控制上更优，但牺牲了任务完成率，安全性不足。
与基线策略的性能对比：训练完成后，将表现最佳的β-策略RL-SM智能体与传统的基于时间的计划性维护策略（T-SM）和事后维修策略（CM）在相同的随机环境下进行50次交互对比。评估指标包括总奖励、成本、系统运行成功率、运行时间、燃料电池性能维护水平以及各部件的平均更换时间。
该研究取得的主要结果如下：
不同权重策略的训练结果：β-策略（侧重安全）展现出最佳的综合性能。其训练奖励在训练过程中稳定增长至约200，测试奖励在约1500个训练回合后进入高效学习阶段并收敛。维护成本收敛至约80。系统安全运行至指定时间的成功率从训练初期的约10%，在约3500个训练周期后提升并稳定在接近100%，表明智能体学会了有效延长系统安全运行时间。γ-策略和δ-策略虽然在某些指标（如成本）上有所改进，但在整体奖励和系统安全成功率上均显著低于β-策略，验证了在氢能系统维护中安全性应作为首要考虑因素。
RL-SM策略与基线策略的对比结果：RL-SM智能体在多项关键指标上显著优于传统策略。
总奖励：RL-SM策略的平均奖励为197.11，相比T-SM策略（111.47）提升了77%，相比CM策略（124.89）也有显著优势。这主要得益于RL-SM能根据环境动态自适应调整策略。
维护成本：RL-SM策略的平均成本为83.65，比T-SM策略（206.70）降低了59%。CM策略成本为0，但这仅是因为其仅在故障后行动，且环境设定故障即终止，无法作为有效的低成本策略参考。
系统安全性（成功率）：RL-SM策略将事故率降至极低水平，成功率高达0.9987，甚至略微超过了以安全为导向的T-SM策略（0.9512）。CM策略的成功率仅为0.4726。这表明RL-SM不仅降低了安全保障成本，还提升了整体安全水平。
运行效率：RL-SM策略的平均运行时间达到4752个单位时间，高于T-SM（4592）和CM（3288）。这与RL-SM执行的维修操作总次数（平均11.1次）远少于T-SM有关，避免了不必要的停机。
维护策略细节：在部件更换时间的判断上，RL-SM对M3（控制系统）、M4（冷却系统）、M5（燃料电池）的维护间隔长于T-SM，尤其是M4，优化显著。对于M1（储氢罐）和M2（执行系统），RL-SM因受退化模型影响，判断的更换时间有时短于T-SM，反映了其对剩余使用寿命的重视。RL-SM的奖励积累主要来源于节省的备件成本和避免因剩余使用寿命不足而产生的惩罚，而传统方法难以有效利用这种多目标优化。
燃料电池性能维护：在此方面，专注于安全（β-策略）的RL-SM智能体优先级较低，导致平均SOH性能为72%，低于T-SM的84%。CM策略仅为56%。这提示，如果研究目标更侧重于维持高效燃料电池运行，则需要调整奖励函数权重（如采用γ-策略）。
敏感性分析结果：研究对密封件退化模型和维护成本这两个关键输入参数进行了两因素敏感性分析（针对β-策略）。结果显示，即使密封件退化模型仅有5%的微小偏差，也会对智能体指导的维护程序产生重大影响。当偏差接近+5%（意味着密封圈剩余寿命比预期更短）时，平均奖励大幅下降，原因是智能体的维护间隔判断可能导致密封圈退化指数超过临界阈值，产生大量负奖励，这在现实中意味着高风险。这凸显了提高退化模型精度的重要性。成本偏差的影响则与预期相符，呈近似线性关系。
本研究的主要结论是，通过应用深度强化学习技术和独特的建模方法，成功开发出一种用于氢燃料电池汽车系统的智能、安全的计划性维护策略。该方法利用深度Q学习，通过深度神经网络进行决策，并在多目标优化奖励函数的指导下进行训练。其中，侧重事故率的β-策略表现卓越，其总奖励比传统T-SM策略提高了77%，成本降低了59%，并有效抑制了事故发生，提升了系统整体安全性。即使没有先验知识输入，RL智能体也能通过状态变量感知FCV氢供给系统的运行状态，并主动习得通过维护活动使系统保持在稳健状态的能力。基于强化学习的维护方法在动态系统中展现了卓越的可靠性，并有望在未来扩展到相关领域。
本研究的亮点和创新之处在于： 1. 研究问题新颖：首次将深度强化学习应用于解决大规模氢能系统（以FCV为例）的复杂维护决策问题，填补了该领域的研究空白。 2. 建模方法综合：创造性地将故障树分析（FTA）、部件剩余使用寿命预测模型（密封件退化模型、燃料电池SOH模型）和物流成本模型整合到一个统一的强化学习探索环境中，全面表达了运行稳定性、部件失效率和维修存储成本。 3. 方法先进有效：采用深度Q学习等先进的DRL算法处理高维状态空间，并通过精心设计的多目标奖励函数引导智能体学习最优策略。该方法在数据有限、状态可见性差的氢能系统早期发展阶段，展现出了在相对陌生环境中探索最优策略的固有优势和能力。 4. 结果显著：所提出的RL-SM策略在模拟对比中，在总奖励、成本控制和事故率降低方面均大幅优于传统时间基准维护策略，证明了其高效、稳定的决策能力。 5. 具有实际指导意义：研究不仅提供了理论框架和算法，还通过敏感性分析指出了模型精度对决策可靠性的关键影响，为未来实际应用指明了改进方向。
此外，本研究获得了中国国家重点研发计划（2021YFB4001001）的资助。作者声明无已知的可能影响所述工作的竞争性经济利益或个人关系。该工作为氢能系统，特别是氢燃料电池汽车的安全运行管理，提供了一种高效、智能的决策支持工具，对促进氢能产业的进一步发展和应用安全具有重要的科学与应用价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问