本文旨在介绍发表于 journal of manufacturing systems 期刊第83卷(2025年)上的一项原创性研究成果,题为“Probabilistic State–Space Modeling for Robust Condition Monitoring of Industrial Equipment”。本研究由隶属于比利时根特大学工程与建筑学院的 Victor Vantilborgh、Tom Lefebvre 和 Guillaume Crevecoeur 共同完成,并得到了比利时制造业战略研究中心 MIRO(Flanders Make)的支持。该论文于2025年10月15日在线发表,提出了一种通用的、低成本的概率性工业设备状态监测(Condition Monitoring)方法,其核心在于利用概率状态空间模型(Probabilistic State–Space Model, PSSM)来构建鲁棒的虚拟传感器,实现对设备健康状况及剩余使用寿命(Remaining Useful Lifetime, RUL)的实时、不确定性量化的估计。
研究的学术背景
在过去的几十年里,随着工业设备数字化水平的提升与传感器技术的普及,运行数据的可获得性大幅增加。同时,现代机械设备的复杂性也在不断提高。在此背景下,数据驱动的预测与健康管理(Prognostics and Health Management, PHM)领域,特别是状态监测,受到了广泛关注。状态监测作为一种主动维护策略,旨在持续监控设备以检测其偏离正常(健康)运行状态的迹象。其中的一个子领域是预测(Prognostics),专注于预测设备未来性能,而准确的剩余使用寿命预测则是避免经济损失和安全风险的有力工具。
当前,数据驱动的预测方法,尤其是深度学习(Deep Learning, DL)模型,如循环神经网络(RNN)及其变体长短期记忆网络(LSTM)、门控循环单元(GRU)等,在RUL预测领域取得了显著成果。这些模型能够自主处理数据、提取特征,并以回归问题的形式进行预测。然而,现有的DL方法存在几个关键挑战:首先,它们大多仅提供确定性的点估计,难以反映实际应用中固有的不确定性(Uncertainty Quantification)。其次,这类模型通常是难以解释的“黑箱”,限制了其在关键决策场景中的应用。最后,也是本研究着重关注的一点,当前基于DL的端到端学习方法,其数据输入结构被硬编码在模型架构中。这意味着,在操作阶段,如果某些传感器信号暂时不可用或数据结构与训练阶段不同,模型将无法有效工作,缺乏处理部分输入信息的鲁棒性。
鉴于在纯粹的深度学习范式内难以优雅地解决上述问题,本研究提出了一种基于概率状态空间模型的替代策略。PSSM 将任何测量值视为潜在动态变量(隐状态)的部分且有噪声的观测结果。这种结构明确地将模型分为观测特征和底层系统动力学及其各自的随机性,从而增强了模型的可解释性,并尊重了物理因果性,便于集成先验知识。一旦模型被识别,便可用于基于实时测量值对系统状态进行概率估计,并进而重构出无法直接测量的“昂贵”信号,实现通用目的的虚拟传感器。本研究与以往PSSM方法的关键区别在于对待RUL等人工或合成指标的方式:在训练阶段,将包括RUL在内的所有数据均视为常规测量变量;在部署阶段,则仅基于可用的测量变量估计隐状态,并利用已识别的观测模型从该状态估计中重构出目标变量(如RUL)。
研究的工作流程
本研究的工作流程清晰地区分为两个主要阶段:模型识别阶段和模型部署(推理)阶段。研究的核心是基于两个基准数据集来验证所提方法,分别是广泛用于评估预测技术的商用模块化航空推进系统仿真数据集(C-MAPSS)和关于电磁阀(Solenoid Valve, SV)的加速寿命测试数据集。
问题定义与模型框架建立:研究首先形式化地定义了问题。给定一个包含系统输入(控制输入,如操作条件)、廉价测量信号(始终可用,如常规传感器读数)和昂贵测量信号(仅限在研发环境中获得,如RUL、需特殊设备测量的物理量)的历史数据集。目标是在操作阶段,仅基于实时获取的系统输入和廉价测量,构建一个能够估计(重构)昂贵测量信号(特别是RUL)的概率模型,即求取 ( p(e_t|u_t, c_t; D) )。这被构建为一个扩展的隐马尔可夫模型,其中隐状态 ( x_t ) 在系统输入 ( u_t ) 驱动下演化,并同时产生观测变量 ( y_t = {c_t, e_t} )。
PSSM模型参数化与识别:研究者采用了一个参数化的非线性、非高斯PSSM。模型由三个核心密度函数定义:初始状态密度 ( p(x0) )、状态转移密度 ( p(x{t+1}|x_t, u_t) ) 以及观测密度 ( p(y_t|x_t) )。其中,状态转移密度的均值函数和协方差矩阵函数通过全连接的前馈神经网络(( \eta_f ) 和 ( \eta_Q ))来参数化,使得模型能够学习复杂的非线性动态。观测密度假设为线性高斯模型,即 ( y_t = Cx_t + v_t ),其中 ( v_t ) 为观测噪声。模型参数 ( \theta ) 包括神经网络的权重偏置、初始状态统计量、观测矩阵 ( C ) 和观测噪声协方差 ( R )。
为了从历史数据集中识别(学习)这些未知参数,研究采用了最大似然估计(Maximum Likelihood Estimation, MLE)框架。由于直接优化包含隐变量的似然函数计算上不可行,他们转而优化证据下界(Evidence Lower Bound, ELBO),并利用期望最大化(Expectation-Maximization, EM)算法进行迭代求解。
这一EM迭代过程持续进行直至收敛,最终获得最大似然估计 ( \theta^* ),即识别出的PSSM。
模型部署与概率推理:在模型识别完成后,即可将其部署用于状态监测和RUL预测。在操作阶段,对于新的运行序列,只有系统输入 ( u_t ) 和廉价测量 ( c_t ) 可用。此时,目标是根据实时数据估计昂贵测量 ( e_t ) 的后验分布 ( p(e_t|u_t, c_t) )。这被分解为两个连续步骤:
处理缺失模型输入:本研究方法的一个重要优势是能够灵活处理操作阶段传感器信号缺失的情况。当不确定哪些信号会缺失时,可以在部署阶段动态地将可用信号归类为 ( c_t ),将缺失信号归类为 ( et )。滤波步骤使用可用信号对应的边缘化观测似然 ( p{\theta^*}(c_t|x_t) ) 进行。随后,缺失信号(现在属于 ( e_t ))的后验分布仍可通过上述虚拟传感步骤进行估计,从而实现了对部分信息输入的鲁棒性。
实验验证与对比:研究在两个数据集上验证了方法。
研究的主要结果
C-MAPSS数据集上的预测性能:论文展示了在FD001和FD004数据集上,深度PSSM模型对测试发动机的RUL预测结果(包括95%置信区间)。结果显示,在寿命早期,由于使用模式和系统随机性导致的寿命差异较大,模型预测的不确定性范围较宽。随着发动机接近寿命终点,退化信息变得明显,预测的准确度和置信度随之提高。在定量对比中,深度PSSM取得了具有竞争力的性能。例如,在FD001上,RMSE为13.4,Score为407.8;在FD004上,RMSE为22.8,Score为6462.5。其性能与那些专门为优化RMSE和Score指标而设计的先进方法相当,甚至优于部分方法,尽管深度PSSM在训练时并未显式针对这些指标进行优化,而是以最大化似然为目标,这保持了其概率建模的通用性。
电磁阀数据集上的综合表现:
与RNN/LSTM架构的形式化对比:研究从架构上对比了PSSM框架与RNN/LSTM。两者在功能上具有相似性:RNN的内部状态 ( m_t ) 类似于PSSM的置信状态 ( b_t );RNN的更新函数 ( v ) 对应于PSSM中结合了预测和更新的贝叶斯滤波算子 ( v” \circ v’ );RNN的输出函数 ( w ) 对应于PSSM的虚拟传感算子 ( w )。关键区别在于:PSSM明确区分了因果性的系统输入 ( u_t ) 和作为证据的系统输出 ( c_t ),而RNN将它们视为无差别的输入连接;PSSM的模型结构(动力学与观测分离)更易于解释和融入物理知识;最重要的是,PSSM能自然地处理缺失的模型输入,这是标准RNN架构难以直接实现的。
研究的结论与价值
本研究成功提出并验证了一种基于数据驱动概率状态空间模型的通用、鲁棒状态监测框架。该框架能够从包含丰富信息(包括昂贵或人工构造的信号,如RUL)的研发数据集中学习一个表征设备退化动力学的PSSM,并在操作阶段将其转化为一个虚拟传感器,仅利用低成本、非侵入性的测量信号,实时、概率性地估计设备的关键健康指标和剩余使用寿命。
其科学价值在于:1) 为数据驱动的预测健康管理提供了一种超越传统深度学习回归范式的、基于贝叶斯状态估计的新颖视角。2) 将RUL等抽象指标作为常规观测变量纳入状态空间模型进行联合学习与估计,是一种方法上的创新。3) 实现了对预测不确定性的本质性量化,这对于基于风险的维护决策至关重要。
其应用价值突出体现在:1) 灵活性:能够在训练阶段利用所有可用数据(包括操作中不可得的信号)来构建更准确的模型,而在部署时仅依赖有限信号工作。2) 鲁棒性:能够处理操作阶段传感器信号部分缺失或临时失效的实际情况,提高了状态监测系统的可靠性。3) 可解释性与信息丰富性:通过估计隐状态和相关物理变量,不仅提供RUL点估计,还能提供设备健康状况的上下文信息,辅助故障诊断和根本原因分析。
研究的亮点
其他有价值的内容
论文在附录中详细提供了所采用的期望最大化算法结合顺序蒙特卡洛(EM-SMC)的具体数值实现细节,以及粒子滤波和平滑器的算法伪代码,这对于其他研究者复现或借鉴该方法具有重要参考价值。此外,研究还讨论了该方法与系统可观测性(Observability)概念的联系,为分析在部分传感器失效情况下估计的可靠性提供了理论思考方向。