工业设备鲁棒状态监测的概率状态空间建模

分享自：
工业设备鲁棒状态监测的概率状态空间建模

工程学
机械
期刊:journal of manufacturing systemsDOI:10.1016/j.jmsy.2025.09.016
【点击此处】阅读全文、收藏及针对性提问
本文旨在介绍发表于 journal of manufacturing systems 期刊第83卷（2025年）上的一项原创性研究成果，题为“Probabilistic State–Space Modeling for Robust Condition Monitoring of Industrial Equipment”。本研究由隶属于比利时根特大学工程与建筑学院的 Victor Vantilborgh、Tom Lefebvre 和 Guillaume Crevecoeur 共同完成，并得到了比利时制造业战略研究中心 MIRO（Flanders Make）的支持。该论文于2025年10月15日在线发表，提出了一种通用的、低成本的概率性工业设备状态监测（Condition Monitoring）方法，其核心在于利用概率状态空间模型（Probabilistic State–Space Model， PSSM）来构建鲁棒的虚拟传感器，实现对设备健康状况及剩余使用寿命（Remaining Useful Lifetime， RUL）的实时、不确定性量化的估计。
研究的学术背景
在过去的几十年里，随着工业设备数字化水平的提升与传感器技术的普及，运行数据的可获得性大幅增加。同时，现代机械设备的复杂性也在不断提高。在此背景下，数据驱动的预测与健康管理（Prognostics and Health Management， PHM）领域，特别是状态监测，受到了广泛关注。状态监测作为一种主动维护策略，旨在持续监控设备以检测其偏离正常（健康）运行状态的迹象。其中的一个子领域是预测（Prognostics），专注于预测设备未来性能，而准确的剩余使用寿命预测则是避免经济损失和安全风险的有力工具。
当前，数据驱动的预测方法，尤其是深度学习（Deep Learning， DL）模型，如循环神经网络（RNN）及其变体长短期记忆网络（LSTM）、门控循环单元（GRU）等，在RUL预测领域取得了显著成果。这些模型能够自主处理数据、提取特征，并以回归问题的形式进行预测。然而，现有的DL方法存在几个关键挑战：首先，它们大多仅提供确定性的点估计，难以反映实际应用中固有的不确定性（Uncertainty Quantification）。其次，这类模型通常是难以解释的“黑箱”，限制了其在关键决策场景中的应用。最后，也是本研究着重关注的一点，当前基于DL的端到端学习方法，其数据输入结构被硬编码在模型架构中。这意味着，在操作阶段，如果某些传感器信号暂时不可用或数据结构与训练阶段不同，模型将无法有效工作，缺乏处理部分输入信息的鲁棒性。
鉴于在纯粹的深度学习范式内难以优雅地解决上述问题，本研究提出了一种基于概率状态空间模型的替代策略。PSSM 将任何测量值视为潜在动态变量（隐状态）的部分且有噪声的观测结果。这种结构明确地将模型分为观测特征和底层系统动力学及其各自的随机性，从而增强了模型的可解释性，并尊重了物理因果性，便于集成先验知识。一旦模型被识别，便可用于基于实时测量值对系统状态进行概率估计，并进而重构出无法直接测量的“昂贵”信号，实现通用目的的虚拟传感器。本研究与以往PSSM方法的关键区别在于对待RUL等人工或合成指标的方式：在训练阶段，将包括RUL在内的所有数据均视为常规测量变量；在部署阶段，则仅基于可用的测量变量估计隐状态，并利用已识别的观测模型从该状态估计中重构出目标变量（如RUL）。
研究的工作流程
本研究的工作流程清晰地区分为两个主要阶段：模型识别阶段和模型部署（推理）阶段。研究的核心是基于两个基准数据集来验证所提方法，分别是广泛用于评估预测技术的商用模块化航空推进系统仿真数据集（C-MAPSS）和关于电磁阀（Solenoid Valve， SV）的加速寿命测试数据集。
问题定义与模型框架建立：研究首先形式化地定义了问题。给定一个包含系统输入（控制输入，如操作条件）、廉价测量信号（始终可用，如常规传感器读数）和昂贵测量信号（仅限在研发环境中获得，如RUL、需特殊设备测量的物理量）的历史数据集。目标是在操作阶段，仅基于实时获取的系统输入和廉价测量，构建一个能够估计（重构）昂贵测量信号（特别是RUL）的概率模型，即求取 ( p(e_t|u_t, c_t; D) )。这被构建为一个扩展的隐马尔可夫模型，其中隐状态 ( x_t ) 在系统输入 ( u_t ) 驱动下演化，并同时产生观测变量 ( y_t = {c_t, e_t} )。
PSSM模型参数化与识别：研究者采用了一个参数化的非线性、非高斯PSSM。模型由三个核心密度函数定义：初始状态密度 ( p(x0) )、状态转移密度 ( p(x{t+1}|x_t, u_t) ) 以及观测密度 ( p(y_t|x_t) )。其中，状态转移密度的均值函数和协方差矩阵函数通过全连接的前馈神经网络（( \eta_f ) 和 ( \eta_Q )）来参数化，使得模型能够学习复杂的非线性动态。观测密度假设为线性高斯模型，即 ( y_t = Cx_t + v_t )，其中 ( v_t ) 为观测噪声。模型参数 ( \theta ) 包括神经网络的权重偏置、初始状态统计量、观测矩阵 ( C ) 和观测噪声协方差 ( R )。
为了从历史数据集中识别（学习）这些未知参数，研究采用了最大似然估计（Maximum Likelihood Estimation， MLE）框架。由于直接优化包含隐变量的似然函数计算上不可行，他们转而优化证据下界（Evidence Lower Bound， ELBO），并利用期望最大化（Expectation-Maximization， EM）算法进行迭代求解。
E步（期望步）：在给定当前参数估计 ( \theta{k-1} ) 的条件下，计算所有训练序列的平滑分布 ( p{\theta_{k-1}}(x^n_T | u^n_T, y^n_T) )。对于非线性非高斯模型，平滑分布无法解析求解。因此，研究采用了顺序蒙特卡洛（Sequential Monte Carlo， SMC）方法，具体来说是粒子滤波（Particle Filter）和粒子平滑器（Particle Smoother），来获得平滑分布的粒子近似表示（即一组带权重的状态样本）。
M步（最大化步）：利用E步得到的平滑分布粒子近似，计算关于参数 ( \theta ) 的期望（即ELBO的近似值），然后使用优化器（如Adam）最大化这个近似ELBO，从而更新模型参数得到 ( \theta_k )。
这一EM迭代过程持续进行直至收敛，最终获得最大似然估计 ( \theta^* )，即识别出的PSSM。
模型部署与概率推理：在模型识别完成后，即可将其部署用于状态监测和RUL预测。在操作阶段，对于新的运行序列，只有系统输入 ( u_t ) 和廉价测量 ( c_t ) 可用。此时，目标是根据实时数据估计昂贵测量 ( e_t ) 的后验分布 ( p(e_t|u_t, c_t) )。这被分解为两个连续步骤：
贝叶斯滤波（编码）：利用识别出的PSSM (( p_{\theta^*} ))，将实时输入 ( u_t ) 和观测 ( c_t ) 编码为对当前隐状态 ( x_t ) 的置信分布 ( b_t(x_t) = p(x_t|u_t, c_t) )。这通过执行粒子滤波（仅使用与 ( c_t ) 相关的边缘化观测似然）来实现。
虚拟传感（解码）：从更新后的状态置信分布 ( b_t(x_t) ) 出发，通过应用识别出的观测模型中关于 ( e_t ) 的部分，计算 ( e_t ) 的传感分布 ( o_t(e_t) = p(e_t|u_t, ct) = \int p{\theta^*}(e_t|x) b_t(x) dx )。该分布提供了对RUL或其他昂贵变量的概率估计，包括其不确定性。
处理缺失模型输入：本研究方法的一个重要优势是能够灵活处理操作阶段传感器信号缺失的情况。当不确定哪些信号会缺失时，可以在部署阶段动态地将可用信号归类为 ( c_t )，将缺失信号归类为 ( et )。滤波步骤使用可用信号对应的边缘化观测似然 ( p{\theta^*}(c_t|x_t) ) 进行。随后，缺失信号（现在属于 ( e_t )）的后验分布仍可通过上述虚拟传感步骤进行估计，从而实现了对部分信息输入的鲁棒性。
实验验证与对比：研究在两个数据集上验证了方法。
C-MAPSS数据集：在FD001和FD004子集上进行测试。使用操作设置和传感器读数作为 ( u_t ) 和 ( c_t )，RUL作为 ( e_t )。模型利用训练集进行识别，并在测试集上评估RUL预测性能。评价指标采用该领域常用的根均方误差（RMSE）和非对称评分函数（Score）。研究将提出的深度PSSM方法与多种最先进的深度学习方法进行了对比，包括LSTM、SMoDN、IDMFFN等确定性模型，以及贝叶斯神经网络（BNN）、改进的回声状态高斯过程（IESGP）等提供不确定性量化的模型。
电磁阀数据集：该数据集包含在研发环境中获得的加速寿命测试数据。易于获取的电流特征（如缺口位置、阻抗谱幅值等）和供应压力作为 ( c_t )，而难以在线测量的物理量（如出口流量、泄漏流量、首次撞击时间、表面温度）以及RUL作为 ( e_t )。模型在包含所有信号的数据集上识别。在部署（模拟操作环境）时，仅使用电流特征和供应压力（作为 ( c_t )）来估计RUL和其他不可观测的物理变量（( e_t )）。此外，还专门测试了供应压力传感器在测试中途“失效”（即信号变为缺失）的场景，以验证方法处理缺失输入的能力。
研究的主要结果
C-MAPSS数据集上的预测性能：论文展示了在FD001和FD004数据集上，深度PSSM模型对测试发动机的RUL预测结果（包括95%置信区间）。结果显示，在寿命早期，由于使用模式和系统随机性导致的寿命差异较大，模型预测的不确定性范围较宽。随着发动机接近寿命终点，退化信息变得明显，预测的准确度和置信度随之提高。在定量对比中，深度PSSM取得了具有竞争力的性能。例如，在FD001上，RMSE为13.4，Score为407.8；在FD004上，RMSE为22.8，Score为6462.5。其性能与那些专门为优化RMSE和Score指标而设计的先进方法相当，甚至优于部分方法，尽管深度PSSM在训练时并未显式针对这些指标进行优化，而是以最大化似然为目标，这保持了其概率建模的通用性。
电磁阀数据集上的综合表现：
RUL预测与不确定性量化：模型成功地在仅使用操作环境可用信号（电流特征）的情况下，为测试电磁阀输出了RUL的概率估计（后验分布），提供了预测的不确定性信息。
多变量估计与故障模式推断：作为一个关键优势，该模型不仅预测RUL，还能同时估计其他在操作中无法直接观测的物理变量，如流量、泄漏量、表面温度等。论文通过三个不同故障模式（如卡在关闭位置、在打开位置异响、开闭机制故障）的电磁阀案例，展示了如何通过这些估计的物理变量来推断具体的故障模式。例如，受阻的通过流量、无泄漏流量、首次撞击时间缩短和表面温度升高共同暗示了阀门可能卡在关闭位置。
处理缺失输入的能力：在模拟供应压力传感器中途失效的实验中，模型在传感器失效前能提供对不可观测变量的准确估计。失效发生后，虽然对供应压力本身的估计准确性下降，且由于该信息对流量估计很重要，导致流量估计的不确定性增加，但对RUL的估计仍保持相对准确和稳定，证明了方法对部分信息损失的鲁棒性。
与RNN/LSTM架构的形式化对比：研究从架构上对比了PSSM框架与RNN/LSTM。两者在功能上具有相似性：RNN的内部状态 ( m_t ) 类似于PSSM的置信状态 ( b_t )；RNN的更新函数 ( v ) 对应于PSSM中结合了预测和更新的贝叶斯滤波算子 ( v” \circ v’ )；RNN的输出函数 ( w ) 对应于PSSM的虚拟传感算子 ( w )。关键区别在于：PSSM明确区分了因果性的系统输入 ( u_t ) 和作为证据的系统输出 ( c_t )，而RNN将它们视为无差别的输入连接；PSSM的模型结构（动力学与观测分离）更易于解释和融入物理知识；最重要的是，PSSM能自然地处理缺失的模型输入，这是标准RNN架构难以直接实现的。
研究的结论与价值
本研究成功提出并验证了一种基于数据驱动概率状态空间模型的通用、鲁棒状态监测框架。该框架能够从包含丰富信息（包括昂贵或人工构造的信号，如RUL）的研发数据集中学习一个表征设备退化动力学的PSSM，并在操作阶段将其转化为一个虚拟传感器，仅利用低成本、非侵入性的测量信号，实时、概率性地估计设备的关键健康指标和剩余使用寿命。
其科学价值在于：1) 为数据驱动的预测健康管理提供了一种超越传统深度学习回归范式的、基于贝叶斯状态估计的新颖视角。2) 将RUL等抽象指标作为常规观测变量纳入状态空间模型进行联合学习与估计，是一种方法上的创新。3) 实现了对预测不确定性的本质性量化，这对于基于风险的维护决策至关重要。
其应用价值突出体现在：1) 灵活性：能够在训练阶段利用所有可用数据（包括操作中不可得的信号）来构建更准确的模型，而在部署时仅依赖有限信号工作。2) 鲁棒性：能够处理操作阶段传感器信号部分缺失或临时失效的实际情况，提高了状态监测系统的可靠性。3) 可解释性与信息丰富性：通过估计隐状态和相关物理变量，不仅提供RUL点估计，还能提供设备健康状况的上下文信息，辅助故障诊断和根本原因分析。
研究的亮点
方法创新性：首次明确提出并实现了将RUL视为PSSM中常规观测变量进行建模和估计的完整流程，而非传统上先预测状态再基于阈值计算RUL的方法。
处理部分信息的鲁棒性：系统性地解决了当前深度学习模型在输入信号结构发生变化（如部分信号缺失）时失效的问题，这是现有文献中尚未充分解决的挑战。
不确定性量化与多任务输出：在提供具有竞争力点预测精度的同时，内生地提供了预测不确定性，并能同步估计多个相关的健康指标变量，实现了超越单一RUL预测的综合性状态监测。
验证的全面性：在两个性质不同（一个为广泛认可的仿真基准，一个为实际的物理部件测试）、挑战性各异的工业相关数据集上验证了方法的有效性和优势。
框架的通用性：所提框架不依赖于特定的神经网络结构或推理算法（可使用不同的粒子滤波/平滑变体），具有良好的扩展性和进一步优化的潜力。
其他有价值的内容
论文在附录中详细提供了所采用的期望最大化算法结合顺序蒙特卡洛（EM-SMC）的具体数值实现细节，以及粒子滤波和平滑器的算法伪代码，这对于其他研究者复现或借鉴该方法具有重要参考价值。此外，研究还讨论了该方法与系统可观测性（Observability）概念的联系，为分析在部分传感器失效情况下估计的可靠性提供了理论思考方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问