分享自:

结合卷积神经网络和迁移学习的电机轴承故障诊断方法

期刊:华北电力大学学报DOI:10.3969/j.issn.1007-2691.2023.01.09

学术研究报告:一种结合卷积神经网络与迁移学习的电机轴承故障诊断方法

本报告旨在介绍由李俊卿刘静(来自华北电力大学电气与电子工程学院)共同完成的一项原创性研究。该研究以论文形式《结合卷积神经网络和迁移学习的电机轴承故障诊断方法》发表于《华北电力大学学报》2023年1月第50卷第1期。以下是对该研究的系统性报告。

一、 研究的学术背景

本研究属于机械状态监测与故障诊断领域,具体聚焦于电机滚动轴承的智能故障诊断技术。轴承作为电机中的关键且易损部件,其健康状态直接影响设备安全。基于振动信号的分析是业内主流且有效的诊断方法。传统方法依赖专家经验从时域、频域或时频域(如小波变换)信号中手动提取特征,存在效率低、泛化性差的局限。

随着人工智能发展,深度学习,特别是卷积神经网络(Convolutional Neural Network, CNN),因其能自动从数据中学习层次化特征,在该领域展现出巨大潜力。然而,现有基于深度学习的方法面临两大挑战:第一,许多方法(如将一维信号简单分段重组为二维矩阵)未能充分利用信号中的深层特征信息;第二,也是更关键的问题,实际工程中设备工况多变,难以获取每个工况下大量带标签的故障数据。在“变工况、小样本”场景下,模型的诊断效果和泛化能力会急剧下降,成为技术应用的瓶颈。

为此,本研究提出了一种创新的解决方案,其核心目标是:解决在变工况下有效数据样本不足时,电机轴承故障诊断效果不佳的问题。研究旨在通过结合小波变换、CNN与迁移学习(Transfer Learning),实现高精度的特征自动提取,并提升模型在有限样本条件下的跨工况诊断能力。

二、 研究的工作流程详述

本研究的工作流程清晰,可分为四个主要步骤,环环相扣。

第一步:数据预处理与时频图生成。 本研究采用美国凯斯西储大学(Case Western Reserve University)滚动轴承试验台的公开数据集作为研究对象。选取了在四种不同负载(对应转速分别为1797, 1772, 1750, 1730 r/min,标记为0hp, 1hp, 2hp, 3hp工况)下采集的驱动端振动信号,采样频率为12 kHz。故障类型包括正常状态、内圈故障、滚子故障和外圈故障(每种故障又有三种不同直径)。研究首先对原始振动信号进行分割,以1280个数据点(约对应轴承转动三圈)为一个样本。随后,关键创新预处理步骤:对每个样本的振动信号进行连续小波变换(Continuous Wavelet Transform, CWT),选用的母小波为cmor小波基。此步骤将一维时间序列振动信号转换为彩色二维时频图(尺寸为800x800像素)。这一转换至关重要,因为它将信号的时域和频域信息融合在一张图像中,为后续基于图像处理的CNN提供了富含特征的输入,克服了简单分段法信息利用不充分的缺点。最终,构建了四个数据集(A, B, C, D),分别对应四种工况。其中,数据集A(0hp)样本充足(共900个样本,训练集600,验证集200,测试集100),用于初始模型训练;数据集B、C、D(1hp, 2hp, 3hp)则模拟“小样本”场景(各400个样本,训练集仅200),用于验证迁移学习效果。

第二步:卷积神经网络(CNN)的构建、训练与优化。 研究者构建了一个专用于处理时频图的CNN模型。网络输入为调整后的150x150 RGB图像。网络结构包含3个卷积层(Conv2D)和4个最大池化层(MaxPooling2D),用于逐层提取和压缩特征;之后连接一个Dropout层、一个具有512个神经元的全连接层(Dense),以及一个使用Softmax激活函数的4神经元输出层(对应四类故障状态)。整个网络共有约429万个可训练参数。在训练过程中,研究团队系统地通过实验确定了关键超参数:选用Adam优化器、批处理样本数为10、以及前述的3卷积层+4池化层结构为最优配置。

为了应对过拟合这一核心难题,研究采用了两种有效的策略:1. 数据增强(Data Augmentation):在训练过程中,使用Keras的ImageDataGenerator类对输入的时频图进行实时、随机的轻微旋转、平移和剪切,在不改变故障本质特征的前提下,人工扩充了训练样本的多样性。2. Dropout机制:在网络的全连接层前引入Dropout层,随机“丢弃”一部分神经元,迫使网络不过度依赖某些局部特征,从而增强泛化能力。训练使用数据集A进行,以交叉熵为损失函数,最终在测试集上达到了99.8%的准确率。训练损失和验证损失曲线均迅速收敛至接近零,表明模型训练良好且未出现过拟合。

第三步:引入迁移学习应对变工况小样本问题。 这是本研究解决工程实际问题的核心环节。其基本思想是:将在一种工况(源域,即数据集A)下训练好的、已经学会提取通用轴承故障特征的CNN模型知识,迁移到另一种相似但数据分布不同的工况(目标域,即数据集B/C/D)中去。具体操作采用模型迁移微调(Fine-tuning) 策略:首先,冻结在数据集A上训练好的CNN模型的底层结构(即前面的卷积层和池化层),因为这些层学到的特征(如边缘、纹理)较为通用。然后,仅用目标工况(如1hp)下少量的训练样本(200个),以一个非常小的学习率(1e-5),对网络的顶层结构(主要是全连接层和最后的卷积基)进行再次训练(微调)。这样,模型在保留通用特征提取能力的基础上,仅用少量数据就自适应地学习了新工况下的特异性特征。

第四步:对比分析与结果验证。 为全面评估所提方法的优越性,研究者设计了对比实验:方法一(基线):不使用小波变换和迁移学习,仅将原始信号构建为二维矩阵输入CNN。方法二:使用小波变换+CNN,但不使用迁移学习。方法三(本文方法):完整的小波变换+CNN+迁移学习框架。三种方法均在四个数据集上进行测试,并取10次实验的平均准确率作为最终结果。

三、 研究的主要结果

研究的每一步都产生了关键结果,并逻辑严密地导向最终结论。

CNN构建与训练阶段,超参数调优实验给出了明确结论:Adam优化器在收敛速度和最终精度上均优于SGD和RMSprop;网络结构方面,3个卷积层与4个池化层的组合取得了最高的验证集准确率(98.7%),层数过多或过少都会导致性能下降;批处理样本数为10时,在保持高准确率(99.8%)的同时训练效率最高。最终,在数据集A(充足样本)上,优化后的CNN模型取得了99.8% 的测试准确率,证明了“小波变换+CNN”方案在样本充足时具有极高的诊断精度。混淆矩阵显示,模型能近乎完美地区分四种健康状态。

迁移学习应用阶段,结果有力地支持了研究假设。尽管数据集B、C、D的每个训练集仅有200个样本(是数据集A的三分之一),但通过迁移学习微调后,模型在这些新工况测试集上的准确率分别达到了98.3%、96.7%和95.3%。这表明,即使目标工况可用数据很少,模型也能通过迁移源域知识实现高性能诊断,显著提升了泛化能力。

对比分析阶段,结果清晰地展示了所提方法各组成部分的价值。在充足样本的数据集A上,方法二(99.8%)和方法三(99.8%)均远高于方法一(94.2%),这证明了小波变换生成时频图作为CNN输入,比简单重组一维信号能更充分地提取特征。在样本不足的数据集B、C、D上,方法三的准确率(98.3%, 96.7%, 95.3%)全面且显著地高于方法二(95.8%, 94.4%, 93.2%)和方法一(81.7%, 79.6%, 86.1%)。这确凿地证明了迁移学习的引入,能有效利用源域知识,极大提升模型在变工况小样本条件下的诊断性能。研究还提供了方法三对数据集B分类结果的混淆矩阵,直观显示100个测试样本中仅有2个内圈故障样本被误判,整体分类效果优异。

四、 研究的结论与价值

本研究成功提出并验证了一种有效的电机轴承故障诊断方法。结论可概括为:1. 将振动信号通过小波变换转化为彩色时频图,再输入CNN进行训练的方法,能够实现故障特征的自动、高效提取,在样本充足时诊断精度极高。2. 在CNN训练中结合数据增强和Dropout机制,能有效抑制过拟合,提升模型鲁棒性。3. 引入迁移学习策略,通过冻结底层、微调顶层的方式,能够使训练好的模型快速适应新的工况,仅需少量新工况样本即可达到高精度诊断,从根本上解决了实际工程中“变工况下有效样本不足”的难题

该研究的科学价值在于为基于深度学习的故障诊断提供了一个融合信号处理(小波变换)、深度学习(CNN)和迁移学习的完整框架,深化了小样本、跨域适应在机械故障诊断领域的研究。其应用价值尤为突出:该方法降低了智能诊断系统对大量工况标签数据的依赖,提高了诊断模型在实际工业多变环境中的实用性和部署灵活性,为设备预测性维护提供了更可行的技术方案。

五、 研究的亮点

  1. 方法集成创新:并非简单应用现有深度学习模型,而是创造性地将小波变换(时频分析)、卷积神经网络(特征自动提取)与迁移学习(知识迁移) 三者深度融合,形成了一个针对工程痛点的系统性解决方案。
  2. 聚焦核心工程难题:直接瞄准“变工况下小样本故障诊断”这一实际应用中的关键瓶颈,研究目标具有明确的现实意义。
  3. 详实的实验设计与对比:研究不仅验证了自身方法的有效性,还通过设置严谨的对照实验(方法一、二、三),逐步论证了每个技术环节(小波变换、迁移学习)的独立贡献,使结论非常具有说服力。
  4. 细致的模型优化过程:对CNN的网络结构、优化器、批大小等超参数进行了详细的实验对比和选择,并采用了数据增强和Dropout来防止过拟合,体现了严谨的机器学习建模流程。

六、 其他有价值内容

研究中对数据集构建的描述非常详细,包括样本长度(1280点)、各数据集样本划分的具体数量(训练/验证/测试集),确保了实验的可复现性。此外,文中明确指出了所选用的小波基类型(cmor小波),以及迁移学习微调时使用的具体学习率(1e-5),这些细节对于其他研究者复现或借鉴该方法至关重要。论文最后的对比分析部分,通过列表和准确率数据直观展示了不同方法的性能差异,是评估方法优势的有力证据。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com