分享自:

基于文本增强对比评估方法的工业故障诊断RAG增强LLM定量评估

期刊:Advanced Engineering InformaticsDOI:https://ssrn.com/abstract=5146755

本文档属于类型a,即报告了一项原创性研究。以下是根据文档内容生成的学术报告:

作者及研究机构

本研究的主要作者包括Jiamin Xu、Zhiwen Chen、Hao Ren、Zhaohui Jiang、Yalin Wang和Weihua Gui。他们分别来自中南大学自动化学院(Central South University)和鹏城实验室(Pengcheng Laboratory)。该研究尚未经过同行评审,目前以预印本形式发布于SSRN平台,发表日期为2025年2月9日。

学术背景

本研究的主要科学领域是工业故障诊断,特别是利用检索增强生成(Retrieval-Augmented Generation, RAG)技术提升大型语言模型(Large Language Models, LLMs)在故障诊断中的表现。工业设备在复杂环境中长期运行,容易因高温、湿度、强磁场等因素发生故障,这些故障不仅影响系统运行,还可能引发严重的安全事故。因此,快速、准确的故障诊断对于确保工业系统的稳定运行至关重要。

传统故障诊断方法依赖于专家系统和知识图谱,但这些方法在信息检索和交互方面存在局限性。近年来,LLMs因其强大的自然语言处理能力和广泛的知识储备,被应用于故障诊断领域。然而,LLMs在工业领域的专业知识有限,容易生成看似合理但实际错误的“幻觉”响应,这可能导致误判或漏判。RAG技术通过检索相关领域知识,结合LLMs的生成能力,能够有效减少这种幻觉现象。

尽管RAG技术在提升LLMs性能方面表现出色,但目前缺乏定量评估LLMs生成响应质量的方法。现有研究多依赖于专家知识或简单的文本对齐指标,存在主观性强、缺乏定量评估等问题。因此,本研究提出了一种基于文本增强对比评估(Text-Augmented Contrastive Evaluation, TAC-EVA)的新方法,旨在定量评估RAG增强的LLMs生成响应的质量。

研究流程

本研究的主要流程包括以下几个步骤:

  1. 故障日志的收集与预处理
    研究使用了一年内收集的Type 1和Type D重型列车的故障日志。这些日志包含了故障现象、故障位置、故障类型等关键信息。研究首先对日志进行了手动清理,去除了冗余信息,保留了故障现象、故障位置和故障类型三个核心字段。

  2. 领域特定术语修正的TF-IDF方法(DTC-TF-IDF)
    研究提出了一种改进的TF-IDF方法,用于检索与查询最相关的技术文档。传统TF-IDF方法在处理领域特定术语时存在局限性,因为这些术语在一般文本语料库中频率较低,但在领域特定文档中频率较高。DTC-TF-IDF方法通过分析术语在一般文本语料库和领域特定文档中的频率差异,自动构建了一个领域特定术语数据库,并为这些术语赋予更高的权重。研究使用该方法检索了与查询最相关的Top-K文档,并生成了多种扰动文档组合及其对应的对比标签。

  3. 文本增强对比评估框架的设计
    研究设计了一个基于双塔神经网络的评估模型。首先,通过DTC-TF-IDF方法检索出与查询最相关的Top-K文档,并将其标记为正样本,其余文档标记为负样本。然后,通过选择性采样生成了大量包含正负样本的文档组合,并为每个组合生成了对应的组合评分。这些文档组合与查询一起输入LLM,生成响应文本。最后,使用生成的文本标签数据集训练评估模型,以定量评估LLM生成响应的质量。

  4. 评估模型的训练与验证
    研究使用BERT-base-Chinese预训练模型将查询和生成的响应文本转换为向量,并通过一个双塔神经网络进行特征提取。评估模型的训练基于对比学习框架,通过比较不同文档组合的评分,确保评分较高的组合对应更好的评估结果。研究还通过实验验证了评估模型的泛化性能和一致性。

主要结果

  1. DTC-TF-IDF方法的有效性
    实验结果表明,DTC-TF-IDF方法在文档检索任务中表现优于传统TF-IDF方法,准确率、召回率和F1分数分别为0.875、0.916和0.895。

  2. TAC-EVA模型的泛化性能
    随着训练数据量的增加,评估模型在测试集上的准确率逐渐提高。当训练数据量达到14000时,测试集准确率达到0.8739,表明模型具有良好的泛化能力。

  3. 评估模型的一致性
    通过多次输入相同的提示,评估模型生成的响应评分表现出较高的一致性,平均一致性指标(pcons)为0.0822,表明评估结果稳定可靠。

  4. 不同LLMs的性能比较
    研究比较了Qwen-Turbo、Qwen-Max和ChatGLM-6B三种LLMs的性能。结果显示,Qwen-Max的平均评分最高,其次是Qwen-Turbo,ChatGLM-6B评分最低。这与LLMs的复杂性和性能预期一致。

  5. RAG增强的实际应用
    研究通过实验验证了RAG技术在提升LLMs生成响应质量方面的显著效果。RAG增强的LLMs生成响应的平均评分为0.6838,明显高于未增强的LLMs(0.5502)。

结论

本研究提出了一种基于文本增强对比评估(TAC-EVA)的新方法,成功解决了RAG增强的LLMs生成响应质量定量评估的难题。通过DTC-TF-IDF方法准确检索相关文档,并结合双塔神经网络评估模型,研究实现了对LLMs生成响应的高置信度定量评估。实验结果表明,该方法具有良好的泛化性能和一致性,能够有效提升工业故障诊断的准确性和可靠性。

研究亮点

  1. 创新性评估方法
    本研究首次提出了基于文本增强对比评估(TAC-EVA)的方法,为RAG增强的LLMs生成响应质量提供了定量评估工具。

  2. 领域特定术语修正的TF-IDF方法
    研究提出的DTC-TF-IDF方法通过自动构建领域特定术语数据库,显著提升了文档检索的准确性。

  3. 实验验证的广泛性
    研究通过大量实验验证了评估模型的有效性,涵盖了不同LLMs的性能比较和RAG技术的实际应用效果。

其他有价值的内容

研究还展示了TAC-EVA方法在实际工业故障诊断中的应用潜力,为LLMs在工业领域的进一步应用提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com