分享自:

机器学习在人类数据标注中改善环境系统异常检测的价值

期刊:water researchDOI:10.1016/j.watres.2021.117695

学术报告

作者及研究机构、发布时间和发表期刊

这篇研究论文的题目为“The value of human data annotation for machine learning based anomaly detection in environmental systems”,由以下主要作者及机构合作完成:Stefania Russo(ETH Zürich, Ecovision Lab)、Michael D. Besmer(Oncyt Microbiology AG)、Frank Blumensaat(ETH Zürich, Institute of Environmental Engineering)等。这项研究发表于《Water Research》期刊第206卷,于2021年9月27日在线发表。


学术背景及研究目的

该研究属于环境科学与机器学习(Machine Learning, ML)交叉领域,专注于通过机器学习技术对环境系统中的异常进行检测,具体研究了人类专家数据标注在这种任务中的价值。近年来,环境监测领域的数据量大幅增加,既包括人工设计的工程化系统,也包括自然系统。这些数据通常质量不一,并包含异常值,例如传感器故障、生物学过程中的非线性或随机事件等。

“异常检测”(Anomaly Detection, AD)指从数据集中识别出不符合系统正常行为的异常样本。已有许多基于机器学习的自动化异常检测技术问世,这些技术主要分为监督式学习(Supervised Learning)、单类监督式(One-Class Supervised Learning, OCSUP)和无监督学习(Unsupervised Learning, UNSUP)。然而,环境系统中的异常检测研究仍然缺乏全面、系统的比较。本研究的主要目的是评估15种不同的异常检测模型在5个环境数据集上的性能,探讨模型调参和专家标注的重要性,并首次实现这些模型的有效基准测试。


研究流程及具体方法

研究总体流程

研究流程包括数据预处理、模型训练与验证、异常检测模型性能的比较及数据分析。开发和评估的方法包括监督、单类监督和无监督三种模型设置,目的是全面分析人类标注数据的价值及机器学习模型的表现。

数据及实验对象

研究共选择了5个环境监测数据集,每个数据集的来源和特点如下:

  1. Eawag Ponds:约22,464条高时空分辨率数据,监测水质变量如电导率、温度等,时间跨度234天,异常占比2.34%。
  2. Online Flow Cytometry(Oncyt):由在线流式细胞仪生成的1,148条时间序列数据,标注异常率为10.2%。
  3. Urban Water Observatory(UWO S1 & S2):两个污水处理过程监测数据集,分别包含14,545条简单异常(S1)数据及20,979条复杂异常(S2)数据,异常率分别为16.2%和27.0%。
  4. Water Hub:膜生物反应器数据,10个月监测周期,共436,320条数据,异常率13.3%。
数据预处理及标注

为了使模型适应,所有数据在训练前均进行了标准化(零均值和单位方差),并强调尽量减少特定领域的特征工程干扰。所有数据的异常标注由领域专家完成,重点针对复杂异常和不同类型的异常进行评估。

模型及校准设置

本研究对5类模型进行了研究和评估,每类包含监督、单类监督及无监督的三种范式。具体模型结构包括: - 生成模型:如Gaussian Mixture Model (GMM)。 - 距离测度模型:如K-Nearest Neighbours (KNN)。 - 树集成模型:如Random Forest (RF)、Isolation Forest (IF)。 - 支持向量机:包括传统SVM和One-Class SVM。 - 神经网络:如Autoencoder (AE)。

校准过程对参数敏感性进行了多维度评估,并对每种设置生成ROC(Receiver Operating Characteristic)曲线及参数的Pareto ROC曲线,以体现其在不同域和阈值下的性能。

性能评估

为了公平地比较模型性能,研究采用多种指标,包括ROC曲线下的面积(Area Under Curve, AUC)。此外,研究还关注不同模型在高数据不平衡条件下的表现稳定性。


主要研究结果及讨论

  1. Pareto ROC曲线分析
    通过对所有模型的Pareto ROC曲线分析发现,监督学习(SUP)模型表现最佳,在大多数数据集上优于OCSUP和UNSUP模型。在某些情况下(如Oncyt数据集),OCSUP模型可以达到SUP的性能。

  2. AUC指标及参数敏感性

    • 平均AUC显示SUP模型在所有领域中的表现均优于其他模型。SUP模型的性能数据显示其对复杂异常表现尤为出色。
    • 相比之下,OCSUP和UNSUP模型在不同参数下的性能波动较大,显示出其对参数调节的敏感性。
    • 无标签数据集(UNSUP)下模型表现更不稳定,其AUC值在不同数据集间变化范围大(0.39-0.93)。
  3. 模型类型

    • DANB(线性/生成模型)在简单异常集(如Ponds和UWO S1)表现优异。
    • ANN和AE模型在复杂异常(如UWO S2)中显示出较高的灵活性。
    • One-Class SVM在所有数据集上的表现较差并且不稳定,未来可考虑排除。
  4. 复杂性对检测的影响
    数据集中异常类型的复杂性对检测性能影响显著。例如,对于UWO S2,复杂的“集合型异常”对多种模型的表现构成挑战,模型难以可靠地分离正常与异常样本。


结论及意义

  1. 科学意义
    本研究首次通过对多个环境数据集的基准测试,全面揭示了在环境监测中机器学习模型异常检测的优劣。实验结果明确表明,领域专家标注的数据对于提升监督模型性能至关重要,特别是在数据异常复杂的情况下。

  2. 应用价值
    如果数据标注资源有限,本研究建议针对简单异常使用OCSUP和UNSUP模型,而对于高复杂异常(如非线性、时间波动等),应优先考虑SUP模型并投入更多标注资源。

  3. 方法学进展

    • 本研究建立了一系列全面的基准测试数据及代码(在线提供),为后续研究提供了评估标准。
    • 人工神经网络模型等在处理复杂异常方面展现了潜力,但需加强模型调优手段的研究。
  4. 未来展望
    未来研究应探索如何在“无标注”数据下更高效地检测复杂环境异常,包括深度学习中的自编码变体(如变分自动编码器)或嵌入领域知识的混合模型。此外,可研究融合“主动学习”和“半监督学习”在减少专家标注负担方面的作用。


研究亮点

  1. 多样化数据集的首次全面基准测试,覆盖了多种环境系统(从城市污水到自然水体)。
  2. 证明专家标注的显著价值,尤其是在复杂异常检测中的不可替代性。
  3. 提供了公开可用的完整数据集及方法代码,为后续学术和工业界研究奠定了基础。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com