这篇研究论文的题目为“The value of human data annotation for machine learning based anomaly detection in environmental systems”,由以下主要作者及机构合作完成:Stefania Russo(ETH Zürich, Ecovision Lab)、Michael D. Besmer(Oncyt Microbiology AG)、Frank Blumensaat(ETH Zürich, Institute of Environmental Engineering)等。这项研究发表于《Water Research》期刊第206卷,于2021年9月27日在线发表。
该研究属于环境科学与机器学习(Machine Learning, ML)交叉领域,专注于通过机器学习技术对环境系统中的异常进行检测,具体研究了人类专家数据标注在这种任务中的价值。近年来,环境监测领域的数据量大幅增加,既包括人工设计的工程化系统,也包括自然系统。这些数据通常质量不一,并包含异常值,例如传感器故障、生物学过程中的非线性或随机事件等。
“异常检测”(Anomaly Detection, AD)指从数据集中识别出不符合系统正常行为的异常样本。已有许多基于机器学习的自动化异常检测技术问世,这些技术主要分为监督式学习(Supervised Learning)、单类监督式(One-Class Supervised Learning, OCSUP)和无监督学习(Unsupervised Learning, UNSUP)。然而,环境系统中的异常检测研究仍然缺乏全面、系统的比较。本研究的主要目的是评估15种不同的异常检测模型在5个环境数据集上的性能,探讨模型调参和专家标注的重要性,并首次实现这些模型的有效基准测试。
研究流程包括数据预处理、模型训练与验证、异常检测模型性能的比较及数据分析。开发和评估的方法包括监督、单类监督和无监督三种模型设置,目的是全面分析人类标注数据的价值及机器学习模型的表现。
研究共选择了5个环境监测数据集,每个数据集的来源和特点如下:
为了使模型适应,所有数据在训练前均进行了标准化(零均值和单位方差),并强调尽量减少特定领域的特征工程干扰。所有数据的异常标注由领域专家完成,重点针对复杂异常和不同类型的异常进行评估。
本研究对5类模型进行了研究和评估,每类包含监督、单类监督及无监督的三种范式。具体模型结构包括: - 生成模型:如Gaussian Mixture Model (GMM)。 - 距离测度模型:如K-Nearest Neighbours (KNN)。 - 树集成模型:如Random Forest (RF)、Isolation Forest (IF)。 - 支持向量机:包括传统SVM和One-Class SVM。 - 神经网络:如Autoencoder (AE)。
校准过程对参数敏感性进行了多维度评估,并对每种设置生成ROC(Receiver Operating Characteristic)曲线及参数的Pareto ROC曲线,以体现其在不同域和阈值下的性能。
为了公平地比较模型性能,研究采用多种指标,包括ROC曲线下的面积(Area Under Curve, AUC)。此外,研究还关注不同模型在高数据不平衡条件下的表现稳定性。
Pareto ROC曲线分析
通过对所有模型的Pareto ROC曲线分析发现,监督学习(SUP)模型表现最佳,在大多数数据集上优于OCSUP和UNSUP模型。在某些情况下(如Oncyt数据集),OCSUP模型可以达到SUP的性能。
AUC指标及参数敏感性
模型类型
复杂性对检测的影响
数据集中异常类型的复杂性对检测性能影响显著。例如,对于UWO S2,复杂的“集合型异常”对多种模型的表现构成挑战,模型难以可靠地分离正常与异常样本。
科学意义
本研究首次通过对多个环境数据集的基准测试,全面揭示了在环境监测中机器学习模型异常检测的优劣。实验结果明确表明,领域专家标注的数据对于提升监督模型性能至关重要,特别是在数据异常复杂的情况下。
应用价值
如果数据标注资源有限,本研究建议针对简单异常使用OCSUP和UNSUP模型,而对于高复杂异常(如非线性、时间波动等),应优先考虑SUP模型并投入更多标注资源。
方法学进展
未来展望
未来研究应探索如何在“无标注”数据下更高效地检测复杂环境异常,包括深度学习中的自编码变体(如变分自动编码器)或嵌入领域知识的混合模型。此外,可研究融合“主动学习”和“半监督学习”在减少专家标注负担方面的作用。