基于动态选择方法的不平衡学习在水质异常检测中的应用

分享自：
基于动态选择方法的不平衡学习在水质异常检测中的应用

期刊:symmetryDOI:10.3390/sym13050818
基于动态选择方法的不平衡学习在水质异常检测中的应用研究
一、 研究作者、机构及发表信息
本研究由来自南非约翰内斯堡大学电气与电子工程科学系的 Eustace M. Dogo 和 Nnamdi I. Nwulu、德班理工大学工程与建筑环境学院的 Bhekisipho Twala，以及约翰内斯堡大学工程与建筑环境学院可持续人类住区与建筑研究中心的 Clinton Aigbavboa 共同完成。通讯作者为 Eustace M. Dogo。该研究于2021年5月7日发表在学术期刊《Symmetry》上，论文标题为“Accessing Imbalance Learning Using Dynamic Selection Approach in Water Quality Anomaly Detection”。
二、 学术背景与研究目的
本研究属于机器学习与数据挖掘在环境监测与公共健康领域的交叉应用研究，具体聚焦于饮用水水质异常检测（Water Quality Anomaly Detection, WQAD）中的分类问题。
研究背景：获取清洁安全的饮用水对人类健康至关重要。水质异常检测是水务公司分销系统中的关键环节，旨在降低不洁水对消费者的风险。然而，该领域面临两大核心挑战：1）数据不平衡：水质异常事件（少数类）在数据集中占比极低，而正常事件（多数类）占绝大多数，这导致传统机器学习算法倾向于预测多数类，从而忽略关键的异常事件。2）数据缺失：由于传感器故障或数据传输损坏，水质监测数据中常存在缺失值，进一步增加了建模的复杂性。
研究动机：动态选择（Dynamic Selection, DS）技术，特别是动态分类器选择（Dynamic Classifier Selection, DCS）和动态集成选择（Dynamic Ensemble Selection, DES），已被证明在处理不平衡数据集分类任务时，相比传统的单一分类器或静态集成方法具有优势。然而，将缺失数据处理、重采样技术与动态选择方法相结合，并将其应用于大规模、真实世界的WQAD问题的研究尚不多见。
研究目标：本研究旨在通过结合缺失数据填补、重采样算法和动态选择技术，优化水质异常检测分类模型的性能。具体研究问题包括：1）评估所研究水质数据集的分类复杂度；2）探究动态选择方法是否适用于不平衡的水质异常检测任务；3）比较动态选择技术与静态分类器/集成方法在该问题上的性能。
三、 详细研究流程
本研究包含一个预备实验和两个核心实验，采用了一个公开的真实世界饮用水水质异常检测数据集。
1. 研究对象与数据预处理： * 数据集：来自GECCO 2018竞赛，由德国一家公共水务公司提供。包含10个特征变量（如水温、pH值、电导率、浊度、流量等）和1个二元目标变量“事件”（0代表正常，1代表异常）。数据为时间序列，采样间隔为60秒。 * 数据集划分与特点：训练集和测试集各有139,566个实例。训练集中少数类（异常）与多数类的比例为1:79.86，测试集为1:58.93，属于高度不平衡数据集。除时间和事件标签外，所有特征均存在缺失值，假设为完全随机缺失（Missing Completely At Random, MCAR）。 * 预处理：对训练集和测试集均进行数据归一化（将特征缩放至[0,1]区间）和缺失值填补（采用MissForest方法）。重采样技术（SMOTE及其变体）仅应用于训练集，以避免数据泄露和过拟合。
2. 实验流程： * 实验1：静态分类器与静态集成方法基准测试 * 目的：为后续动态选择方法建立性能基准。 * 方法：对16种常用的单一分类器和静态集成方法（如支持向量机、逻辑回归、随机森林、XGBoost、Easy Ensemble等）进行超参数优化（使用网格搜索和5折交叉验证，以F1分数为优化指标）。使用SMOTE-ENN重采样方法处理训练数据，然后在独立的、不平衡的测试集上评估模型性能。主要评估指标为平衡准确率（Balanced Accuracy）、F1分数（F1-Measure）和几何均值（G-Mean）。
实验2：基于同质集成的动态选择方法评估
目的：评估在同质集成框架下，结合不同重采样和动态选择策略的性能。
方法： 集成生成：采用Bagging作为同质集成方法，分别以决策树（Decision Tree, DT）和随机森林（Random Forest, RF）作为基分类器，生成包含100个分类器的集成池。
动态选择策略：评估六种动态选择方法：三种DCS方法（RANK, LCA, OLA）和三种DES方法（KNORA-E, KNORA-U, META-DES）。
组合实验：将一种缺失值填补方法（MissForest）、三种SMOTE基重采样方法（SMOTE, SMOTE-ENN, SMOTE-Tomek Links）与六种动态选择方法进行组合。共评估了39种模型变体（见表2）。
训练与评估流程（核心创新流程，见图3）： 预处理：对原始训练集进行缺失值填补和归一化。
重采样：对预处理后的训练集应用SMOTE、SMOTE-ENN或SMOTE-Tomek Links进行平衡处理。
数据集分割：将重采样后的平衡训练集随机分为两半：一半用于训练Bagging集成模型（生成分类器池），另一半作为动态选择数据集（Dynamic Selection dataset, DSEL），用于动态选择阶段估计分类器在局部区域的能力。
模型训练：使用训练集部分训练Bagging集成模型。
动态选择与测试：对于测试集中的每一个查询实例，动态选择方法利用DSEL来定义其能力区域（Region of Competence, RoC），然后根据特定准则（如局部精度、排名等）从集成池中选择一个（DCS）或一组（DES）最“有能力”的分类器来预测该实例的标签。
对比设置：除了上述组合，还对比了两种场景：a) 使用优化后的基分类器与默认参数的重采样方法组合；b) 使用优化后的基分类器与优化后的重采样方法组合。
实验3：基于异质集成的动态选择方法评估
目的：评估在异质集成框架下，动态选择方法的性能。
方法：使用投票分类器（Voting Classifier）作为异质集成方法，集成池由三种不同的优化分类器（K-近邻、随机森林、决策树）构成。其余流程（动态选择策略、重采样组合、评估方式）与实验2类似。
数据复杂度分析：
目的：回答研究问题1，即评估WQAD数据集的分类复杂度，并判断动态选择方法是否适合此类问题。
方法：计算了8种数据复杂度度量指标（如F1, F1v, F2, F3, F4, N3, T2, T3, T4），这些指标从特征重叠、边界分布、邻域关系等角度衡量分类问题的难度。将本数据集的复杂度与文献中其他用于动态选择研究的数据集进行了比较。
四、 主要研究结果
1. 数据复杂度分析结果： 计算得到的复杂度度量指标（表8）显示，部分指标（如F1值高、F1v值极低、F2值趋近于0）表明数据集分类问题相对简单（类间重叠少），而另一些指标（如F3、F4值较高）则表明问题较为复杂。通过与文献中其他数据集的F1、T2、N3指标进行成对比较（图4），研究发现仅有少数数据集的复杂度高于本研究的WQAD数据集。基于此，研究得出结论：该WQAD数据集具有相当的分类复杂度，因此适合应用动态选择方法进行研究。
2. 实验1结果（静态方法基准）： 在16种优化的静态分类器和集成方法中（表9），Easy Ensemble 在平衡准确率、F1分数和G-均值上取得了最佳结果。然而，作者指出Easy Ensemble内部使用了随机欠采样（RUS），而RUS在处理高度不平衡数据时存在丢弃有价值多数类信息、难以在集成中保持多样性等缺点。相比之下，XGBoost 模型表现出了显著且均衡的优异性能（平衡准确率0.787， F1分数0.541， G-均值0.760），被认为是更有潜力的基准模型。
3. 实验2与实验3结果（动态选择方法）： * 优化效果：所有模型组合在“优化基分类器+优化重采样方法”场景下的性能均优于“优化基分类器+默认重采样方法”场景，这证实了联合优化的重要性。 * 同质集成（Bagging）结果： * 以决策树为基分类器（表10）：在“优化基分类器+优化重采样方法”场景下，结合MissForest+SMOTE+RANK 和 MissForest+SMOTE+OLA 的模型在平衡准确率和G-均值上表现最佳，分别达到0.786。这表明基于排名的DCS方法（RANK）和基于局部整体精度的DCS方法（OLA）在处理此类不平衡数据时，能够有效选择出对少数类识别能力更强的分类器。 * 以随机森林为基分类器（表11）：在“优化基分类器+优化重采样方法”场景下，结合MissForest+SMOTE-ENN+LCA 的模型（即 bg+mf+smenn+lca）在F1分数上取得了最佳整体表现（0.410）。这表明基于局部类别精度的DCS方法（LCA）与SMOTE-ENN这种能有效清理边界噪声的重采样方法结合，在精确率和召回率之间取得了更好的平衡。 * 异质集成（投票分类器）结果：文中虽未详细列出所有异质集成的具体数值结果，但通过整体分析指出，同质集成（Bagging）结合动态选择的方法，其性能普遍优于异质集成（投票分类器）结合动态选择的方法。 * 动态选择 vs. 静态集成：总体而言，动态选择技术的引入显著提升了模型在不平衡水质异常检测任务上的性能，尤其是在平衡准确率和G-均值这两个对类别不平衡敏感的指标上，表现优于实验1中的大多数静态方法（包括表现优异的XGBoost）。这直接回答了研究问题2和3，肯定了动态选择方法在此类任务中的适用性和优势。 * 重采样方法比较：SMOTE-ENN（结合了过采样和基于编辑最近邻的数据清洗）在多数情况下，尤其是与LCA等动态选择方法结合时，表现出更好的性能。这支持了研究假设，即通过清理重叠和噪声样本，能为分类器提供更清晰的决策边界，并通过改善DSEL质量来提升动态选择阶段的表现。
五、 研究结论与价值
结论：本研究成功地将缺失值填补（MissForest）、重采样技术（SMOTE及其变体）与动态选择方法相结合，应用于大规模、真实世界的饮用水水质异常检测这一高度不平衡的分类问题。实验结果表明： 1. 所研究的水质数据集具有相当的分类复杂度，适合应用动态选择方法。 2. 动态选择方法，特别是动态分类器选择（DCS）技术，如RANK、OLA和LCA，能有效提升水质异常检测模型的性能。 3. 在平衡准确率和G-均值上，基于同质Bagging集成、以决策树为基分类器的 MissForest+SMOTE+RANK/OLA 模型组合表现最佳。 4. 在F1分数上，基于同质Bagging集成、以随机森林为基分类器的 MissForest+SMOTE-ENN+LCA 模型组合表现最佳。 5. 对基分类器和重采样方法进行联合优化能带来显著的性能提升。
价值： * 科学价值：本研究系统地探索了动态选择技术、集成学习与数据预处理（缺失值填补、重采样）在复杂现实世界不平衡分类问题上的协同作用。研究不仅验证了动态选择在不平衡学习中的有效性，还通过数据复杂度分析为方法的选择提供了理论依据。此外，研究详细比较了多种DCS和DES策略的性能差异，为后续研究提供了参考。 * 应用价值：为水务公司和相关机构提供了一套高效、鲁棒的水质异常自动检测框架。该框架能够更好地识别稀有的异常事件（少数类），降低漏报风险，对于保障公共饮水安全、预防公共卫生事件具有重要的实际意义。所提出的方法流程（预处理->重采样->集成生成->动态选择）具有可推广性，可应用于其他存在数据不平衡和缺失值的工业监测或故障检测场景。
六、 研究亮点
问题导向的创新组合：首次在饮用水水质异常检测领域，系统性地将缺失值处理（MissForest）、多种SMOTE变体重采样技术、以及六种不同的动态选择（DS）方法进行组合研究，构建了一个完整的处理流程，以应对现实数据中并存的不平衡和缺失值挑战。
深入的性能比较与基准建立：研究不仅对比了多种动态选择模型，还首先对16种主流的静态分类器和集成方法进行了超参数优化和基准测试，使得动态选择方法的性能提升有明确的参照。
引入数据复杂度分析：在研究动态选择性能前，先对目标数据集进行了数据复杂度度量，并从理论层面分析了应用动态选择方法的适宜性，增强了研究的严谨性和深度。
关注实际评估场景：严格遵循机器学习最佳实践，重采样仅应用于训练集，并在原始不平衡的测试集上评估最终模型性能，这更符合实际应用场景，结果更具说服力。
发现有效的特定组合：明确了针对不同性能指标（平衡准确率/G-均值 vs. F1分数）的最佳技术组合，为实践者根据具体需求（更关注整体分类均衡性 vs. 更关注少数类的查全与查准平衡）提供了明确的选择指南。
七、 其他有价值内容
研究还指出，虽然META-DES方法因其使用多种元特征来评估分类器能力而备受期待，但在本研究的实验中，其表现并未超越一些更简单的DCS方法（如RANK、OLA）。这可能与数据集特性或参数设置有关，为未来研究留下了探索空间。此外，研究观察到基于随机森林的XGBoost在静态方法中表现突出，建议未来可将其作为基分类器与动态选择方法结合进行进一步探索。最后，作者也指出了本研究的局限性，例如未考虑时间序列特性（将问题视为独立同分布的分类问题），以及未来可探索将动态选择与代价敏感学习、深度学习等方法结合。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问