Francesca Bellamoli 等人发表在《Journal of Environmental Management》的一篇研究文章中,探索了应用机器学习方法在间歇曝气污水处理厂中进行异常分类的可能性。这项研究由来自 University of Trento 的研究人员与 ETC Sustainable Solutions 和 D-3 Srl 合作完成,于 2023 年发表,期刊编号为 344 (2023) 118594。
污水处理厂(wwtp)的运行需要借助高级控制系统来管理生物过程,以确保出水质量符合排放标准,同时尽量减少能耗。特别是在间歇曝气(intermittent aeration)控制下,这种高级控制系统通过实时监测氨和氧气的水平来调节曝气和缺氧(anoxic)阶段。然而,传统控制系统往往难以应对快速变化的进水负荷、设备故障以及传感器漂移等问题。这些问题可能导致控制器功能失效,机器学习提供了一种潜在的解决方案,可以基于传感器数据检测和分类异常。
尽管已有文献研究了污水处理中的人工智能方法,但尚未对多类别分类问题给予足够关注。此外,现有的研究在真实污水处理厂的验证较少,缺乏对机器学习方法在实际条件下可推广性的数据支持。因此,这项研究的目标是评估多种机器学习分类方法对间歇曝气系统主要异常的检测和分类能力。
研究分析了位于意大利的多个污水处理厂的数据,这些厂均采用间歇曝气工艺。研究涉及两组数据集:
- 数据集 1 含有来自 7 个污水处理厂近两年的数据。
- 数据集 2 包括 51 条生物工艺线、约 40 天的后续运营数据,用作测试集。
数据以每分钟的时间间隔采集,主要包括氨气(ammonia)、氧气(oxygen)和曝气功率(aeration power)测量值。这些测量值通过分阶段的特征提取和处理,用于分类算法的特征输入。
研究将间歇曝气周期(aeration cycle)用作时间聚合单位,一个周期包括非曝气阶段(氨气上升,氧气接近零)和曝气阶段(氨气下降)。为提高机器学习模型的性能,研究对数据进行了如下预处理:
研究使用了以下经典的机器学习方法: - 支持向量机(Support Vector Machine, SVM):使用径向基函数核(RBF Kernel)区分多类。 - 多层感知机(Multi-Layer Perceptron, MLP):通过神经网络处理非线性关系。 - 随机森林(Random Forest):以决策树的集成方式降低过拟合。 - 梯度提升(Gradient Boosting):包括 LightGBM 和 XGBoost 两种实现。
每种方法均通过交叉验证优化超参数,同时采用了严格划分的训练与测试集,确保基于独立数据的算法性能评估。
数据被分类为以下几种主要异常类型: 1. 高负荷事件(高进水负荷导致氨气超标)。 2. 低负荷事件。 3. 氨气传感器高漂移(测量值上升,导致反应时间延长)。 4. 氨气偏移(Offset)。 5. 氨气传感器低漂移。 6. 氧气传感器污染(导致探头灵敏度降低)。
异常事件的样例标注由专家完成,涉及的时间段从数小时到数周不等。
研究设计了一种新颖的评估协议:以事件而非单独测量点为单位进行验证,目标是确保每类事件的整体检测率(召回率)足够高,并在发生后 48 小时内检测到异常,以便操作员采取措施。
二分类任务
在异常检测(二分类任务)中,XGBoost 和 LightGBM 方法的性能最优。
在测试数据集上,XGBoost 达到 82% 的召回率和 72% 的精确率;LightGBM 展现相当水平。
多分类任务
多分类任务的评价虽不及二分类,但仍具一定效果。LightGBM 在验证集上的宏观召回率达到 83%,而测试数据上为 62%。
不同类型的异常事件中,高负荷和氧气传感器故障等类别的性能较高,而氨气漂移事件的分类较为困难。
本研究证明了应用机器学习算法在间歇曝气污水厂进行异常检测的有效性。基于周期性特征和跨设施标准化的模型设计能够适应不同环境变量。尽管多分类任务挑战更大,特别是在应对跨设施间特性差异时,二分类模型已足够实现有效的异常监测。
结合二分类和多分类算法,研究提出了一种实践可行的决策支持系统框架。该系统可通过高召回率的异常检测模型辅助操作员发现问题,并借助类型分类预测提供针对性建议。
机器学习算法的适应性仍可进一步优化,例如强领域适应(domain adaptation)或主动学习(active learning)方法的引入。未来的工作包括扩展数据集规模、优化跨厂迁移能力,并结合实时监测环境用于污水处理厂的运行管理。
这项研究为污水处理厂自动化控制和智能化运维提供了重要的技术支持,同时也为今后的相关研究设立了科学方法的基础。