本文由Peter Hammond、Michael Suttie、Vaughan T. Lewis、Ashley P. Smith和Andrew C. Singer等作者共同撰写,发表于2021年的《npj Clean Water》期刊。研究的主要机构包括英国生态与水文中心(UK Centre for Ecology & Hydrology)、牛津大学大数据研究所(Big Data Institute)、Windrush AEC Ltd和WASP Trust。该研究旨在利用机器学习技术检测未经处理的污水排放事件,以帮助水公司和监管机构更好地识别污水处理厂的故障和违规行为。
英格兰的环境署(Environment Agency)负责监测和监管水体中的废水污染排放,而污水处理厂的运营商则有责任识别和报告污染事件。然而,2018年英格兰有超过400起污水污染事件是由公众报告的,这表明运营商可能存在漏报现象。公众在污染事件的报告中的重要作用揭示了污水处理厂运营商可能低估了污染事件的频率,且年度报告可能并不完整。因此,研究团队希望通过机器学习技术,利用现有的数据流来识别潜在的污水排放事件,并为监管机构提供更多的证据支持。
研究团队选择了两个污水处理厂(WWTP1和WWTP2)作为研究对象,这两个污水处理厂由同一家水公司运营,且服务的人口规模不同。研究的主要数据包括每日的污水处理厂出水流量模式、事件持续时间监测(EDM)数据、降雨量、河流流量以及污水处理厂的警报数据。研究流程包括以下几个步骤:
数据获取与预处理:通过英国的环境信息法规(EIR)请求,研究团队获取了2009年至2020年间的每日污水处理厂出水流量数据,以及2018年至2020年间的EDM数据。这些数据用于训练机器学习模型。
流量模式分析:研究团队对2016年至2020年的3038个每日流量模式进行了形状分析,以识别出与污水排放相关的流量模式变化。通过主成分分析(PCA),研究团队提取了流量模式的主要变化特征。
机器学习模型训练:研究团队使用2018年至2020年的917个流量模式数据,结合EDM数据,训练了20种不同的机器学习算法,以区分有污水排放和无污水排放的流量模式。最终选择了表现最佳的算法作为分类器。
模型验证与应用:训练好的分类器首先在2016年至2018年的2121个流量模式上进行了半盲验证,随后在2009年至2015年的5039个流量模式上进行了全盲测试。通过这些测试,研究团队识别出了7160天中926天可能存在未经处理的污水排放。
数据验证与合规性分析:研究团队还引入了降雨量、河流流量和污水处理厂的警报数据,以进一步验证机器学习模型识别的潜在污水排放事件,并分析这些事件是否符合环境署的排放许可要求。
研究结果显示,机器学习模型能够以96%以上的准确率区分有污水排放和无污水排放的流量模式。在7160天中,研究团队识别出了926天可能存在未经处理的污水排放。此外,研究还发现,2009年至2020年间,两个污水处理厂均存在未经处理的污水排放事件,且这些事件可能违反了环境署的排放许可要求。
具体来说,WWTP1在2009年至2018年间有超过160次24小时的污水排放事件,其中105次得到了警报数据的验证。而WWTP2在2013年至2014年间有一次长达60天的连续污水排放事件,导致接收水体中出现了大量的污水真菌,对水生环境造成了严重影响。
该研究首次将机器学习技术应用于污水处理厂的流量模式分析,成功识别出了未经处理的污水排放事件。这一方法不仅可以帮助水公司识别故障设备,还可以为监管机构提供更多的证据支持,以改善合规性检查。此外,研究结果还为公众和科学家提供了更多的信息,帮助他们更好地了解污水排放对水体的影响。
研究的亮点在于其创新性地将机器学习技术应用于污水处理厂的流量数据分析,并通过多源数据(如降雨量、河流流量和警报数据)进行验证。这一方法为未来的污水排放监测提供了新的思路,特别是在数据公开和实时监测方面具有重要的应用价值。
该研究不仅具有重要的科学价值,还为污水处理行业和监管机构提供了实用的工具。通过机器学习模型,水公司可以更早地发现设备故障和违规排放,从而减少对水体的污染。此外,研究结果还可以帮助公众和环保组织更好地监督污水处理厂的运营,推动水质的改善。
这项研究为污水处理厂的监管和水质保护提供了新的技术手段,具有广泛的应用前景。