分享自:

机器学习在环境正义中的应用:解析预测加州饮用水质量的算法方法

期刊:Science of the Total EnvironmentDOI:10.1016/j.scitotenv.2024.175730

本文由Seigi Karasaki、Rachel Morello-Frosch和Duncan Callaway共同撰写,分别来自加州大学伯克利分校的能源与资源组、环境科学、政策与管理系以及公共卫生学院。该研究于2024年8月24日发表在《Science of the Total Environment》期刊上,题为《Machine Learning for Environmental Justice: Dissecting an Algorithmic Approach to Predict Drinking Water Quality in California》。研究聚焦于机器学习(Machine Learning, ML)在环境科学和环境正义(Environmental Justice, EJ)中的应用,特别是如何通过ML预测加州的饮用水质量,并探讨了算法决策对预测结果的影响。

研究背景

随着机器学习在环境科学、监测和监管执法中的广泛应用,其潜力日益凸显。然而,算法中潜在的偏见问题也引发了广泛关注。研究表明,算法可能会固化歧视,加剧系统性不平等,甚至强化种族主义结果。因此,本文旨在探讨如何在使用ML进行环境科学研究时,审查和减少算法中的偏见,特别是在环境正义的背景下。

本文分为两部分:第一部分通过一个案例研究,展示了ML如何用于预测加州的饮用水质量;第二部分则深入分析了算法决策对预测结果的影响,特别是这些决策如何影响不同人群的预测结果。研究的主要目标是提出一套实践建议,帮助研究人员和政策制定者在应用ML时减少偏见,确保环境正义。

研究流程

数据收集与处理

研究选择加州作为案例,因其水资源数据丰富且饮用水问题突出。研究使用了R语言进行数据分析,数据来源包括加州水资源控制委员会(SWRCB)提供的社区供水系统(Community Water Systems, CWS)数据、历史饮用水采样数据、人口统计数据以及土地利用数据。研究还使用了美国地质调查局(USGS)的地下水监测数据。

数据处理包括对数据进行清洗、去除高度相关的特征、创建分类变量的虚拟变量以及数据标准化。最终的数据框架中,每一行代表一个供水系统与污染物的组合,包含水质采样历史、人口统计特征和土地利用信息。

模型训练与选择

研究使用了五种分类模型进行预测:弹性网络正则化(Elastic Net Regularization)、随机森林(Random Forest)、多项式核支持向量机(SVM)、径向基核支持向量机(SVM)和神经网络(Neural Networks)。为了应对数据不平衡问题,研究使用了合成少数类过采样技术(SMOTE)。模型评估采用了F2分数,以减少假阴性(False Negatives)的比例。

结果分析

模型的表现因污染物而异。弹性网络和两种支持向量机在大多数污染物上表现良好,而随机森林的表现较差。以砷(Arsenic)为例,弹性网络模型在测试集上的准确率为90%,F2分数为0.64。对于监测和报告违规(MR Violation)的系统,模型的F2分数达到了0.91,表明其在这些系统上的预测效果更好。

研究结论

研究表明,ML在预测饮用水质量方面具有较高的准确性,特别是在资源有限的监管环境中,ML可以作为一种高效的工具来加强环境正义倡议。然而,研究也指出,模型的选择和参数设置可能会对预测结果产生显著影响,特别是对弱势群体的预测结果。因此,研究人员和政策制定者在应用ML时,必须透明地考虑环境正义的优先级,并尽量减少算法中的偏见。

研究亮点

  1. 算法决策对环境正义的影响:研究展示了模型选择、标签定义和输入数据等决策如何影响预测结果,特别是对弱势群体的影响。
  2. 减少假阴性的策略:通过调整分类阈值,研究提出了一种减少假阴性的方法,从而减少对弱势群体的误判。
  3. 透明性与责任:研究强调了在ML应用中透明性和责任的重要性,特别是在环境正义的背景下。

未来建议

研究提出了一系列建议,包括明确环境正义的定义、应用多种标签定义和阈值进行敏感性测试、报告模型结果中的社会人口特征等。这些建议旨在帮助研究人员和政策制定者在应用ML时,更好地考虑环境正义问题。

总结

本文通过一个具体的案例研究,展示了ML在环境科学和环境正义中的潜力与挑战。研究不仅提供了技术上的见解,还为未来的研究提供了重要的实践指导,特别是在如何减少算法偏见、确保环境正义方面。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com