这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由Jingjing Liu¹、Chang Liu¹、Zhangdaihong Liu²、Yibin Zhou³、Xiaoguang Li¹* 和 Yang Yang¹*共同完成,分别来自:
1. 上海交通大学医学院公共卫生学院
2. Oxford Suzhou Centre for Advanced Research
3. 上海市闵行区疾病预防控制中心
研究发表于BMC Public Health期刊(2025年,第25卷,第831页),标题为《基于机器学习的空气污染物暴露空间分析及其与代谢疾病的关联研究》。
科学领域:环境健康学与代谢疾病流行病学交叉研究。
研究动机:代谢疾病(Metabolic Diseases, MDs)(如糖尿病、高血压、血脂异常)的全球流行与空气污染物(Air Pollutants, APs)的潜在关联尚不明确,且传统统计方法难以解析复杂的环境-健康空间关系。
背景知识:
1. 已有研究表明,PM2.5、NO₂等污染物可能通过氧化应激和炎症反应加剧代谢紊乱(如胰岛素抵抗、血脂异常)。
2. 既往研究多聚焦单一污染物或局部区域,缺乏全国尺度的空间关联分析。
研究目标:开发新型机器学习流程ASEMD(Algorithm for Spatial Relationships Analysis between Exposome and Metabolic Diseases),解析中国地级市尺度下APs与MDs的空间关联,并识别关键污染物。
步骤一:空间自相关分析
- 使用Moran’s I指数和LISA地图评估APs与MDs的空间聚集性。
- 关键发现:PM10的空间自相关性最强(Moran’s I=0.248),糖尿病在西部呈现显著“高-高”聚集。
步骤二:降维与聚类
- 通过主成分分析(PCA)和K-means聚类将城市按APs特征分组,Jaccard指数验证APs与MDs聚类的一致性。
- 最优阈值:疾病流行率阈值n=0.6时,糖尿病与APs的Jaccard指数最高(0.395,p=0.006)。
步骤三:机器学习建模
- 调整19项混杂因素(如年龄、BMI、吸烟)后,采用5种模型(XGBoost、随机森林等)预测MDs风险。
- 模型验证:10折交叉验证,性能指标包括AUROC、灵敏度等。
- 可解释性分析:SHAP值识别关键APs(如PM10对糖尿病的贡献度14.7%)。
空间关联性:
关键污染物识别:
模型性能:XGBoost预测效能最优(糖尿病AUROC=0.890),显著优于传统逻辑回归。
科学意义:
1. 首次揭示APs与MDs的空间异质性,证实区域环境差异对代谢健康的影响。
2. 提出ASEMD框架,为复杂环境-健康关系研究提供方法论创新。
应用价值:
- 指导区域化公共卫生策略(如北方城市需优先控制PM10和SO₂)。
- 支持环境政策制定,例如针对高污染地区的代谢疾病筛查干预。
此研究为环境健康领域提供了重要的理论与实践工具,其方法论框架可扩展至其他慢性病与环境暴露的关联研究。