本文档是来自期刊ecotoxicology and environmental safety 2023年的一篇学术研究论文,标题为“基于中国数据库开发的三分类机器学习模型应用于预测美国、欧盟和WHO中的有害有机化学品的致癌性”。这是一项关于利用机器学习方法预测化学品致癌风险的原创性研究。以下是对该研究的详细介绍:
第一部分:作者、机构与发表信息
本研究由宁浩 (Ning Hao) 和孙佩璇 (Peixuan Sun) 作为共同第一作者,通讯作者为赵文进 (Wenjin Zhao) 和李喜熙 (Xixi Li) 完成。研究机构包括中国吉林大学新能源与环境学院(Jilin University)、中国环境科学研究院化学品生态效应与风险评估国家环境保护重点实验室(Chinese Research Academy of Environmental Sciences),以及加拿大纪念大学(Memorial University)北部地区持久性有机污染物控制实验室。该研究于2023年3月20日在国际期刊 ecotoxicology and environmental safety 上在线发表(第255卷,文章编号114806)。
第二部分:研究学术背景
本研究属于环境毒理学与计算毒理学的交叉领域,核心目标是构建一个能够有效预测有机化学品致癌性等级的三重分类(Triple-classification)机器学习模型。其产生的背景主要基于以下几点: 1. 公共卫生挑战:癌症是全球第二大人类疾病,化学致癌物暴露是主要诱因之一。在化学品合成前预测其致癌性,对预防癌症和保障公共健康至关重要。 2. 传统实验方法的局限性:传统依赖啮齿类动物(如大鼠、小鼠)的生物测定(bioassay)方法成本高、周期长、伦理争议大,且动物实验结果外推至人类存在不确定性。 3. 计算毒理学的兴起:在绿色发展理念和减少动物实验(3R原则)的倡导下,基于定量构效关系(QSAR)和计算机的预测方法受到广泛关注。这些方法可以减少对动物实验的依赖,并加速对大量化学品的风险评估。 4. 现有预测模型的不足:虽然已有一些利用机器学习预测致癌性的研究,但大多集中于二分类(致癌/非致癌)模型,而国际上(如欧盟GHS、IARC)对致癌物有更精细的分类(如1A类、1B类、2类)。现有的多分类模型存在样本不平衡、模型对比不充分、泛化能力验证不足等问题。
因此,本研究旨在开发一个基于中国有害化学品清单的三重分类(1A, 1B, Category 2)致癌性预测模型,并系统评估和比较多种机器学习算法的性能,最后将优化后的模型应用于美国、欧盟和世界卫生组织国际癌症研究机构(IARC)的数据库中,验证其跨数据库的适用性和泛化能力。
第三部分:详细研究流程
本研究流程严谨,可分为数据准备、特征计算与筛选、模型构建与训练、模型评估与应用、结果验证五个主要步骤。
第一步:数据收集与准备 研究者从中国《危险化学品目录(2015版)》和全球化学品统一分类和标签制度(GHS)数据库中,检索出共256种属于三个致癌类别的物质。为保证研究对象的一致性,他们排除了21种混合物和117种无机物,最终确定了118种有害有机化学品作为研究样本集。其中,1A类致癌物21种,1B类27种,2类70种。每种化学品的二维分子结构通过Sybyl X-2.0和Discovery Studio 2020软件获取和优化。
第二步:分子描述符计算与筛选 这是构建QSAR或机器学习模型的关键步骤。研究者使用PaDEL-Descriptor软件对118种化学品的分子结构进行计算,获得了1444个分子描述符。这些描述符涵盖了几何参数、物理化学参数、电子参数和拓扑参数等,用于量化分子的结构特征。由于描述符数量过多且可能存在冗余或无关特征,直接建模容易导致“维数灾难”和过拟合。因此,他们采用了随机森林(Random Forest, RF)模型作为特征选择工具。通过计算每个描述符对预测目标(致癌性类别)的重要性,从最初的1444个描述符中筛选出最重要的53个分子描述符用于后续建模。筛选出的关键描述符包括原子类型自相关描述符(如AATS, GATS1e, MATS系列)、拓扑参数(BIC0)以及反映分子极性表面积和折射率的描述符(如MLFER_E, TopoPSA),这些被认为对分子的致癌性有重要影响。
第三步:机器学习模型构建与训练 研究团队采用了七种不同的机器学习算法来构建三分类预测模型,以期进行全面的比较。这些算法包括:随机森林(RF)、逻辑回归(LR)、支持向量机(SVM)、互补朴素贝叶斯(CNB)、K最近邻(KNN)、极限梯度提升(XGBoost)和多层感知器(MLP)。在建模前,将118个样本按照7:3的比例随机划分为训练集(82个样本)和独立的测试集(36个样本)。训练集用于训练模型并调整超参数,而测试集则用于外部验证,评估模型的泛化能力。对于每种算法,研究者都详细说明了其在多分类问题上的适应性调整,例如:LR使用Softmax函数扩展至多分类;SVM采用“一对多”策略构建三个二分类器来实现三分类;XGBoost的目标函数引入了正则化项以防止过拟合。
第四步:模型评估、筛选与跨数据库应用 模型性能通过五个评估指标进行综合评价:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1 Score)和受试者工作特征曲线下面积(AUC)。设定所有指标均大于0.6为模型合格的标准。 在训练集上,RF模型表现最佳(所有指标均为1.0),但存在过拟合嫌疑。在独立的测试集上,XGBoost、MLP、RF和LR四个模型的综合评估指标均达到了合格标准(>0.6),其中XGBoost和RF表现更为稳定。而KNN、SVM和CNB模型在测试集上表现不佳,主要受样本类别不平衡(2类样本占多数)影响,难以有效预测少数类(1A和1B类)。 为了检验模型的泛化能力,研究者将筛选出的四个合格模型(RF, LR, XGBoost, MLP)应用于美国国家毒理学计划(NTP)、欧盟分类标签库存(ECL)和IARC三大国际权威数据库的化学品数据上。在应用前,他们对数据进行了预处理,例如将美国的二分类数据(已知致癌/合理预期致癌)根据其他数据库信息调整为三分类。结果显示,RF和XGBoost模型在三大外部数据库上表现最为稳健,多个评估指标保持在0.6以上,证明了其良好的跨数据库适用性和可靠性。
第五步:基于毒代动力学的模型验证 为进一步确保模型预测结果的科学性,研究者利用ADMETlab 2.0在线软件,对模型(以XGBoost为例)预测出的化学品进行了毒代动力学(Toxicokinetics, TK) 验证,重点关注了软件预测的致癌性和AMES致突变性。通过对比发现,XGBoost模型预测为高风险的化学品(如1A类),其TK预测也大多显示为致癌阳性,两者结果具有较好的一致性。同时,分析也揭示了致癌性与遗传毒性之间的关联,与现有认知相符。对于少数预测结果不一致的化学品(如2,3,4,7,8-五氯二苯并呋喃),研究也结合文献进行了讨论,指出了未来需要关注的方向。
第四部分:主要研究结果
第五部分:研究结论与价值
本研究成功构建并验证了一套基于机器学习的有害有机化学品致癌性三重分类预测模型体系。主要结论如下: * 最优模型:在比较的七种机器学习算法中,XGBoost和随机森林(RF) 是构建致癌性三分类预测模型的最佳选择,它们在中国数据库和三大国际外部数据库上均表现出较高的准确性、稳健性和泛化能力。 * 模型价值:所开发的模型可作为一种有效的“预筛选”工具,应用于新有机化学品研发的早期阶段。在合成实验之前,通过输入其分子结构,快速预测其潜在的致癌性等级,从而优先规避高风险化合物,减少不必要的动物实验和研发成本,并为后续的化学品管理提供技术支持。 * 方法学贡献:研究提供了一套完整的建模工作流程,包括从中国权威数据源构建样本集、利用PaDEL和RF进行高效的特征计算与筛选、系统比较多种机器学习算法、以及通过外部数据库和毒代动力学进行多重验证。这套流程具有可重复性和可推广性。 * 局限性:研究也坦承了当前模型的局限性,主要是训练样本量有限(118个)且类别不平衡,这影响了模型对少数类(1A,1B)的精准预测。这是未来研究需要改进的重点方向。
第六部分:研究亮点
第七部分:其他有价值的发现
研究者在讨论中指出,通过毒代动力学验证,发现模型预测的致癌性与AMES致突变性预测结果存在较强的相关性,这与“许多致癌物具有遗传毒性”的经典毒理学理论相符。然而,也发现如多氯联苯(PCBs)这类物质,模型预测与TK预测提示其致癌性可能与遗传毒性通路不完全一致,这提醒我们在使用预测模型时,需要结合具体的毒性作用机制知识进行综合判断。这一发现对于理解模型预测结果的生物学意义和局限性具有重要价值。