本文档报告了一项单原创性研究。以下是为中国读者撰写的学术研究报告:
研究标题:集成迁移学习与多任务学习以预测全氟及多氟烷基物质激活肝脏脂毒性相关多种核受体的潜能
一、 研究团队与发表信息
本研究的通讯作者为南开大学环境科学与工程学院的易书钧(Shujun Yi)和祝凌燕(Lingyan Zhu)教授,第一作者为同课题组的王柔懿(Rouyi Wang),单国强(Guoqiang Shan)是研究作者之一。该研究发表于美国化学会旗下的学术期刊 *Environmental Science & Technology*,于2025年10月20日被接受发表,文章数字对象唯一标识符为 https://doi.org/10.1021/acs.est.5c07895。
二、 学术背景与研究目的
科学领域:本研究属于环境科学与计算毒理学、生物信息学的交叉领域,聚焦于持久性有机污染物——全氟及多氟烷基物质(Per/polyfluoroalkyl substances, PFAS)的生态与健康风险评估。
研究背景与动机:PFAS是一类被广泛应用于工业和消费品的人工合成化学品,其碳-氟键高度稳定,导致其在环境和生物体中持久存在与累积。尽管部分传统PFAS(如PFOA和PFOS)已受到全球监管,但已知的PFAS种类已超过万种(例如美国环保署编制的PFASSTRUCTv5数据库),绝大多数新型PFAS的潜在健康风险尚属未知。其中,肝脏脂毒性是PFAS最受关注的效应之一,因为PFAS主要积聚于肝脏并干扰脂质代谢。
传统的实验方法(体内外测试)因资源消耗大、周期长,难以应对数量庞大的PFAS化学品空间。同时,生理系统内部的多尺度交叉作用使得从PFAS结构直接关联到终点肝脏毒性变得复杂。因此,发展高效的高通量计算策略势在必行。机器学习(Machine Learning, ML)能够有效捕捉污染物性质与生物效应之间复杂、高维、异质且非线性的关系,为预测PFAS活性并优先筛选高风险物质提供了高效手段。
然而,直接针对PFAS诱导的肝脏脂毒性的实验数据极为稀缺,难以建立预测模型。一个更可行且具有机制信息的方法是捕获关键分子起始事件(Molecular Initiating Events, MIEs)。核受体(Nuclear Receptors, NRs)的激活与肝脏毒性密切相关。研究表明,PFAS可通过激活多种NRs(如PPARα, PPARγ, CAR, PXR, SREBP等)来促进肝脏脂质积累,进而引发脂毒性。但PFAS结构的高度异质性与广泛的NR靶标范围使得通过实验穷尽所有“PFAS-靶标”配对相互作用极为困难。
虽然已有研究利用机器学习构建定量构效关系(Quantitative Structure-Activity Relationship, QSAR)模型预测PFAS对单一靶标(如L-FABP, PXR)的活性,但由于PFAS实验数据稀缺(通常仅数十或数百个),模型往往依赖于简单的线性回归,限制了其对超过万种不同结构PFAS的泛化能力。此外,在广阔化学空间(包含所有类型化学品)上训练的模型很少在PFAS这类特殊化学品家族上进行评估,而PFAS独特的结构和作用机制与常规有机化合物差异显著,可能导致预测失败。
研究目标:本研究旨在开发可靠的机器学习模型,精确预测PFAS对五种与肝脏脂毒性相关的NR靶标(PPARα、PPARγ、PXR、ERα和NRF2)的激动活性,从而为PFAS的肝毒性风险评估提供机制见解。核心挑战在于如何利用有限的PFAS数据训练出稳健且准确的模型。
三、 详细研究流程
本研究包含以下几个关键步骤,流程严谨系统:
1. 数据收集与准备 * 数据来源:从AOP-Wiki数据库及相关文献中识别与肝脏脂毒性相关的潜在NR靶标。从Tox21、ToxCast和NCATS项目,通过PubChem和CompTox数据库,下载了针对每个NR的激动剂和拮抗剂筛选结果。 * 数据筛选:由于PFAS主要表现出NR激动活性,本研究仅关注其激动活性。为确保建模的统计效力,只选择了至少拥有50个PFAS测试结果且活性比率大于0.1的NRs,最终选定PPARα、PPARγ、PXR、ERα和NRF2五个靶标。 * 数据集构建:为每个NR构建了三个不同化学多样性的训练集: * A数据集:包含所有化学结构(6388-10199个化合物),代表最广泛的化学空间。 * B数据集:基于OECD对PFAS的宽泛定义(包含至少一个-CF3或-CF2-片段),包含369-772个化合物。 * C数据集:基于PFASSTRUCTv5的严格PFAS定义(整合了子结构过滤器并设定了30%氟含量的阈值),包含184-198个PFAS化合物。这是PFAS特异性最强的数据集。 * 数据平衡:为应对数据不平衡问题,在建模过程中采用了合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)。
2. 传统机器学习模型构建与比较 * 算法选择:使用五种常规机器学习算法——逻辑回归(Logistic Regression, LR)、随机森林(Random Forest, RF)、支持向量机(Support Vector Machine, SVM)、极限梯度提升(eXtreme Gradient Boosting, XGBoost)和深度神经网络(Deep Neural Network, DNN),分别在A、B、C三个数据集上为五个NR构建了单任务QSAR模型。 * 模型验证:采用5折嵌套交叉验证(5-fold nested cross-validation)来优化超参数并评估模型的稳健性和泛化性能。 * 性能评估指标:使用曲线下面积(Area Under the Curve, AUC)、F1分数(F1-score)、召回率(Recall)和精确率(Precision)全面评估模型性能。同时构建了随机基线模型作为参考。
3. 迁移学习与多任务学习策略的开发与实施 * 问题识别:通过步骤2发现,在广泛化学空间(A、B数据集)上训练的模型对PFAS活性识别能力弱,可能源于PFAS与普通化合物间的分布偏移(Distributional Shifts)。而仅在C数据集上训练的模型虽能较好识别活性PFAS,但其区分能力(AUC)弱于A数据集训练的模型。 * 策略设计:为整合A数据集(知识广度)和C数据集(PFAS特异性)的优势,开发并实施了一种迁移学习结合多任务深度神经网络(Transfer-Learning Multitask Deep Neural Network, TL-MT-DNN)的新策略。 * 实施流程: 1. 预训练:首先,使用移除了所有PFAS化合物后的A数据集作为源域,预训练一个基线DNN模型。这一步旨在让模型从大量非PFAS化合物中学习通用的化学特征与NR激活模式。 2. 微调:然后,将此预训练模型在C数据集(目标域)上进行微调。微调时,采用逐步解锁网络层并调整参数的方式。根据解锁层数和参数是否重新初始化,设定了8种迁移学习深度配置。 3. 多任务学习整合:将迁移学习策略与多任务学习结合。多任务学习允许模型在训练五个NR任务时共享底层特征,利用任务间的相关性提升整体性能。最终形成的TL-MT-DNN模型是本研究优化的核心成果。
4. 模型应用与结构-活性关系分析 * 大规模预测:将最优的TL-MT-DNN模型应用于从PFASSTRUCTv5数据库清理后获得的13,755种PFAS,预测其对五种NR的激动活性。通过基于描述符空间欧氏距离的适用域(Applicability Domain, AD)分析,最终对3,716种(27.0%)位于适用域内的PFAS给出了可靠预测。 * 关键结构特征识别:为了解构效关系,使用公开工具(Chemotyper)为PFASSTRUCTv5中的PFAS生成ToxPrints_PFAS分子指纹。通过卡方检验和比值比(Odds Ratio, OR)分析,识别出与每个NR激活显著正相关或负相关的关键分子指纹及对应的化学结构片段(例如,羧酸、磺酸、醚键、磺酰胺、碘、丙烯酸酯等基团)。同时,分析了活性PFAS的分子体积分布。
5. 模型预测性能的实验验证 * 体外细胞实验验证: * 化合物选择:选取了10种具有关键结构特征的典型PFAS(涵盖羧酸、磺酸、醚和磺酰胺基团),包括PFOA、PFOS、HFPO-TA、FOSA等。 * 实验设计:将PFAS暴露于人源性L-02肝细胞。以已知的NR特异性激动剂(如罗格列酮激活PPARγ)作为阳性对照。 * 检测指标:评估细胞内存脂质(甘油三酯TG和总胆固醇TC)的积累;通过qPCR检测五种NR下游相关基因的表达谱变化。 * 一致性评估:计算PFAS处理组与阳性对照之间差异表达基因(Differentially Expressed Genes, DEGs)的重叠比例(≥0.5视为该NR被激活),并与模型预测结果或ToxCast实验记录进行对比,计算一致性指数(Consistency Index, CI)。 * 体内动物实验文献验证:通过系统文献综述,汇总已发表的PFAS诱导动物(小鼠、大鼠)肝脏脂毒性的体内研究数据,将其中报告的NR激活情况与模型预测及体外实验结果进行比较,以评估模型预测的转化相关性。
四、 主要研究结果
1. 传统模型性能比较结果: * 在相同算法下,基于A数据集或C数据集训练的模型,其AUC和F1分数通常高于基于B数据集训练的模型,表明B数据集(宽泛PFAS定义)不适合用于构建预测PFAS活性的QSAR模型。 * A数据集模型优势:得益于数据量大、化学多样性高,在PXR、PPARα等靶标上获得了最高的平均AUC值,表明其区分能力强。 * C数据集模型优势:尽管只在PPARα和NRF2上达到最高AUC,但在五个受体中的四个(PPARγ, PXR, ERα, NRF2)上获得了最高的F1分数,表明其对活性PFAS的识别更准确。这归因于其更贴近PFAS的化学特征。 * 核心矛盾:广泛化学空间模型(A集)区分能力强但识别活性PFAS能力弱(可能漏报);PFAS特异性模型(C集)识别活性PFAS能力强但区分能力弱。这凸显了直接使用任一种数据集的局限性。
2. 迁移学习与多任务学习模型的卓越性能: * 迁移学习单任务DNN(TL-ST-DNN)的性能显著优于仅在A集或C集上训练的DNN,AUC和F1分数均有提升,证明迁移学习策略有效。 * TL-MT-DNN模型达到最优性能:在第五级迁移深度时,模型对五个NR的平均AUC达到 0.886 ± 0.008,平均F1分数达到 0.665 ± 0.008。该模型在大多数NR上获得了最高的AUC和/或F1分数,且性能更稳定(方差小)。 * 对比优势:与随机基线相比,F1分数提升了156%。模型在前5%预测样本中显示出明显的早期富集能力(例如PPARα的EF5%达6.86),非常适用于高风险物质的高通量筛选。 * 横向比较:与现有开源计算毒理学软件平台(VEGA, Toxicity Predictor, NR-ToxPred)中的模型相比,本研究构建的TL-MT-DNN模型在预测五个NR靶标的PFAS活性方面表现显著更优,进一步证明了采用PFAS特异性数据集及先进学习策略的必要性。
3. 大规模预测与高风险PFAS识别: * 模型对3,716种PFAS进行了可靠预测,其中1,653种对至少一个NR具有预测活性。 * 预测结果显示,对PXR(1145种)、NRF2(1125种)和ERα(993种)具有潜在激活能力的PFAS数量,显著多于对PPARα(571种)和PPARγ(761种)具有激活能力的数量,提示PFAS诱导的风险可能更广泛地与PXR、NRF2和ERα这三个靶标相关。 * 关键发现:识别出391种PFAS被预测为对所有五种NR都具有激动活性,这意味着它们具有诱导肝脏脂毒性的高风险。这不仅包括传统的PFOS和PFOA,还包括其前体物和替代品,如N-乙基全氟辛基磺酰胺(N-EtFOSA)和6:2氯化多氟烷基醚磺酸盐(6:2 Cl-PFESA)。
4. 关键结构特征与构效关系: * PPARα/PPARγ:羧酸、磺酸基团是强正贡献因子(OR>3)。醚键(diether)也显著促进激活。而代表氟调聚物结构的指纹(如polyf_generic)则呈负贡献,解释了为何6:2 FTSA等短链调聚物对PPARα活性弱。 * PXR:磺酰胺基团是最强的正贡献因子(OR=13.29),其次是仲胺和磺酸基团。 * ERα:碘取代(halogen_i)是极强的正贡献因子(OR=8.87),丙烯酸酯和羟基基团也显著相关。 * NRF2:磺酸、羧酸基团(强电负性)以及丙烯酸酯、烯烃等具有亲电性的基团是正贡献因子,这与NRF2通过亲电物质激活的机制相符。 * 分子体积:活性PFAS的分子体积符合正态分布。PXR和NRF2的活性PFAS分子体积范围更广,而PPARα/γ/ERα的活性PFAS分子体积上限相对较小,表明体积是影响受体选择性的因素之一。
5. 实验验证结果: * 体外细胞验证:对于模型训练集中已有的6种PFAS,细胞实验(基因表达)与ToxCast记录的一致性指数(CI)高达0.90(如短中链PFAAs),证明模型预测与体外生物学效应高度吻合。对于训练集外的4种PFAS,模型预测与细胞实验的CI为0.40-0.80,其中对PPARα和PPARγ的预测较为准确,但对PXR和NRF2存在一些假阳性。这提示模型能可靠预测激活的存在与否,但激活的强度及通路间串扰可能影响最终的基因表达结果。 * 脂质积累实验:部分长链PFAS和磺酰胺类PFAS虽未显著激活五个NR,但仍引起脂质积累,提示存在其他非NR依赖的毒性通路(如直接结合脂肪酸转运蛋白或代谢酶)。 * 体内文献验证:文献汇总表明,几乎所有报道NR机制的在体研究都证实了PFAS可激活PPARα和/或PPARγ通路,这与模型预测和体外结果基本一致。PXR的激活也在多例体内研究中得到证实。虽然NRF2和ERα相关的体内直接证据较少,但它们可能通过与其他通路的串扰发挥作用。
五、 研究结论与价值
结论:本研究成功开发了一种集成迁移学习与多任务学习的深度神经网络模型(TL-MT-DNN),该模型能够高精度地预测结构多样的PFAS对五种肝脏脂毒性相关核受体的激动活性。研究克服了在广泛化学空间上训练的模型因分布偏移而难以准确预测PFAS活性的固有局限,并通过结合大数据(源域)和小数据(目标域)的优势,实现了在PFAS有限数据下模型性能的显著提升。
科学价值: 1. 方法学创新:提供了一种解决小样本、特异性化学品毒性预测的通用建模范式。通过系统比较不同化学空间数据集的影响,明确指出了“分布偏移”问题,并创新性地将迁移学习与多任务学习结合,为环境计算毒理学领域提供了新的技术方案。 2. 机制见解:大规模预测揭示了PFAS可能通过多种NR途径(尤其是PXR、NRF2、ERα)引发肝毒性的潜在风险,拓宽了对PFAS毒性机制的认识。 3. 构效关系解析:系统识别了驱动不同NR激活的关键PFAS结构特征(如磺酰胺之于PXR,碘取代之于ERα),以及负贡献结构(如特定氟调聚物结构),为理解PFAS的毒性作用基础提供了分子层面的见解。
应用价值: 1. 高通量风险筛查工具:所构建的模型是一个强大的计算工具,可用于对数千种已知PFAS甚至新型PFAS进行快速的NR激活潜能筛查,优先锁定高风险物质进行后续实验评估,极大提高了风险评估效率。 2. 绿色化学品设计指导:识别出的负贡献结构特征为设计低环境健康风险的PFAS替代品提供了理论指导,有助于从源头上减少有害化学品的使用。 3. 支持替代测试策略与监管:该研究验证了“由下至上”(从MIEs预测高阶毒性)的计算驱动策略的可行性,为减少动物实验依赖、发展高效的化学品测试与监管评估体系提供了有价值的范例。
六、 研究亮点
七、 其他有价值的内容
本研究提供了完整的代码和数据共享(GitHub和Zenodo),确保了研究的