基于多级特征融合的多任务水生毒性预测模型

学术背景

随着有机化合物对环境污染的威胁日益加剧,研究不同水生生物对有机化合物的毒性反应变得至关重要。这些研究不仅有助于评估污染物对整个水生生态系统的潜在生态影响,还为环境保护提供了重要的科学依据。传统的实验方法虽然能够提供一定的数据,但其成本高昂、耗时较长,且难以应对大规模化学物质的毒性评估。随着深度学习技术的快速发展,其在预测水生毒性方面表现出更高的准确性、更快的数据处理速度以及更好的泛化能力。然而,现有方法在处理高维特征数据时仍存在局限性,尤其是在捕捉分子复杂结构和相互作用方面。因此,如何开发一种能够同时预测多种水生生物毒性的多任务深度学习模型,成为了当前研究的重要课题。

论文来源

本文由Xin Yang、Jianqiang Sun、Bingyu Jin等研究者共同完成,他们分别来自University of Science and Technology Liaoning、University of Chinese Academy of Sciences、Linyi University等机构。论文于2025年发表在Journal of Advanced Research期刊上,题为“Multi-task Aquatic Toxicity Prediction Model Based on Multi-level Features Fusion”。

研究流程

本研究提出了一种名为ATFPGT-Multi的多任务深度学习模型,用于同时预测四种不同鱼类对有机化合物的急性毒性。以下是研究的详细流程:

1. 数据准备

研究人员从ECOTOX数据库中收集了四种鱼类(蓝鳃太阳鱼、虹鳟鱼、黑头软口鱼和羊头鱼)的数据。为确保数据的质量,研究人员对化学结构进行了标准化处理,并剔除了无机化合物、盐类以及异常值。最终,数据集分别包含988、1246、938和346个化合物样本。

2. 分子特征提取

ATFPGT-Multi模型结合了两种分子表征方法:分子指纹(Molecular Fingerprint)和分子图(Molecular Graph)。
- 分子指纹特征:研究人员使用Morgan、MACCS和RDKit三种分子指纹来编码化合物的信息,并通过多层感知机(MLP)进行特征选择。
- 分子图特征:分子图特征通过图神经网络(GNN)和Transformer相结合的方式来提取。研究人员设计了局部图(Local Map)和全局图(Global Map)来表示分子结构,并通过图卷积层和Transformer层捕获分子的局部和全局信息。

3. 特征融合与多任务分类

将分子指纹特征和分子图特征进行融合后,模型通过全连接层生成综合特征,并为每个鱼类数据创建独立的输出层,实现多任务分类。

4. 模型训练与评估

研究人员采用五折交叉验证方法评估模型的性能,并使用准确率(ACC)、召回率(RE)、精确率(PR)和AUC等指标进行评价。此外,研究人员还通过消融实验研究了不同模块对模型性能的影响。

主要结果

  1. 多任务学习的优势:与单任务模型ATFPGT-Single相比,ATFPGT-Multi在四种鱼类数据集上的AUC分别提高了9.8%、4%、4.8%和8.2%。这表明多任务学习通过共享特征和知识转移,显著提升了模型的预测性能。
  2. 与其他方法的对比:与传统的机器学习方法和图卷积神经网络(GCN)相比,ATFPGT-Multi在所有评估指标上均表现出更高的准确性,尤其是在捕捉分子全局信息方面表现出色。
  3. 可解释性:ATFPGT-Multi能够通过注意力机制识别与毒性相关的分子片段,为理解分子结构与毒性之间的关系提供了直观的解释。

结论与意义

ATFPGT-Multi模型通过融合多层次分子特征和多任务学习,显著提升了水生毒性预测的准确性和可靠性。该模型不仅为评估有机化合物对水生生态系统的潜在风险提供了重要工具,还为化学品的环境安全性评估和设计提供了科学依据。此外,模型的可解释性使其在毒性机制研究和化学品优化中具有广泛的应用前景。

研究亮点

  1. 多任务学习:通过共享特征和独立输出层,模型能够同时预测多种鱼类毒性,显著提升了泛化能力。
  2. 多层次特征融合:结合分子指纹和分子图特征,模型能够更全面地捕捉分子的复杂结构和相互作用。
  3. 可解释性:通过注意力机制,模型能够识别与毒性相关的分子片段,为毒性机制研究提供了新的视角。
  4. 广泛的应用前景:该模型不仅可用于环境毒性评估,还可为化学品的安全设计提供技术支持。

其他有价值的信息

研究人员将模型的代码和数据集公开发布在GitHub上(https://github.com/zhaoqi106/atfpgt-multi),为后续研究提供了便利。此外,研究还得到了中国科技部、国家自然科学基金和辽宁省自然科学基金的支持。

通过本研究,我们不仅看到了深度学习技术在水生毒性预测中的巨大潜力,也为未来的化学品安全性评估提供了新的思路和方法。