分享自:

M3-20M:用于AI驱动药物设计与发现的大规模多模态分子数据集

期刊:journal title hereDOI:doi here

学术研究报告:M3-20M——面向AI药物设计的大规模多模态分子数据集

作者与发表信息

本研究由同济大学计算机科学与技术系的Siyuan Guo、Lexuan Wang、Chang Jin、Han Peng、Huayang Shi、Wengen Li、Jihong Guan(通讯作者)与复旦大学计算机科学学院的Jinxian Wang、Shuigeng Zhou(通讯作者)合作完成,发表于期刊《journal title here》2022年第1-13页,DOI为doi here,预印本发布于arXiv:2412.06847v2。

学术背景

药物设计与发现是药学领域的核心方向,旨在通过识别新型治疗化合物并优化其临床特性加速药物开发。传统方法依赖单模态分子数据(如SMILES字符串或二维分子图),但此类数据难以全面表征分子特性,限制了AI模型的性能。近年来,多模态分子数据(如结合结构、属性和文本描述)成为研究热点,但现有数据集(如PubChemSTM、IGCData)规模小、模态不全。为此,本研究构建了M3-20M——目前最大的开源多模态分子数据集,包含超过2000万分子,整合了一维SMILES、二维分子图、三维结构、理化属性及文本描述,旨在为AI驱动的药物设计提供更全面的训练资源。

研究流程与方法

1. 数据收集与整合

  • 来源:数据主要整合自PubChem、ZINC和QM9数据库,涵盖19,175,245条原始分子记录。
  • 多模态构建
    • 1D SMILES:直接提取原始数据。
    • 2D分子图:通过RDKit的Chem功能生成原子特征与化学键信息。
    • 3D结构:通过PubChem API批量下载SDF文件,并利用RDKit计算原子坐标。
    • 理化属性:从PubChem提取26种关键属性(如分子量、氢键供体数等,详见表10)。
    • 文本描述:通过三种途径补充:
    1. 直接提取PubChem已有描述(360,133条);
    2. 将理化属性转化为结构化文本(如“logP值为3.2”);
    3. 通过GPT-3.5生成描述(1,073,845条),并设计专家评分机制验证科学性(合格率98.8%)。

2. 文本生成与质量控制

  • GPT-3.5优化:初始提示词因化学术语错误被弃用,最终采用专家化提示模板(如“作为化学专家,仅根据SMILES描述分子结构、性质及潜在应用”)。
  • 人工验证:6名化学专业评审员对12,000条生成描述进行四维评分(准确性、有效性、全面性、简洁性),不合格文本重新生成。

3. 下游任务子集构建

为支持特定任务,研究团队构建了7个子集:
- 分子生成:MOSES-MM、QM9-MM;
- 性质预测:BBBP-MM、BACE-MM、HIV-MM等,均补充了PubChem CID和文本描述。

4. 实验验证

通过两类任务验证数据集价值:
1. 分子生成:对比单模态(仅SMILES)与多模态数据(SMILES+3D坐标+文本)在GLM4、GPT-4等模型上的表现。
- 指标:有效性(Validity)、独特性(Uniqueness)、新颖性(Novelty)。
- 结果:多模态数据显著提升模型性能(如GPT-4有效性从92.3%升至97.99%)。
2. 性质预测
- 回归任务(如预测偶极矩):多模态数据平均绝对误差(MAE)降低(如GLM-4预测极化率误差从12.82降至12.05)。
- 分类任务(如毒性预测):在Tox21-MM的12项子任务中,8项准确率提升(如NR-AhR任务从87.4%升至90.2%)。

主要结果与逻辑关联

  • 规模优势:M3-20M分子数量是现有最大多模态数据集(PubChemSTM)的71倍,覆盖更广化学空间。
  • 模态互补性:文本描述与结构数据结合,使模型更全面理解分子特性(如GPT-3.5生成分子的新颖性从85.72%提升至96.51%)。
  • 下游任务适配性:子集设计支持分子生成、虚拟筛选等任务,如BACE-MM的准确率从84.4%提升至88.7%。

结论与价值

  1. 科学价值:M3-20M填补了大规模多模态分子数据空白,为AI模型训练提供了更全面的信息源。
  2. 应用价值:可加速药物发现流程,如通过多模态数据生成更具多样性的候选分子,或高精度预测ADMET(吸收、分布、代谢、排泄、毒性)性质。
  3. 方法论创新:首次将LLM(大语言模型)生成的文本描述与分子数据结合,并通过专家评分确保科学性。

研究亮点

  • 规模与模态:首个超2000万分子的多模态开源数据集,涵盖5种模态。
  • 生成文本质量控制:结合专家评分与GPT-3.5,解决文本稀疏性问题。
  • 跨模型验证:在GLM4、Llama3-8B等不同架构中均表现优越。

其他价值

  • 工具开源:提供分子图生成、PubMed文献爬取工具,进一步扩展文本描述来源。
  • 动态维护:由6人团队每两周更新数据,确保长期可靠性。

(注:专业术语如SMILES(简化分子线性输入规范)、ADMET(药物代谢动力学)等在首次出现时标注英文原词。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com