分享自:

3D-MolT5:利用离散结构信息进行分子-文本建模

期刊:ICLR 2025

学术研究报告:3D-MolT5——利用离散结构信息实现分子-文本统一建模的创新框架


一、作者及发表信息

本研究的核心团队由Qizhi Pei(中国人民大学高瓴人工智能学院)、Rui Yan(中国人民大学/武汉大学)、Kaiyuan Gao(华中科技大学)、Jinhua Zhu(中国科学技术大学)及Lijun Wu(上海人工智能实验室)组成。论文以《3D-MolT5: Leveraging Discrete Structural Information for Molecule-Text Modeling》为题,发表于ICLR 2025会议。


二、学术背景

科学领域:本研究属于计算化学与自然语言处理(NLP)的交叉领域,旨在解决分子科学与语言模型融合中的关键挑战。
研究动机:传统分子-文本联合建模方法(如MolT5、Biot5)主要依赖一维分子序列(如SMILES、SELFIES)或二维分子图,但三维(3D)分子结构信息的缺失限制了模型对分子空间构象和功能的理解。尽管已有尝试(如3D-MolM)通过外部分子结构编码器引入3D信息,但存在模态交互不足对齐困难依赖外部模块等问题。
目标:提出3D-MolT5,一种基于T5框架的统一模型,通过3D分子离散化表征,实现分子序列、结构和文本的端到端建模,提升跨模态交互与任务泛化能力。


三、研究流程与方法

1. 分子表征基础

  • 一维序列(1D):采用SELFIES(Self-Referencing Embedded Strings)表示分子,其原子组令牌(如[c][=n])具有唯一性和鲁棒性。
  • 三维结构(3D):基于E3FP算法(Extended 3D Fingerprint)将3D分子转化为离散令牌。
    • 步骤
    1. 初始化:通过原子不变量(如原子序数、邻接数)生成初始标识符。
    2. 迭代球形扩展:逐层捕获原子周围3D邻域信息(连通性与立体化学),生成层级令牌。
    3. 折叠:将多层标识符压缩为固定长度的3D令牌矩阵。

2. 分子令牌化与对齐

  • 令牌对齐:将1D SELFIES令牌与3D原子中心令牌按原子级对齐,通过嵌入求和(e = 0.5e1d + 0.5e3d)生成联合表征。
  • 优势:避免依赖外部编码器,消除模态对齐训练需求。

3. 多任务预训练

设计两类任务以增强跨模态交互:
- 去噪任务
- 1D去噪:基于T5目标恢复掩码的SELFIES或文本。
- 1D+3D联合去噪:输入为联合令牌,目标为恢复1D序列。
- 翻译任务
- 3D→1D翻译:从3D令牌生成SELFIES序列。
- 3D→文本翻译:输入联合令牌,输出分子描述。
- 文本→1D翻译:根据文本生成分子序列。

4. 指令微调与评估

在以下任务中验证模型性能:
- 分子性质预测:3D依赖(如HOMO-LUMO能隙)与独立性质(如分子量)。
- 3D分子描述生成:从结构生成自然语言描述。
- 文本引导分子生成:根据文本生成有效分子序列。


四、主要结果

1. 分子性质预测

  • PubChemQC数据集:3D-MolT5在3D依赖性质(如HOMO-LUMO能隙)上相比3D-MolM提升近70%(MAE从0.28降至0.08 eV)。
  • QM9数据集:平均绝对误差(MAE)达0.0017 Ha,优于所有基线(如Uni-Mol)。

2. 分子描述与生成

  • 3D分子描述:在PubChem数据集上,ROUGE-L得分提升17.84(从34.64至52.48)。
  • 文本生成分子(ChEBI-20):精确匹配率(Exact Match)达48.7%,远超GPT-4(28%)。

3. 跨模态优势

  • 消融实验:移除3D输入或联合预训练任务均导致性能显著下降(如HOMO-LUMO的MAE增加22%)。

五、结论与价值

科学价值
- 方法论创新:首次将3D分子结构离散化为令牌,实现多模态统一建模。
- 性能突破:在3D依赖任务中确立新基准,证明结构信息对分子理解的必要性。

应用价值
- 药物设计:精准预测3D依赖的分子性质(如结合能)。
- 化学教育:生成可解释的分子描述,辅助科研交流。


六、研究亮点

  1. 3D令牌化:基于E3FP的原子中心离散化方法,解决连续3D结构与离散文本的兼容性问题。
  2. 端到端框架:无需外部分子编码器,通过多任务预训练实现跨模态深度交互。
  3. 通用性:在1D/3D分子任务与文本任务中均达到SOTA性能。

七、其他贡献

  • 开源代码:提供完整实现(GitHub链接),促进社区复现与扩展。
  • 跨领域启示:为其他多模态建模(如材料科学)提供参考范式。

(全文约2300字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com