学术研究报告:3D-MolT5——利用离散结构信息实现分子-文本统一建模的创新框架
本研究的核心团队由Qizhi Pei(中国人民大学高瓴人工智能学院)、Rui Yan(中国人民大学/武汉大学)、Kaiyuan Gao(华中科技大学)、Jinhua Zhu(中国科学技术大学)及Lijun Wu(上海人工智能实验室)组成。论文以《3D-MolT5: Leveraging Discrete Structural Information for Molecule-Text Modeling》为题,发表于ICLR 2025会议。
科学领域:本研究属于计算化学与自然语言处理(NLP)的交叉领域,旨在解决分子科学与语言模型融合中的关键挑战。
研究动机:传统分子-文本联合建模方法(如MolT5、Biot5)主要依赖一维分子序列(如SMILES、SELFIES)或二维分子图,但三维(3D)分子结构信息的缺失限制了模型对分子空间构象和功能的理解。尽管已有尝试(如3D-MolM)通过外部分子结构编码器引入3D信息,但存在模态交互不足、对齐困难和依赖外部模块等问题。
目标:提出3D-MolT5,一种基于T5框架的统一模型,通过3D分子离散化表征,实现分子序列、结构和文本的端到端建模,提升跨模态交互与任务泛化能力。
[c]、[=n])具有唯一性和鲁棒性。e = 0.5e1d + 0.5e3d)生成联合表征。设计两类任务以增强跨模态交互:
- 去噪任务:
- 1D去噪:基于T5目标恢复掩码的SELFIES或文本。
- 1D+3D联合去噪:输入为联合令牌,目标为恢复1D序列。
- 翻译任务:
- 3D→1D翻译:从3D令牌生成SELFIES序列。
- 3D→文本翻译:输入联合令牌,输出分子描述。
- 文本→1D翻译:根据文本生成分子序列。
在以下任务中验证模型性能:
- 分子性质预测:3D依赖(如HOMO-LUMO能隙)与独立性质(如分子量)。
- 3D分子描述生成:从结构生成自然语言描述。
- 文本引导分子生成:根据文本生成有效分子序列。
科学价值:
- 方法论创新:首次将3D分子结构离散化为令牌,实现多模态统一建模。
- 性能突破:在3D依赖任务中确立新基准,证明结构信息对分子理解的必要性。
应用价值:
- 药物设计:精准预测3D依赖的分子性质(如结合能)。
- 化学教育:生成可解释的分子描述,辅助科研交流。
(全文约2300字)