分享自:

PromptSMILES:化学语言模型中用于支架修饰和片段链接的提示

期刊:journal of cheminformaticsDOI:10.1186/s13321-024-00866-5

学术研究报告:PromptSMILES——基于提示的化学语言模型在分子骨架修饰与片段连接中的应用

1. 研究团队与发表信息
本研究由Morgan Thomas(第一作者,西班牙庞培法布拉大学计算科学实验室)、Mazen Ahmad(比利时Janssen Pharmaceutica公司)、Gary Tresadern(Janssen Pharmaceutica公司)和Gianni De Fabritiis(通讯作者,庞培法布拉大学及Acellera Labs)合作完成,发表于*Journal of Cheminformatics*(2024年,卷16,第77期)。论文标题为《PromptSMILES: Prompting for Scaffold Decoration and Fragment Linking in Chemical Language Models》,采用开放获取(Open Access)形式发布,遵循CC BY 4.0许可协议。

2. 学术背景与研究目标
科学领域:本研究属于计算药物设计(Computational Drug Design)与人工智能化学(AI in Chemistry)交叉领域,聚焦于化学语言模型(Chemical Language Models, CLMs)在分子生成任务中的应用。
研究动机:在药物研发后期,常需固定核心骨架(scaffold)探索不同修饰基团(scaffold decoration),或连接多个片段(fragment linking)。传统方法需针对不同任务重新训练模型或设计特定语法,效率低下。本研究旨在开发一种通用方法,利用预训练的CLMs通过“提示(prompt)”实现骨架约束生成,无需重新训练模型。
关键背景知识
- SMILES表示法:一种将分子结构编码为字符串的标准方法。
- 化学语言模型(CLMs):基于SMILES序列的自回归模型,如RNN或Transformer,可生成新分子。
- 强化学习(Reinforcement Learning, RL):用于优化生成分子属性(如生物活性、合成可行性)。

3. 研究方法与流程
核心流程分为三部分

(1)基于提示的骨架修饰(Scaffold Decoration)
- 输入:带有虚拟原子(如*标记)的骨架SMILES字符串(如c1c(*)cc(*)cc1)。
- 步骤
1. SMILES重排:通过RDKit将目标连接点置于字符串末尾,确保模型从该点延伸生成修饰基团。
2. 迭代生成:依次处理每个连接点,每次生成后保留已修饰部分,作为下一次生成的输入。
3. 强化学习优化:通过RL调整模型参数,最大化目标函数(如分子活性或唯一性)。
- 创新方法:提出“优化模式(optimise)”,通过CLM评估不同SMILES排列的生成概率,选择最优提示。

(2)基于提示的片段连接(Fragment Linking)
- 输入:两个或多个片段SMILES(如[“c1c(*)c1”, “n1(*)ccncc1”])。
- 步骤
1. 片段排序:随机或按顺序选择起始片段,重排SMILES使其连接点位于首或尾。
2. 链接生成:CLM在片段间生成连接子(linker),并通过RL优化链接属性(如长度、柔性)。
3. 多片段扩展:支持非线形连接(如A-X-C或A-X(-C)-B),通过评估插入位置的概率选择最优连接方式。

(3)强化学习框架
- 算法:采用REINVENT策略(σ=120),分阶段采样与更新。
- 两种更新策略:单次更新(基于完整分子)或多步更新(每次迭代后更新)。
- 目标函数:支持多种化学性质优化(如QSAR预测活性、反应规则过滤)。

4. 主要结果
(1)骨架修饰性能验证
- 对比基线:与SAMOA方法相比,PromptSMILES在17个药物骨架上生成分子的有效性(validity)更高(16/17),但唯一性(uniqueness)较低。通过RL优化后,唯一性显著提升(15/17优于基线)。
- 数据支持:生成10,000个分子,平均有效性达95%以上(图3)。

(2)反应规则约束优化
- 任务:模拟LibInvent实验,优化多巴胺D2受体(D2)活性并满足酰胺偶联/Buchwald-Hartwig反应规则。
- 结果:在8种配置中,7种生成的成功化合物数量超过LibInvent(表1),最高产率达85.7%。引入RL后,83%的分子满足反应规则(表2)。

(3)多片段连接实验
- 案例:以阿托伐他汀(atorvastatin)为模板,连接2-4个片段。RL优化后,四片段约束的相似度最高(图5c),但需更长的训练周期适应多任务。

5. 研究结论与价值
科学价值
- 方法创新:首次实现单一CLM通过提示完成骨架修饰、片段连接及自由生成,避免任务专用模型训练。
- 效率提升:相比专用架构(如LibInvent、LinkInvent),减少数据预处理与训练成本。
应用价值
- 药物设计:加速先导化合物优化与知识产权拓展。
- 工具开源:提供Python包(PromptSMILES),支持与Hugging Face等平台集成。

6. 研究亮点
- 无需重新训练:仅需预训练CLM,通过提示和RL适应新任务。
- 多任务通用性:同一模型支持骨架修饰、片段连接及自由生成。
- 扩展性:支持非线形多片段连接,超越现有工具(如SAMOA)。

7. 其他价值
- 实验验证:在Guacamol基准测试中,简化骨架提示可提升性能(如Factor Xa任务质量分达0.61)。
- 灵活性:支持动态切换任务(如从骨架修饰转向片段连接),模拟药物设计全流程(图6)。

(注:全文约1500字,涵盖方法细节、数据支持及领域意义,符合学术报告要求。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com