分享自:

自引用嵌入字符串(SELFIES)与分子字符串表示的未来

期刊:patternsDOI:10.1016/j.patter.2022.100588

本文为类型b的科学论文(Perspective文章),由Mario Krenn等来自Max Planck Institute for the Science of Light、University of Toronto等29个机构的学者联合撰写,2022年10月14日发表于期刊《Patterns》。文章标题为《SELFIES and the Future of Molecular String Representations》,聚焦人工智能(AI)驱动化学发现中的分子表征挑战,提出基于SELFIES(自参考嵌入字符串)的分子表征语言及其未来研究方向。以下是核心内容:


一、分子表征的历史与现状

文章首先回顾了分子表征的250年发展历程:从1787年Lavoisier的化学命名法到1988年SMILES(简化分子线性输入规范)的诞生,再到其局限性在AI时代凸显——SMILES非健壮性导致约90%的生成字符串化学无效。为解决这一问题,作者团队于2020年提出SELFIES,其核心创新在于通过形式文法(formal grammar)确保100%的化学有效性。与SMILES和InChI(国际化学标识)相比,SELFIES通过符号重载(symbol overloading)和自动机状态管理,规避了语法和语义错误(如图3所示VAE潜空间对比)。


二、SELFIES的技术原理与优势

  1. 健壮性实现机制

    • 符号重载:分支和环的大小通过后续符号的十六进制数值动态定义(如表1),避免了SMILES中括号不匹配的语法错误。
    • 形式文法约束:每个推导步骤的原子价态由自动机状态跟踪,确保语义有效性(如氧原子不超过2价)。
    • 示例:苯的SELFIES编码[c][=c][c][=c][c][=c][ring1][=branch1]始终对应合法分子图。
  2. 应用案例
    SELFIES已简化遗传算法、好奇心驱动探索等AI化学任务。例如,在生成模型中将化学无效输出从>90%降至0%,无需模型结构调整(图3右)。


三、未来研究方向:16项核心课题

  1. 领域扩展

    • BigSELFIES:将现有有机分子表征扩展至聚合物(如复制单元随机组装)和生物大分子(如HELM风格的氨基酸链),需解决重复单元入口/出口的语法规则(未来项目3)。
    • Crystal-SELFIES:针对晶体周期性结构,通过标记商图(LQG)表示键拓扑(图7),需支持自环、平行边和空间群标签(未来项目4-5)。
  2. 复杂键合系统
    过渡金属化合物中的离域键(如二茂铁,图8b)需突破价键理论限制。提出以下策略:

    • 超图(hypergraph)表示多中心键(如Dietz方案,图10c)。
    • 显式氢原子和零级键(zero-order bonds)避免隐含价态假设(未来项目6)。
  3. 反应表征
    当前反应SMILES冗余度高(图12),需开发反应SELFIES以编码原子映射(atom mapping)和守恒律,并利用符号回归从数据中提取反应规则(未来项目7)。

  4. 编程语言化
    SELFIES可视为分子图生成的领域特定语言(DSL)。未来可扩展为图灵完备语言,支持3D构象编码(如键角指针变量,未来项目8)。


四、挑战与意义

  1. 科学价值

    • 为AI化学提供标准化、健壮的基础设施,避免无效输出对生成模型的干扰。
    • 多中心键和晶体拓扑的表征将覆盖传统有机化学外的广阔空间。
  2. 工业应用
    SELFIES开源特性(pip可安装)降低商业工具依赖,而高分子和晶体表征有望加速功能材料设计。

  3. 跨学科启示
    MetaSELFIES框架(未来项目1)可从数据自动推导顶点度约束,适用于量子光学、RNA折纸等其他图结构领域。


五、核心亮点

  1. 方法学创新:首个100%健壮的分子字符串表示法,融合形式语言理论与化学约束。
  2. 领域突破:提出无机化学、高分子和晶体的表征解决方案。
  3. 跨域通用性:通过数据驱动的文法生成(MetaSELFIES)实现化学无关的健壮图表示。

(全文共计约1,500字,覆盖历史背景、技术细节、未来方向及跨学科价值)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com