本文为类型b的科学论文(Perspective文章),由Mario Krenn等来自Max Planck Institute for the Science of Light、University of Toronto等29个机构的学者联合撰写,2022年10月14日发表于期刊《Patterns》。文章标题为《SELFIES and the Future of Molecular String Representations》,聚焦人工智能(AI)驱动化学发现中的分子表征挑战,提出基于SELFIES(自参考嵌入字符串)的分子表征语言及其未来研究方向。以下是核心内容:
文章首先回顾了分子表征的250年发展历程:从1787年Lavoisier的化学命名法到1988年SMILES(简化分子线性输入规范)的诞生,再到其局限性在AI时代凸显——SMILES非健壮性导致约90%的生成字符串化学无效。为解决这一问题,作者团队于2020年提出SELFIES,其核心创新在于通过形式文法(formal grammar)确保100%的化学有效性。与SMILES和InChI(国际化学标识)相比,SELFIES通过符号重载(symbol overloading)和自动机状态管理,规避了语法和语义错误(如图3所示VAE潜空间对比)。
健壮性实现机制
[c][=c][c][=c][c][=c][ring1][=branch1]始终对应合法分子图。应用案例
SELFIES已简化遗传算法、好奇心驱动探索等AI化学任务。例如,在生成模型中将化学无效输出从>90%降至0%,无需模型结构调整(图3右)。
领域扩展
复杂键合系统
过渡金属化合物中的离域键(如二茂铁,图8b)需突破价键理论限制。提出以下策略:
反应表征
当前反应SMILES冗余度高(图12),需开发反应SELFIES以编码原子映射(atom mapping)和守恒律,并利用符号回归从数据中提取反应规则(未来项目7)。
编程语言化
SELFIES可视为分子图生成的领域特定语言(DSL)。未来可扩展为图灵完备语言,支持3D构象编码(如键角指针变量,未来项目8)。
科学价值
工业应用
SELFIES开源特性(pip可安装)降低商业工具依赖,而高分子和晶体表征有望加速功能材料设计。
跨学科启示
MetaSELFIES框架(未来项目1)可从数据自动推导顶点度约束,适用于量子光学、RNA折纸等其他图结构领域。
(全文共计约1,500字,覆盖历史背景、技术细节、未来方向及跨学科价值)