分享自:

Moformer:基于自监督Transformer模型的金属有机框架性质预测

期刊:Journal of the American Chemical SocietyDOI:10.1021/jacs.2c11420

关于Moformer:一种用于金属有机骨架性质预测的自监督Transformer模型的学术研究报告

本报告旨在介绍由Zhonglin Cao, Rishikesh Magar, Yuyang Wang和Amir Barati Farimani*(通讯作者)共同完成,并于2023年1月27日发表于《Journal of the American Chemical Society》(J. Am. Chem. Soc. 2023, 145, 2958–2967)的一项原创性研究。该研究团队来自美国卡内基梅隆大学机械工程系、化学工程系及机器学习系。

一、 研究背景与目标

本研究属于计算材料科学、机器学习与化学信息学的交叉领域,具体聚焦于金属有机骨架材料的性质预测。金属有机框架是一种具有高孔隙度的多孔晶体材料,由金属节点和有机连接体按特定拓扑结构组装而成。由于其构建块和拓扑结构的组合可能性近乎无限,MOF的化学空间极其庞大。为了针对特定应用(如气体吸附、能源存储等)发现最优的MOF材料,需要在海量候选结构中进行高效且准确的筛选。

传统的高通量筛选方法依赖于密度泛函理论等计算模拟,虽然避免了实验合成的成本,但计算耗时且昂贵。更重要的是,这些方法通常需要已知或预先优化好的MOF三维原子结构,这对于评估大量假设的MOF结构构成了额外障碍。近年来,机器学习模型因其能够实现瞬时推理而备受关注,但现有方法大多依赖于基于三维结构的手工特征或图神经网络(如CGCNN),前者需要领域知识且通用性差,后者仍然需要三维结构信息,且对于大型MOF结构存在内存效率低的问题。

基于此,本研究旨在开发一种结构无关的深度学习方法,以绕过获取三维结构这一瓶颈,加速MOF的虚拟筛选过程。具体目标是:1)提出一个名为Moformer的基于Transformer的模型,该模型仅使用MOF的文本字符串表示(MOFid)作为输入,进行性质预测;2)引入一个自监督学习框架,通过联合预训练Moformer和结构相关的CGCNN模型,提升两者在下游预测任务中的准确性;3)系统评估Moformer在多个基准数据集上的性能,并与现有方法进行对比;4)探究模型的数据效率及所学表征的可解释性。

二、 研究方法与工作流程

本研究包含几个核心步骤:数据准备与表示、Moformer模型构建、自监督预训练框架设计、基准测试与性能评估、以及模型分析与解释。

1. 数据准备与MOFid表示: 研究使用了三个公开的MOF数据集进行预训练:CoRE MOF 2019、Hypothetical MOFs和Boyd&Woo数据集。经过去重后,最终预训练数据集包含413,535个独特的MOF,每个MOF同时具备三维原子结构和MOFid。对于下游监督学习任务,使用了两个基准数据集:QMof(包含带带隙标签的MOF)和hMOF(包含CO2和CH4吸附等温线标签的MOF)。其中,只有部分MOF具有可用的MOFid,因此Moformer在这些子集上进行训练和测试,但分析表明这些子集与原始数据集分布一致,保证了比较的公平性。

MOFid是一种文本字符串表示法,由Bucior等人提出。它将MOF的化学信息(次级构建单元的SMILES字符串)和结构信息(基于RCSR数据库的拓扑和互锁编码)编码成一个简洁的字符串。这种表示法使得能够应用处理文本的语言模型来处理MOF。

2. Moformer模型构建: Moformer基于Transformer编码器架构。其工作流程如下: * 输入与分词:输入是MOFid字符串。研究开发了一个定制化的分词器,将SMILES部分和拓扑编码部分分别分词,然后连接,并在序列首尾添加特殊的[CLS]和[SEP]标记。序列被统一处理为固定长度512。 * 嵌入与位置编码:分词后的序列被转换为嵌入向量,并与正弦-余弦位置编码相加,以注入序列顺序信息。 * Transformer编码器:处理后的序列输入到一个包含6层编码器的Transformer模块中。每一层都包含多头自注意力机制和前馈多层感知机,并采用了残差连接和层归一化。自注意力机制使模型能够学习序列中所有标记之间的上下文信息。 * 输出与预测:遵循自然语言处理中的常见做法,使用第一个标记([CLS])的最终嵌入作为整个MOF序列的表示。该表示随后被送入一个多层感知机回归头,用于下游的性质预测任务。

3. 自监督学习框架: 为了提升模型性能,特别是弥补文本输入在几何和原子邻域信息上的不足,研究者设计了一个创新的自监督预训练框架。该框架同时处理MOF的两种模态数据:文本(MOFid,由Moformer处理)和三维图结构(由CGCNN处理)。 * 流程:将同一个MOF的MOFid和3D结构分别输入Moformer和CGCNN编码器,两者均输出一个512维的表示。随后,通过一个投影头将各自的表示映射到嵌入空间,得到嵌入向量Za和Zb。 * 损失函数:采用Barlow Twins损失函数。该函数作用于两个嵌入向量的互相关矩阵C,旨在优化该矩阵,使其尽可能接近单位矩阵。这意味着,理想情况下,来自同一MOF的不同模态表示应该高度一致(对角线元素接近1),而不同维度之间应该去相关(非对角线元素接近0)。通过这种约束,迫使Moformer和CGCNN学习到对同一MOF的一致性、信息丰富的表征。 * 预训练与微调:在超过40万个MOF数据上进行预训练后,保留编码器权重,然后在特定的下游任务(如带隙预测、气体吸附预测)数据集上分别对Moformer和CGCNN进行监督微调。

4. 基准测试与对比方法: 为了全面评估Moformer,研究将其与多种基线方法进行了比较: * 结构相关方法CGCNN(晶体图卷积神经网络),需要3D结构输入;SOAP(原子位置平滑重叠)描述符,也是一种基于结构的特征化方法。 * 结构无关方法Stoichiometric-120,基于化学计量式的统计特征;RACS(修订的自相关函数),基于晶体图和原子性质,不直接需要3D坐标。 所有基于特征的方法(SOAP, Stoichiometric-120, RACS)都使用XGBoost模型进行预测。评估指标主要为平均绝对误差。

5. 模型分析与解释: * 表征可视化:使用t-SNE降维技术将Moformer和CGCNN学习到的MOF表征投影到二维空间,根据性质(如CO2吸附量)或拓扑结构进行着色,直观比较两种模型所学表征的差异和侧重点。 * 注意力权重可视化:分析Moformer最后一层中不同注意力头对输入MOFid各个标记的关注度热图,以理解模型做出决策时关注了哪些关键信息(如特定金属原子、拓扑编码、有机连接体中的特定键)。 * 数据效率分析:在训练数据量逐渐减少的情况下,比较不同模型的性能变化,评估模型在小数据集上的有效性。

三、 主要研究结果

1. 基准测试性能: * 带隙预测(QMof数据集):在预测DFT计算的带隙任务中,结构相关的CGCNN表现最佳。然而,结构无关的Moformer取得了所有结构无关方法中的最佳性能,其MAE比Stoichiometric-120低21.2%,比RACS低16.9%。值得注意的是,Moformer甚至超越了基于结构的SOAP方法,尽管Moformer使用的训练数据更少。这证明了Moformer能够从MOFid中有效提取与能量相关性质预测的关键特征。自监督预训练使CGCNN和Moformer的MAE分别进一步降低了6.79%和5.34%。 * 气体吸附预测(hMOF数据集):对于CO2和CH4在不同压力下的吸附量预测,预训练后的CGCNN在大多数任务中表现最优。预训练后的Moformer consistently outperformed other structure-agnostic methods,其MAE比Stoichiometric-120低35-48%,比RACS低25-42%。预训练平均将Moformer和CGCNN在所有气体吸附预测任务上的准确率分别提升了4.3%和16.5%。SOAP在hMOF上表现出奇的好,但作者指出这得益于hMOF中元素种类少(仅11种),使得SOAP特征向量较小且稀疏。当面对元素种类更多样(如QMof含79种元素)的数据集时,SOAP的特征维度和稀疏性会急剧增加,导致内存问题和精度下降,而Moformer和CGCNN的输入不受此影响,更具普适性。

2. 结果深入分析: * 误差分布:在带隙预测中,与SOAP和Stoichiometric-120相比,Moformer和CGCNN对低带隙(≤2 eV)MOF的预测更准确,后两者倾向于高估低带隙值。这对于筛选导电MOF用于能源应用至关重要。 * 表征可视化分析:t-SNE图显示,在预测气体吸附时,CGCNN的表征将高吸附量的MOF聚类得更紧密,这可能解释了其更高的精度。而Moformer的表征更倾向于将具有相同拓扑结构的MOF聚类在一起,因为MOFid中唯一的结构信息就是拓扑编码,模型在预测与结构强相关的性质(如吸附)时,会更多地依赖拓扑信息。CGCNN由于直接输入3D结构,对拓扑的依赖相对较少。 * 注意力机制解释:注意力热图显示,Moformer在预测带隙时,其注意力层会聚焦于MOFid中的关键组成部分,如特定的金属原子(如Yb)、拓扑编码(如pcu)以及有机连接体中的特定原子(如C、O)和化学键。这表明模型学会了基于这些关键化学和拓扑信息来构建MOF的表征。 * 数据效率对比:在带隙预测任务中,当训练集规模小于或等于1000时,预训练后的Moformer甚至优于CGCNN。这表明在高质量数据获取困难(如实验合成的MOF)的量子化学性质预测场景下,Moformer更具价值。对于气体吸附预测,CGCNN在所有数据规模下都更优,这与吸附性质更依赖3D结构信息相符。预训练持续提升了两个模型的数据效率。

四、 研究结论与意义

本研究成功开发并验证了Moformer,这是一个基于Transformer的、结构无关的MOF性质预测模型。其主要结论和价值如下:

  1. 提出了一种高效的MOF筛选新范式:Moformer仅需MOFid文本字符串作为输入,即可对假设的MOF性质进行快速、准确的预测,完全绕过了获取或优化3D结构这一耗时步骤,极大加速了虚拟筛选流程,为探索广阔的假设MOF化学空间提供了强大工具。
  2. 实现了结构无关预测的先进性能:在多个基准测试中,Moformer在带隙和气体吸附预测任务上,均显著优于其他结构无关描述符(Stoichiometric-120和RACS),甚至在某些任务上超越了基于结构的方法(SOAP),确立了其在结构无关MOF性质预测领域的先进水平。
  3. 创新性地引入了跨模态自监督学习框架:通过联合预训练文本模态的Moformer和结构模态的CGCNN,并利用Barlow Twins损失函数最大化两者表征的一致性,有效提升了两个模型在下游任务中的预测精度。这为融合多模态信息进行材料表征学习提供了新思路。
  4. 揭示了模型的数据效率优势:研究表明,在训练数据有限(≤1000)的情况下,Moformer在量子化学性质(如带隙)预测上比CGCNN更具数据效率,这在实际数据稀缺的应用中具有重要意义。
  5. 提供了模型的可解释性见解:通过表征可视化和注意力权重分析,揭示了Moformer学习MOF表征的机制,即关注MOFid中的关键原子和拓扑信息,增强了模型的可信度和理解深度。

五、 研究亮点

  1. 方法新颖性:首次将Transformer架构成功应用于MOF的文本表示(MOFid),开创了结构无关的MOF深度学习预测新方法。
  2. 框架创新性:设计了针对材料科学的跨模态(文本与图结构)自监督学习框架,有效利用了大量未标记的MOF数据来提升模型表征能力。
  3. 性能优越性:在标准基准测试中,Moformer作为结构无关模型,取得了媲美甚至超越部分结构相关方法的预测精度,特别是在带隙预测上。
  4. 实用性强:模型输入简单(文本字符串),推理速度快,无需3D结构,非常适合用于大规模、快速的假设MOF初筛。
  5. 洞察深入:不仅报告了性能结果,还通过系统的可视化分析(t-SNE、注意力热图)和数据效率实验,深入探究了模型的行为、优势、局限以及与传统方法的差异。

六、 其他有价值内容

研究还讨论了模型的局限性。例如,Moformer在预测高度依赖原子连接关系的性质(如热导率)时可能面临挑战。此外,对于具有罕见拓扑结构的MOF,其预测准确性可能下降,这可以通过在未来增加训练数据的拓扑多样性来缓解。作者已公开了本研究的Python代码和相关数据,便于学术界复现和进一步研究。

本研究提出的Moformer模型及其自监督学习框架,为金属有机骨架材料的高效设计与发现提供了有力的计算工具和新的方法论视角,在加速功能化多孔材料研发方面具有重要的科学价值与应用潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com