分享自:

基于生成模型的粉末衍射晶体结构测定

期刊:nature communicationsDOI:10.1038/s41467-025-62708-8

类型a:

基于生成模型的粉末X射线衍射晶体结构测定技术突破

作者及机构
本研究的核心作者团队由来自中国科学院物理研究所(The Beijing National Laboratory for Condensed Matter Physics, Institute of Physics, Chinese Academy of Sciences)的Qi Li、Rui Jiao、Shifeng Jin、Hongming Weng和Xiaolong Chen,清华大学计算机科学与技术系的Yang Liu,以及中国人民大学高瓴人工智能学院的Wenbing Huang等学者组成。该研究于2025年发表在《Nature Communications》期刊上,论文标题为《Powder diffraction crystal structure determination using generative models》。

学术背景
晶体结构解析是材料科学、化学、物理学和地质学等领域的基石,对理解材料性质、设计新型功能材料(如药物和电子器件)至关重要。传统的单晶X射线衍射(SCXRD)是晶体结构测定的金标准,但许多材料仅能以粉末形式获取,因此粉末X射线衍射(PXRD)成为更广泛使用的技术。然而,PXRD数据分析存在显著挑战:衍射峰重叠导致强度模糊、轻原子(如氢、锂)定位困难、相邻元素(如锰和铁)区分度低,且传统方法依赖人工经验和耗时的手动优化。

为解决这些问题,研究团队开发了PXRDGen——一种基于生成模型的端到端神经网络,旨在通过人工智能实现PXRD数据的自动化、高精度结构解析。该研究的目标是突破传统方法的局限性,实现原子级精度的晶体结构预测,并覆盖纳米材料和复杂化合物等传统技术难以处理的体系。

研究流程与方法
PXRDGen的工作流程分为三个核心模块:

  1. 预训练的XRD编码器(PXE模块)

    • 功能:将PXRD图谱与晶体结构在隐空间中对齐,提取衍射特征。
    • 技术细节:采用对比学习(contrastive learning)方法,训练两种编码器——基于卷积神经网络(CNN)和Transformer架构的模型。实验表明,Transformer编码器的Top-10检索准确率达92.42%,显著优于CNN(33.57%)。
    • 创新点:通过温度系数(temperature coefficient)优化特征对齐效果,降低噪声干扰。
  2. 晶体结构生成(CSG模块)

    • 生成框架:结合扩散模型(diffusion model)和流模型(flow matching model),以化学式和PXRD特征为条件,联合生成晶胞参数(lattice parameters, *l*)和原子分数坐标(fractional coordinates, *fi*)。
    • 性能对比:流模型(Flow-CNN)在MP-20数据集上单样本匹配率达68.68%,20样本匹配率提升至85.37%,生成速度比扩散模型快20倍(仅需1秒/结构)。
    • 关键改进:引入CellNet神经网络,直接从PXRD数据预测晶胞参数,使匹配率进一步提升至75.32%(单样本)和96.71%(20样本)。
  3. Rietveld精修(RR模块)

    • 自动化精修:将CSG模块生成的候选结构输入GSAS-II软件进行Rietveld精修,优化结构与实验数据的拟合度。
    • 效果验证:在7304个测试结构中,精修后均方根误差(RMSE)平均降低一个数量级,其中82%的化合物RMSE<0.05,接近实验精度极限。

主要结果
1. 高精度结构预测
- 在MP-20数据集(含20原子以内的稳定无机化合物)中,PXRDGen对有效化合物的单样本和20样本匹配率分别达82%和96%,RMSE接近Rietveld精修的理论极限(<0.01)。
- 案例验证
- 轻原子定位:在Zr₂Ni₂H₆中,氢原子位置与中子衍射结果一致(RMSE<0.02);
- 相邻元素区分:成功区分Mn₂Fe₂As₂中的锰(Z=25)和铁(Z=26),传统PXRD无法实现;
- 纳米材料应用:在晶粒尺寸低至10Å的纳米样品中,匹配率仍保持83.5%。

  1. 技术突破
    • 抗干扰能力:引入5%的Al₂O₃杂质峰后,20样本方法的匹配率仅下降3.5%,鲁棒性显著优于传统方法。
    • 跨领域潜力:可处理金属间化合物、复杂氧化物等体系,但有机材料仍需进一步适配(如引入SMILES编码)。

结论与价值
PXRDGen通过生成模型与多模态学习的结合,实现了PXRD结构解析的范式革新:
- 科学价值:解决了轻原子定位、元素区分和峰重叠三大传统难题,为材料基因组研究提供了高效工具。
- 应用价值:将传统需数天的手动解析缩短至秒级,有望推动高通量材料发现和工业化应用。

研究亮点
1. 方法创新:首次将流模型引入晶体结构生成,兼顾速度与精度;
2. 跨学科融合:结合深度学习和传统晶体学方法(如Rietveld精修),形成闭环工作流;
3. 极限挑战突破:在纳米尺度和杂质干扰下仍保持高准确性,拓展了PXRD技术的适用范围。

其他价值
研究团队开源了代码和数据集(Code Ocean),为后续研究提供了可复现的基准。未来工作将聚焦于复杂氧化物和有机材料的适配,进一步推动AI在结构解析中的普适化应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com