作者及单位
本研究的通讯作者为北京大学深圳研究生院深圳湾实验室的*Feng Pan*和*Shunning Li*,第一作者为*Litao Chen*、*Bingxu Wang*和*Wentao Zhang*(贡献并列)。研究团队还包括来自同一单位的其他合作者。该成果于2024年3月13日发表于《Journal of the American Chemical Society》(J. Am. Chem. Soc. 2024, 146, 8098−8109)。
研究领域与动机
本研究属于材料科学与人工智能交叉领域,聚焦X射线衍射(XRD, X-ray diffraction)数据自动解析的关键挑战。传统XRD分析依赖专家经验进行晶型匹配,耗时且难以应对高通量实验(high-throughput experimentation)产生的大量数据。尽管深度学习已用于XRD辅助分析,现有模型存在两大局限:
1. 泛化性不足:仅能识别训练集中已有的化合物,无法处理全新结构的未知化合物;
2. 扩展性受限:新增结构类型需重新训练整个模型,计算成本高昂。
科学问题
如何开发一个既能识别未知化合物结构类型,又可灵活扩展至新晶体结构的深度学习模型?
创新目标
团队提出CrystInet(Crystal Structure-type Identification Network),一种基于残差卷积神经网络(ResNet, Residual Neural Network)的框架,旨在实现两个核心功能:
- 通过量化未知化合物与已知结构类型的相似性(isoconfigurational structure)推荐候选晶型;
- 支持动态扩展新增结构类型而无需全模型重新训练。
数据来源:从无机晶体结构数据库(ICSD, Inorganic Crystal Structure Database)提取63,963种化合物,涵盖100种最常见的晶体结构类型(占ICSD收录化合物的44%)。
数据预处理:
- 模拟XRD图谱:基于晶体学信息文件(CIF, Crystallographic Information File)生成5°–110°(2θ范围)的衍射图谱;
- 数据增强:引入应变、晶粒尺寸变化和择优取向等实验复杂性的扰动,生成617,041组增强图谱,确保模型对实验噪声的鲁棒性。
核心创新:CrystInet采用10个子网络(RCNet, ResNet Confidence Network)的联合框架,每个子网络训练于不同结构类型分组。关键设计包括:
- 分组策略:通过UMAP(Uniform Manifold Approximation and Projection)降维和亲和传播聚类(Affinity Propagation Clustering),将100种结构类型分为10组,最大化组间差异;
- 双评估机制:
- 置信度值(C):衡量输入图谱与子网络训练集中某结构类型的局部特征匹配度;
- 相似度值(S):计算输入图谱与目标结构类型平均图谱的全局余弦相似性;
- 可靠性评分(R):通过线性组合R=αS+(1−α)C(α=0.7时最优)综合评估,提升分类准确率。
实验设置:
- 数据划分:训练集(70%)、验证集(10%)、测试集(20%);
- 硬件:62节点GPU集群(NVIDIA GeForce GTX 1080);
- 训练时间:每个RCNet约100分钟(400轮次)。
性能评估:
- 独立RCNet测试准确率达99.89%,但联合分类时纯依赖C值仅65.7%准确率;
- 引入R值后,模型整体准确率提升至80.0%。
测试集表现:
- 混淆矩阵显示,30种高频结构类型分类准确率普遍高于70%,但相似结构(如GdFeO₃型与Ba₂LaRuO₆型钙钛矿)易混淆;
- 实验数据测试:从RRUFF数据库提取80组实测XRD图谱,经去噪处理后准确率达81.3%,验证模型对真实数据的适用性。
通过梯度加权类激活映射(Grad-CAM, Gradient-weighted Class Activation Mapping)揭示模型决策依据:
- 局部特征依赖:如RCNet#1关注30°–35°低角度强峰,而RCNet#2依赖55°–85°高角度峰;
- 误诊机制:发现模型过度关注高角度峰可能导致跨数据集错误分类(如将橄榄石误判为钙钛矿),而结合S值可纠正此类偏差。
通过设定可靠性阈值(R₀=0.6),模型能以89.1%准确率区分“是否属于训练集的100种常见结构类型”,为是否需要引入新RCNet提供判断依据。
科学意义
1. 方法学创新:CrystInet首次实现无需重新训练即可扩展新结构类型,解决了深度学习模型在材料发现中的动态适应问题;
2. 技术突破:通过R值平衡局部与全局特征,显著提升对未知化合物的泛化能力;
3. 数据库应用:推动ICSD等晶体学数据库的智能化利用,降低对专家经验的依赖。
应用前景
- 高通量实验:作为“自动驾驶实验室”(self-driving laboratory)的核心模块,加速新材料的结构鉴定;
- 多相混合物分析:未来可结合Rietveld精修(Rietveld refinement)实现全自动化XRD解析。