分享自:

基于群体学习的可信材料计算框架MatSwarm

期刊:Nature CommunicationsDOI:10.1038/s41467-024-53431-x

学术研究报告:MatSwarm框架——基于可信群学习的材料大数据安全共享计算平台

一、作者及发表信息
本研究由Ran Wang(1,2,3)、Cheng Xu(1,2,4)、Shuhao Zhang(3)等来自中国北京科技大学计算机与通信工程学院、北京材料基因工程高精尖创新中心、新加坡南洋理工大学等机构的研究团队合作完成,于2024年10月7日发表于《Nature Communications》(2024年卷15期,文章号9290)。

二、学术背景
科学领域:本研究属于材料信息学与安全计算交叉领域,涉及联邦学习(Federated Learning, FL)、区块链和可信执行环境(Trusted Execution Environment, TEE)技术。
研究动机:工业4.0时代下,材料研发机构需共享数据以加速新材料的发现,但数据隐私保护需求导致“数据孤岛”问题。传统联邦学习在非独立同分布(non-IID)材料数据上泛化性差,且中心化服务器存在安全风险。
研究目标:开发一种名为MatSwarm的去中心化框架,通过结合群学习(Swarm Learning)、区块链和TEE技术,实现材料数据的安全共享与高效计算,同时提升模型在异构数据下的准确性。

三、研究流程与方法
1. 框架设计
- 核心组件
- 组织节点:各机构本地训练模型,使用英特尔SGX的TEE保护数据隐私。
- 区块链网络:基于Hyperledger Fabric构建,存储模型参数哈希值,通过智能合约自动化流程。
- TEE安全聚合:利用SGX enclave执行模型聚合,防止参数篡改。
- 创新算法:提出带正则化项的群迁移学习(Swarm Transfer Learning),通过参数对齐优化非IID数据下的模型泛化能力。

  1. 实验验证

    • 数据集:从国家材料数据管理服务平台(NMDMS)获取4016个钙钛矿形成能样本,其中训练集3694个(非IID分布),测试集322个。
    • 攻击测试:模拟5类数据投毒攻击(如噪声攻击、标签翻转等),对比TEE与非TEE环境下的防御效果。
    • 对比方法:包括独立训练(Solo)、联合训练(Joint)、FedAvg、FedProx等,评估均方误差(MSE)和响应时间。
  2. 技术实现细节

    • 本地模型训练:采用多层感知机(MLP)、Lasso等算法,通过Diffie-Hellman密钥交换加密数据传输。
    • 全局聚合:支持均值(Mean)、中位数(Median)等多种聚合方法,TEE内执行以保障安全性。
    • 共识机制:基于PBFT(实用拜占庭容错)算法验证全局模型一致性。

四、主要结果
1. 安全性
- TEE环境下所有聚合方法均能抵抗攻击,模型收敛速度与无攻击时相近(MSE波动<0.01)。
- 区块链存储的模型哈希值确保不可篡改,智能合约自动化降低人为风险。

  1. 性能优势

    • 准确性:MatSwarm在非IID数据上的MSE(0.0903 eV/atom)显著优于独立训练(最高1.6159),接近联合训练(0.0138)。
    • 泛化性:即使单个机构数据量仅占30%,MSE仍低至0.155,解决材料科学中的“小样本问题”。
  2. 可扩展性

    • 参与机构增至15家时,响应时间线性增长(约4秒/家),但精度提升显著。
    • 特征数量增加对计算效率影响微弱(响应时间波动%)。

五、结论与价值
科学价值
- 首次将群学习与TEE结合应用于材料科学,为非IID数据协作计算提供新范式。
- 提出的正则化迁移学习方法为异构数据对齐提供理论支持。

应用价值
- 已在中国30余家机构部署,聚合超1400万条材料数据,加速新材料研发周期。
- 模块化设计支持扩展至其他领域(如生物医学、能源材料)。

六、研究亮点
1. 方法创新:集成联邦学习、区块链与TEE,解决数据隐私与模型泛化的矛盾。
2. 工程落地:在NMDMS平台实现规模化应用,验证实际可行性。
3. 安全强化:TEE+区块链的双重防护机制抵御内部/外部攻击。

七、其他价值
- 开源代码与数据集(GitHub/Zenodo)推动领域复现与改进。
- 补充材料提供跨领域应用指南,扩展框架普适性。

(注:专业术语如non-IID、TEE等首次出现时标注英文,后续使用中文表述。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com