联邦学习与隐私保护技术在蛋白质组学中的突破:FedProt工具的多中心差异蛋白质丰度分析研究
作者及发表信息
本研究由Yuliya Burankova(慕尼黑工业大学及丹麦南方大学)、Miriam Abele(慕尼黑工业大学)等来自21个机构的跨国团队合作完成,发表于2025年8月的《Nature Computational Science》(卷5,页675–688),DOI:10.1038/s43588-025-00832-7。
学术背景
质谱技术(Mass Spectrometry, MS)的革命性进展使得蛋白质组学能够同时定量数千种蛋白质,但多中心数据整合面临隐私泄露风险。现有元分析(meta-analysis)方法如Fisher法、Stouffer法、随机效应模型(REM)和RankProd存在统计假设局限性和批次效应干扰,且无法处理数据不平衡问题。为此,团队开发了首个基于联邦学习(Federated Learning)和加法秘密共享(Additive Secret Sharing)的隐私保护工具FedProt,旨在实现分布式数据的精准分析,同时避免原始数据共享。
研究流程与方法
1. 工具设计与算法框架
FedProt基于DEqMS(差异蛋白质丰度分析的金标准)的数学等效模型,结合联邦学习与安全多方计算(SMPC)。其核心流程包括:
- 数据准备:各中心本地预处理质谱数据,生成蛋白质强度矩阵、设计矩阵和肽段计数矩阵。
- 隐私保护聚合:通过加法秘密共享技术,客户端将数据分割为噪声掩码,经中继服务器加密传输,确保无法被单一节点还原。协调器(Coordinator)聚合全局参数后返回更新模型(图1)。
- 联邦线性回归:采用Karr等提出的分布式最小二乘法,计算系数β̂和残差,通过设计矩阵掩码(Design Matrix Mask)处理缺失值。
数据集构建与验证
分析方法对比
以中心化DEqMS结果为基准,对比FedProt与4种元分析方法。FedProt通过以下步骤确保结果一致性:
主要结果
1. 准确性验证
- FedProt与中心化DEqMS的差异可忽略(最大绝对差≤4×10⁻¹²),而元分析的-log₁₀p值偏差高达25–26(表2)。
- 在数据不平衡场景下,FedProt仍保持零假阳性/假阴性,Jaccard相似系数恒为1,而元分析错误率随不平衡程度加剧显著上升(表3)。
批次效应处理
即使各中心使用不同液相色谱-质谱(LC-MS)配置,FedProt通过设计矩阵整合批次变量,结果与中心化分析完全一致(补充图10)。
临床应用潜力
在FSGS血清数据分析中,FedProt成功识别出与疾病相关的差异蛋白质(如补体通路成分),且无需共享原始数据。
结论与价值
FedProt首次实现了多中心蛋白质组学数据的隐私保护与精准分析的统一,其科学价值体现在:
1. 方法学创新:联邦学习与密码学技术的结合为生物医学数据协作树立新范式。
2. 临床转化:解决患者数据隐私合规性问题,促进大规模队列研究。
3. 开源工具:通过FeatureCloud平台(https://featurecloud.ai/app/fedprot)提供用户友好界面,支持自定义安全网络部署。
研究亮点
- 隐私与精度兼得:通过加法秘密共享实现数学等效于中心化分析,突破传统元分析的统计局限性。
- 鲁棒性验证:在模拟和真实数据中均证实对数据不平衡、批次效应的耐受性。
- 跨平台兼容性:支持DIA-LFQ和DDA-TMT两种主流质谱技术,未来可扩展至磷酸化蛋白质组等多组学领域。
局限性
当前版本仅支持LFQ和TMT数据,且依赖参与方统一预处理协议。未来计划整合更多数据类型(如代谢组学)并优化算法效率。
附加价值
研究创建的两个基准数据集(PRIDE编号:PXD053812、PXD053560)为后续隐私保护研究提供资源。代码与示例数据已在GitHub开源(https://github.com/freddsle/fedprot)。
(注:专业术语如“Federated Learning”首次出现时标注英文,后续使用中文“联邦学习”;“Additive Secret Sharing”译为“加法秘密共享”并保留英文缩写SMPC。)