分享自:

基于FedProt的多中心隐私保护差异蛋白质丰度分析

期刊:nature computational scienceDOI:10.1038/s43588-025-00832-7

联邦学习与隐私保护技术在蛋白质组学中的突破:FedProt工具的多中心差异蛋白质丰度分析研究

作者及发表信息
本研究由Yuliya Burankova(慕尼黑工业大学及丹麦南方大学)、Miriam Abele(慕尼黑工业大学)等来自21个机构的跨国团队合作完成,发表于2025年8月的《Nature Computational Science》(卷5,页675–688),DOI:10.1038/s43588-025-00832-7。

学术背景
质谱技术(Mass Spectrometry, MS)的革命性进展使得蛋白质组学能够同时定量数千种蛋白质,但多中心数据整合面临隐私泄露风险。现有元分析(meta-analysis)方法如Fisher法、Stouffer法、随机效应模型(REM)和RankProd存在统计假设局限性和批次效应干扰,且无法处理数据不平衡问题。为此,团队开发了首个基于联邦学习(Federated Learning)和加法秘密共享(Additive Secret Sharing)的隐私保护工具FedProt,旨在实现分布式数据的精准分析,同时避免原始数据共享。

研究流程与方法
1. 工具设计与算法框架
FedProt基于DEqMS(差异蛋白质丰度分析的金标准)的数学等效模型,结合联邦学习与安全多方计算(SMPC)。其核心流程包括:
- 数据准备:各中心本地预处理质谱数据,生成蛋白质强度矩阵、设计矩阵和肽段计数矩阵。
- 隐私保护聚合:通过加法秘密共享技术,客户端将数据分割为噪声掩码,经中继服务器加密传输,确保无法被单一节点还原。协调器(Coordinator)聚合全局参数后返回更新模型(图1)。
- 联邦线性回归:采用Karr等提出的分布式最小二乘法,计算系数β̂和残差,通过设计矩阵掩码(Design Matrix Mask)处理缺失值。

  1. 数据集构建与验证

    • 实验数据集
      • 大肠杆菌数据集:118个样本(5个中心,2种培养条件),采用数据非依赖采集(DIA)和标记自由定量(LFQ)。
      • 人血清数据集:60例局灶节段性肾小球硬化(FSGS)患者与对照,采用串联质谱标签(TMT)标记。
    • 模拟数据集:生成6,000蛋白质、600样本的平衡/非平衡数据,引入批次效应和混杂因子,测试工具鲁棒性。
  2. 分析方法对比
    以中心化DEqMS结果为基准,对比FedProt与4种元分析方法。FedProt通过以下步骤确保结果一致性:

    • 方差估计:基于经验贝叶斯(Empirical Bayes)调整后验方差。
    • 差异分析:计算 moderated t-statistic 和 Benjamini-Hochberg(BH)校正p值。

主要结果
1. 准确性验证
- FedProt与中心化DEqMS的差异可忽略(最大绝对差≤4×10⁻¹²),而元分析的-log₁₀p值偏差高达25–26(表2)。
- 在数据不平衡场景下,FedProt仍保持零假阳性/假阴性,Jaccard相似系数恒为1,而元分析错误率随不平衡程度加剧显著上升(表3)。

  1. 批次效应处理
    即使各中心使用不同液相色谱-质谱(LC-MS)配置,FedProt通过设计矩阵整合批次变量,结果与中心化分析完全一致(补充图10)。

  2. 临床应用潜力
    在FSGS血清数据分析中,FedProt成功识别出与疾病相关的差异蛋白质(如补体通路成分),且无需共享原始数据。

结论与价值
FedProt首次实现了多中心蛋白质组学数据的隐私保护与精准分析的统一,其科学价值体现在:
1. 方法学创新:联邦学习与密码学技术的结合为生物医学数据协作树立新范式。
2. 临床转化:解决患者数据隐私合规性问题,促进大规模队列研究。
3. 开源工具:通过FeatureCloud平台(https://featurecloud.ai/app/fedprot)提供用户友好界面,支持自定义安全网络部署。

研究亮点
- 隐私与精度兼得:通过加法秘密共享实现数学等效于中心化分析,突破传统元分析的统计局限性。
- 鲁棒性验证:在模拟和真实数据中均证实对数据不平衡、批次效应的耐受性。
- 跨平台兼容性:支持DIA-LFQ和DDA-TMT两种主流质谱技术,未来可扩展至磷酸化蛋白质组等多组学领域。

局限性
当前版本仅支持LFQ和TMT数据,且依赖参与方统一预处理协议。未来计划整合更多数据类型(如代谢组学)并优化算法效率。

附加价值
研究创建的两个基准数据集(PRIDE编号:PXD053812、PXD053560)为后续隐私保护研究提供资源。代码与示例数据已在GitHub开源(https://github.com/freddsle/fedprot)。

(注:专业术语如“Federated Learning”首次出现时标注英文,后续使用中文“联邦学习”;“Additive Secret Sharing”译为“加法秘密共享”并保留英文缩写SMPC。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com