基于FedProt的多中心隐私保护差异蛋白质丰度分析

分享自：

基于FedProt的多中心隐私保护差异蛋白质丰度分析

公共卫生

医学

期刊:nature computational scienceDOI:10.1038/s43588-025-00832-7

【点击此处】阅读全文、收藏及针对性提问

联邦学习与隐私保护技术在蛋白质组学中的突破：FedProt工具的多中心差异蛋白质丰度分析研究
作者及发表信息
 本研究由Yuliya Burankova（慕尼黑工业大学及丹麦南方大学）、Miriam Abele（慕尼黑工业大学）等来自21个机构的跨国团队合作完成，发表于2025年8月的《Nature Computational Science》（卷5，页675–688），DOI:10.1038/s43588-025-00832-7。
学术背景
 质谱技术（Mass Spectrometry, MS）的革命性进展使得蛋白质组学能够同时定量数千种蛋白质，但多中心数据整合面临隐私泄露风险。现有元分析（meta-analysis）方法如Fisher法、Stouffer法、随机效应模型（REM）和RankProd存在统计假设局限性和批次效应干扰，且无法处理数据不平衡问题。为此，团队开发了首个基于联邦学习（Federated Learning）和加法秘密共享（Additive Secret Sharing）的隐私保护工具FedProt，旨在实现分布式数据的精准分析，同时避免原始数据共享。
研究流程与方法
 1. 工具设计与算法框架
 FedProt基于DEqMS（差异蛋白质丰度分析的金标准）的数学等效模型，结合联邦学习与安全多方计算（SMPC）。其核心流程包括：
 - 数据准备：各中心本地预处理质谱数据，生成蛋白质强度矩阵、设计矩阵和肽段计数矩阵。
 - 隐私保护聚合：通过加法秘密共享技术，客户端将数据分割为噪声掩码，经中继服务器加密传输，确保无法被单一节点还原。协调器（Coordinator）聚合全局参数后返回更新模型（图1）。
 - 联邦线性回归：采用Karr等提出的分布式最小二乘法，计算系数β̂和残差，通过设计矩阵掩码（Design Matrix Mask）处理缺失值。
数据集构建与验证
实验数据集：
 大肠杆菌数据集：118个样本（5个中心，2种培养条件），采用数据非依赖采集（DIA）和标记自由定量（LFQ）。
 
人血清数据集：60例局灶节段性肾小球硬化（FSGS）患者与对照，采用串联质谱标签（TMT）标记。
 
模拟数据集：生成6,000蛋白质、600样本的平衡/非平衡数据，引入批次效应和混杂因子，测试工具鲁棒性。
 
分析方法对比
 以中心化DEqMS结果为基准，对比FedProt与4种元分析方法。FedProt通过以下步骤确保结果一致性：
方差估计：基于经验贝叶斯（Empirical Bayes）调整后验方差。
 
差异分析：计算 moderated t-statistic 和 Benjamini-Hochberg（BH）校正p值。
 
主要结果
 1. 准确性验证
 - FedProt与中心化DEqMS的差异可忽略（最大绝对差≤4×10⁻¹²），而元分析的-log₁₀p值偏差高达25–26（表2）。
 - 在数据不平衡场景下，FedProt仍保持零假阳性/假阴性，Jaccard相似系数恒为1，而元分析错误率随不平衡程度加剧显著上升（表3）。
批次效应处理
 即使各中心使用不同液相色谱-质谱（LC-MS）配置，FedProt通过设计矩阵整合批次变量，结果与中心化分析完全一致（补充图10）。
临床应用潜力
 在FSGS血清数据分析中，FedProt成功识别出与疾病相关的差异蛋白质（如补体通路成分），且无需共享原始数据。
结论与价值
 FedProt首次实现了多中心蛋白质组学数据的隐私保护与精准分析的统一，其科学价值体现在：
 1. 方法学创新：联邦学习与密码学技术的结合为生物医学数据协作树立新范式。
 2. 临床转化：解决患者数据隐私合规性问题，促进大规模队列研究。
 3. 开源工具：通过FeatureCloud平台（https://featurecloud.ai/app/fedprot）提供用户友好界面，支持自定义安全网络部署。
研究亮点
 - 隐私与精度兼得：通过加法秘密共享实现数学等效于中心化分析，突破传统元分析的统计局限性。
 - 鲁棒性验证：在模拟和真实数据中均证实对数据不平衡、批次效应的耐受性。
 - 跨平台兼容性：支持DIA-LFQ和DDA-TMT两种主流质谱技术，未来可扩展至磷酸化蛋白质组等多组学领域。
局限性
 当前版本仅支持LFQ和TMT数据，且依赖参与方统一预处理协议。未来计划整合更多数据类型（如代谢组学）并优化算法效率。
附加价值
 研究创建的两个基准数据集（PRIDE编号：PXD053812、PXD053560）为后续隐私保护研究提供资源。代码与示例数据已在GitHub开源（https://github.com/freddsle/fedprot）。
（注：专业术语如“Federated Learning”首次出现时标注英文，后续使用中文“联邦学习”；“Additive Secret Sharing”译为“加法秘密共享”并保留英文缩写SMPC。）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问