利用联邦学习检测心音异常的一项多机构合作研究

2024-05-25 Sat
利用联邦学习检测心音异常的一项多机构合作研究
学术背景心血管疾病（Cardiovascular diseases, CVDs）已经成为主要的死亡原因之一，特别在老年人口中，心血管健康问题亟待社会关注。早期筛查、诊断和预后管理对于预防住院具有重要意义。心音信号携带丰富的生理和病理信息，通过心音进行CVDs早期诊断具有容易获取、广泛存在和非侵入性等优势。近年来，人工智能（AI）在心音辅助诊断中的应用引起了广泛关注，自动心音听诊技术有助于快速、有效地评估心脏状态。然而，现有研究在应用过程中忽略了数据安全和隐私问题，尤其是在多机构数据合作时。
研究来源本文由Wanyong Qiu, Chen Quan等人撰写，作者分别来自北京理工大学、日本东京大学教育生理学实验室、英国帝国理工学院等知名学术机构。论文于2023年发表于IEEE Transactions on Biomedical Engineering。
研究目的与方法背景问题现有的AI模型通常需要大量的训练数据，这可能引发隐私问题。而且，由于医疗机构之间的数据不可以随意交换，导致数据孤岛问题，这使得多中心医疗数据难以协同训练AI模型，从而限制了医疗AI模型的发展。
研究方法为了解决上述问题，本文提出了一种基于联邦学习（Federated Learning, FL）的优化策略，旨在在不泄露信息的情况下，利用多中心的心音数据库进行模型训练。研究主要应用了水平联邦学习（Horizontal Federated Learning, HFL）和垂直联邦学习（Vertical Federated Learning, VFL），前者主要解决隐私问题，后者解决模型可解释性和数据稀缺性问题。
具体来说，本文在以下几个方面进行了创新：
HFL模型设置： 利用HFL来处理多机构心音数据，对不同医疗机构参与者进行特征空间对齐和ID安全聚合。
VFL模型设置： 联合多机构的数据特征空间，共同训练和评估VFL模型，解决数据标签缺失的问题。
模型可解释性： 利用Shapley值对VFL模型进行解释，平衡模型的可解释性和数据隐私。
研究流程数据描述与预处理从多家医疗机构的心音数据库中获取数据，如MIT心音数据库、Aalborg大学心音数据库等，数据分别标记为正常和异常样本。数据预处理包括信号处理、特征提取及数据平衡策略。
HFL模型使用XGBoost作为基础模型，建立水平联邦学习框架。通过特征ID安全聚合方法对齐特征空间，具体步骤包括：
联邦服务器生成对称密钥并分发给参与机构。
各参与机构使用公钥加密其特征ID集合，并发送给服务器。
联邦服务器使用私钥将加密结果进行转换，并与参与机构共享聚合结果。
各参与机构本地训练模型，并将增量模型更新发送至服务器。
VFL模型在特征空间不同但样本空间相同的情境下，VFL模型通过多方合作实现全球模型构建。具体步骤包括：
将数据分为客体方和宿主方，确保样本空间一致但特征空间不同。
各方在保护隐私的基础上进行特征工程和模型训练。
依据隐私保护协议，各方共同进行模型评估和推理。
主要结果与总结HFL模型结果在非独立同分布（non-iid）和样本量不平衡条件下，HFL模型在测试集上的表现优异。通过50次重复实验得出的最佳模型参数为30棵树，高度为3。敏感性达62.1%，特异性达72.8%，均高于传统的XGBoost模型。
VFL模型结果VFL模型在样本量充足的数据库中表现良好，如Aalborg大学和大连理工大学的数据库，其性能接近传统的集中式数据学习模型。然而，由于数据库df的数据分布差异显著，VFL模型结果低于预期。最大均值差距（MMD）值显示，数据库df和其他数据库之间存在显著分布差异。
模型可解释性通过Shapley值解释VFL模型无损数据隐私。在多中心心音数据库中，联邦特征增加了全球模型特征对模型输出的影响分布。特征值分箱法用以保护宿主方数据隐私，均为VFL模型提供解释性和公平性评估数据贡献的能力。
研究意义本文首次实现在真实医疗场景中应用联邦学习，对心音模型进行优化，使其在保护患者隐私的前提下，达成良好分类效果。研究结果表明，联邦学习在心音异常检测中性能优异，有望促进联邦智慧医疗系统的广泛应用，特别是在数据隐私保护要求高的场景中。
研究亮点多机构合作模型训练： 在保护数据隐私的基础上，实现在多中心医疗数据库中的联邦学习。
模型可解释性： 通过Shapley值方法，对VFL模型进行解释，兼顾模型可解释性和数据隐私。
实际应用价值： 提供了联邦学习在心音分类中的实践指南，对智慧医疗系统的发展具有重要价值。
未来研究方向数据标准化： 建立标准化的心音数据库，以解决数据异构和隐私噪声对模型性能的影响。
联邦学习激励机制设计： 基于Shapley值衡量特征贡献，设计合理的激励机制鼓励更多参与者加入联邦学习。
加密与通信成本： 进一步探索差分隐私等新型加密方案，降低联邦学习的通信成本，提高模型的适用性。