分享自:

多组学和生物标志物预测疾病推进英国生物样本库的病例对照基因发现

期刊:Nature GeneticsDOI:10.1038/s41588-024-01898-1

Academic Report of the Document

研究作者及发表信息

这篇研究标题为《Disease Prediction with Multi-Omics and Biomarkers Empowers Case–Control Genetic Discoveries in the UK Biobank》,由Manik Garg、Marcin Karpinski、Dorota Matelska等学者共同完成,所属机构包括AstraZeneca、剑桥大学、斯坦福大学和墨尔本大学等。这篇论文发表在《Nature Genetics》期刊,卷号为56,期号为2024年9月,页码为1821至1831,文章的DOI为:https://doi.org/10.1038/s41588-024-01898-1。


研究背景与目标

研究所属领域为疾病基因预测与多组学(multi-omics)数据分析。近年来,由生物样本库(如UK Biobank)提供的大规模数据集为疾病预测和生物标志物发现提供了前所未有的机遇。然而,传统的疾病风险评估工具通常依赖于基础临床参数(如年龄、性别、家族史)及有限的生物标志物集合。这些工具难以全面捕捉复杂疾病的生物学过程。

为了克服这一局限性,作者研发了一种机器学习框架,名为Milton(Machine Learning with Phenotype Associations),结合临床生物标志物、多组学数据(包括蛋白质组学和基因组测序数据),预测疾病并提高基因-疾病关联分析的能力。本研究的目标是: 1. 通过Milton模型预测疾病发生风险,验证其准确性。 2. 探索生物标志物如何增强病例对照的遗传学发现。 3. 评估生物标志物、蛋白质组学和多组学数据对基因-疾病关联的增益作用。


研究详细流程

研究分为多个阶段,以下为详细流程及实验方法:

数据来源与对象

研究数据来源为UK Biobank,招募了50万人,年龄介于40至69岁。数据库涵盖健康记录、基因组测序数据、常规血液测试数据、蛋白质组学数据(约46,327样本)、代谢组学和尿液数据等。研究主要关注3,213种疾病表型,并包含484,230个基因组测序样本。

构建Milton模型
  1. 特征选择及建模数据:Milton通过67种定量生物特征(包括30种血液生化指标、20种血液计数指标、尿液分析、肺量测量等)以及年龄、性别等协变量构建模型。
  2. 时间模型定义:根据生物标志物采集时间与疾病诊断时间的间隔,将患者分为“预测性”(Prognostic)模型、“诊断性”(Diagnostic)模型及“时间无关”(Time-agnostic)模型。具体筛选逻辑为:
    • Prognostic模型:包含诊断时间晚于生物标志物采集时间最多10年的病例。
    • Diagnostic模型:包含诊断时间早于采集时间最多10年的病例。
    • Time-agnostic模型:不设时间限制,包含所有已诊断病例。
  3. 分析流程:数据分析采用五折交叉验证(Fivefold Cross-Validation)进行模型训练,利用XGBoost算法进行超参数调节,并在不同时间模型及族群中训练Milton模型以确保领域广泛性。
扩展基因关联分析

作者基于Milton预测的增强病例队列(“augmented cohorts”)进行表型广泛关联研究(Phenome-Wide Association Study, PheWAS),以评估Milton对于稀有变异基因-疾病关联的改进作用。实验包括对比基础病例队列与增强病例队列,分析基因-表型关联的获得信号及统计显著性改进。同时,与独立的机器学习工具如Mantis-ML和Amelie进行交叉验证。


研究主要结果

  1. 模型表现与预测能力

    • Milton在3,213种表型中,针对1,091种表型获得AUC值≥0.7,针对384种表型达到AUC≥0.8,针对121种表型达到AUC≥0.9。
    • 相较于多基因风险评分(Polygenic Risk Scores, PRS),Milton展示了显著更高的疾病预测能力(111种疾病中模型AUC值有显著提升)。
  2. 时间模型比较

    • Diagnostic模型预测性能普遍高于Prognostic模型,尤其是参与病例数较多时表现更为强劲(AUC中位数:诊断型0.668对比预测型0.647)。
  3. 生物标志物特征贡献

    • 实验证明,Milton能够识别许多临床标志性生物物质作为重要预测特征。例如,糖化血红蛋白(HbA1c)和葡萄糖对1型糖尿病的特异性贡献显著;胱抑素C(Cystatin C)和小分子白蛋白预测慢性肾衰竭关联性高。
  4. 蛋白质组学贡献

    • 作者发现,将蛋白组数据引入模型后,显著提升了52种表型的预测效果。例如,在多发性骨髓瘤(Multiple Myeloma, C90)中,AUC从0.63增加至0.85。
  5. 增强病例分析与新信号发现

    • 基于Milton扩展队列,作者发现182种潜在新基因-疾病相关信号(Putative Novel Signals),这些信号未在常规病例队列的基因关联分析中达到基因组范围显著标准。
  6. 跨平台验证

    • 在独立的芬兰Finngen生物样本库中验证了Milton的部分发现,超过54.76%的潜在新信号在Finngen的基因组关联数据中获得支持。
  7. 群体差异与扩展性

    • Milton模型在南亚及非洲人群中的性能有所提升,尤其在样本数增长时AUC、敏感性以及特异性均呈显著提升趋势。

结论与意义

本研究通过Milton模型,将基于多组学和生物标志物的疾病预测能力推向新的高度。其主要贡献包括: 1. 科学价值:展示了如何通过整合多组学数据显著提升疾病预测和基因关联研究的敏感性和准确性。 2. 应用价值:为临床疾病风险评估及诊断工具带来了创新性方案,为预防性医学提供了可操作性策略。 3. 重要新观点:利用生物标志物预测尚未诊断的”隐匿性病例”,可能重新定义既定病例队列边界。


研究亮点

  1. 新方法的开发:Milton模型将机器学习方法与全新的时间模型相结合,适应不同疾病进程特点。
  2. 数据来源广泛:充分利用了UK Biobank的大规模纵向健康记录、基因测序及蛋白质组学数据。
  3. 多组学整合能力:系统验证了蛋白质组学与其他生物标志物的协同作用,为疾病预测提供更多维度的支持。

总结来看,研究不仅在理论上造福于遗传学和预测医学,也为未来大型生物样本库的建立提供了设计参考方案。这篇文章及其研究成果为疾病预测模型的未来发展奠定了坚实的科学基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com