这篇研究标题为《Disease Prediction with Multi-Omics and Biomarkers Empowers Case–Control Genetic Discoveries in the UK Biobank》,由Manik Garg、Marcin Karpinski、Dorota Matelska等学者共同完成,所属机构包括AstraZeneca、剑桥大学、斯坦福大学和墨尔本大学等。这篇论文发表在《Nature Genetics》期刊,卷号为56,期号为2024年9月,页码为1821至1831,文章的DOI为:https://doi.org/10.1038/s41588-024-01898-1。
研究所属领域为疾病基因预测与多组学(multi-omics)数据分析。近年来,由生物样本库(如UK Biobank)提供的大规模数据集为疾病预测和生物标志物发现提供了前所未有的机遇。然而,传统的疾病风险评估工具通常依赖于基础临床参数(如年龄、性别、家族史)及有限的生物标志物集合。这些工具难以全面捕捉复杂疾病的生物学过程。
为了克服这一局限性,作者研发了一种机器学习框架,名为Milton(Machine Learning with Phenotype Associations),结合临床生物标志物、多组学数据(包括蛋白质组学和基因组测序数据),预测疾病并提高基因-疾病关联分析的能力。本研究的目标是: 1. 通过Milton模型预测疾病发生风险,验证其准确性。 2. 探索生物标志物如何增强病例对照的遗传学发现。 3. 评估生物标志物、蛋白质组学和多组学数据对基因-疾病关联的增益作用。
研究分为多个阶段,以下为详细流程及实验方法:
研究数据来源为UK Biobank,招募了50万人,年龄介于40至69岁。数据库涵盖健康记录、基因组测序数据、常规血液测试数据、蛋白质组学数据(约46,327样本)、代谢组学和尿液数据等。研究主要关注3,213种疾病表型,并包含484,230个基因组测序样本。
作者基于Milton预测的增强病例队列(“augmented cohorts”)进行表型广泛关联研究(Phenome-Wide Association Study, PheWAS),以评估Milton对于稀有变异基因-疾病关联的改进作用。实验包括对比基础病例队列与增强病例队列,分析基因-表型关联的获得信号及统计显著性改进。同时,与独立的机器学习工具如Mantis-ML和Amelie进行交叉验证。
模型表现与预测能力:
时间模型比较:
生物标志物特征贡献:
蛋白质组学贡献:
增强病例分析与新信号发现:
跨平台验证:
群体差异与扩展性:
本研究通过Milton模型,将基于多组学和生物标志物的疾病预测能力推向新的高度。其主要贡献包括: 1. 科学价值:展示了如何通过整合多组学数据显著提升疾病预测和基因关联研究的敏感性和准确性。 2. 应用价值:为临床疾病风险评估及诊断工具带来了创新性方案,为预防性医学提供了可操作性策略。 3. 重要新观点:利用生物标志物预测尚未诊断的”隐匿性病例”,可能重新定义既定病例队列边界。
总结来看,研究不仅在理论上造福于遗传学和预测医学,也为未来大型生物样本库的建立提供了设计参考方案。这篇文章及其研究成果为疾病预测模型的未来发展奠定了坚实的科学基础。