本文是由Tong Ni、Yu Sun、Zefeng Li、Tao Tan、Wei Han、Miao Li、Li Zhu、Jing Xiao、Huiying Wang、Wenpei Zhang、Yitian Ma、Biao Wang、Di Wen、Teng Chen、Justin Tubbs、Xiaofeng Zeng、Jiangwei Yan、Hongsheng Gui、Pak Sham和Fanglin Guan等作者共同完成的研究论文,发表于2024年的《Advanced Science》期刊上。该研究旨在通过整合转录组分析,揭示精神分裂症(Schizophrenia, SCZ)的新型分子特征,并开发基于疾病响应必需基因(Disease-Responsive Essential Genes, DREGs)的机器学习模型,以提升SCZ的分子表征能力。
精神分裂症是一种复杂的精神疾病,全球约0.3%的人口受其影响,表现为精神病性症状、认知缺陷和功能损害。尽管全基因组关联研究(GWAS)已识别出许多与SCZ相关的遗传风险因素,但这些遗传因素在临床风险预测中的应用仍面临挑战。转录组分析作为一种补充手段,能够揭示SCZ的分子机制,特别是通过分析疾病驱动的基因表达模式,识别关键基因和通路。近年来,人工智能技术(如机器学习)在生物医学研究中的应用为识别疾病相关特征提供了新的途径。然而,现有研究多局限于单一组织(如外周血或前额叶皮层)的转录组数据,缺乏整合多组织数据的综合分析。因此,本研究旨在通过整合前额叶皮层和外周血的转录组数据,结合机器学习方法,识别稳定的疾病响应特征,并开发高精度的SCZ表征模型。
研究流程主要包括以下几个步骤: 1. 数据收集与预处理:研究使用了来自Psychencode的536名SCZ患者和832名对照者的RNA测序数据,以及144名受试者(59名SCZ患者、6名非SCZ精神病患者和79名对照者)的外周血转录组数据。数据预处理包括质量控制、低质量读段过滤和比对到人类参考基因组。 2. 差异表达基因分析:使用DESeq2、edgeR和limma三种算法对四个训练数据集进行差异表达基因(DEGs)分析,并通过支持向量机(SVM)递归特征消除(RFE)方法识别出184个DREGs。 3. 生物功能分析:通过蛋白质-蛋白质相互作用(PPI)网络分析、通路富集分析和多基因风险评分(PRS)等方法,评估DREGs的生物学相关性。此外,研究还分析了DREGs在不同脑组织和SCZ动物模型中的表达模式。 4. 机器学习模型开发与验证:基于DREGs开发了SCZ表征的机器学习模型,并通过内部和外部数据集验证其性能。最终选择了基于SVM的DREGs模型(DRES模型),其在SCZ表征中的AUC(曲线下面积)达到85%,特异性为79%。
本研究通过整合转录组数据、基因组数据和实验验证,识别出184个与SCZ密切相关的DREGs,并开发了高精度的SCZ表征模型。这些发现为理解SCZ的分子机制提供了新的见解,并为未来的精准精神病学提供了潜在的生物标志物和治疗靶点。研究结果表明,DREGs在SCZ的病理机制中扮演了重要角色,特别是在突触功能、免疫调节和神经发育等方面。此外,基于DREGs的机器学习模型在SCZ的临床诊断和分类中表现出良好的应用前景。
未来的研究将进一步验证这些DREGs的功能,探索其在SCZ病理机制中的具体作用,并通过更大样本量和多样化的群体研究,提升模型的泛化能力和临床应用价值。