关于人类小胶质细胞中阿尔茨海默病遗传变异调控图谱的研究报告
一、 研究团队与发表信息
本研究的主要作者包括 Chia-Yi Lee、Ashvin Ravi、Tzu-Chieh Huang、Briana Wyman、Ziyu Liu、Ariana Chriss、Jack Humphrey、David A. Knowles、Chris Cotsapas、Laura M. Huckins、Towfique Raj 和 Kristen J. Brennand。他们分别来自耶鲁大学医学院遗传学系、西奈山伊坎医学院遗传学与基因组学系、耶鲁大学医学院精神病学系分子精神病学分部、纽约基因组中心、哥伦比亚大学以及西奈山伊坎医学院弗里德曼脑研究所等机构。
该研究以预印本形式于2025年12月20日发布在 medRxiv 平台,预印本标识符为 DOI: 10.1101⁄2025.10.13.25337902。需要指出的是,这是一份未经同行评议的预印本报告,其发现不应直接用于指导临床实践。
二、 学术背景与研究目的
本研究属于人类复杂疾病遗传学与功能基因组学的交叉领域,具体聚焦于阿尔茨海默病(Alzheimer’s disease, AD)的遗传风险机制。全基因组关联研究(Genome-Wide Association Study, GWAS)已鉴定出大量与AD风险相关的遗传位点,但其中超过90%位于基因组的非编码区域。这些变异被认为通过调控基因表达来影响疾病风险,然而,超过一半的AD GWAS位点与已知的调控变异(如表达数量性状位点, Expression Quantitative Trait Loci, eQTL)并不重合。尽管已知AD GWAS位点富集于小胶质细胞特异性的调控区域,但具体的致病变异及其分子机制仍不清楚。小胶质细胞作为大脑中的主要免疫细胞,在AD病理中起着核心作用,但其具有高度异质性和动态性,且在大脑中丰度较低,使得从大量供体中获取并进行定量性状位点(Quantitative Trait Locus, QTL)分析面临挑战,统计遗传学方法难以全面解析其调控机制。
因此,本研究旨在建立一个实验框架,以连接AD风险变异与小胶质细胞功能。具体目标包括:1)系统评估AD GWAS变异、小胶质细胞eQTL和染色质可及性QTL(Chromatin Accessibility QTL, caQTL)在人类小胶质细胞中的调控活性;2)比较不同变异优先排序策略(GWAS vs. QTL)在预测调控活性方面的有效性;3)评估不同小胶质细胞模型(永生化HMC3细胞与人诱导多能干细胞来源的小胶质样细胞, iMGL)在解析调控活性上的差异;4)在变异、基因和网络层面解读功能变异的结果,从而阐明AD遗传风险背后的细胞类型特异性调控机制。
三、 详细研究流程
本研究采用了一种整合统计遗传学与高通量实验验证的系统性方法,工作流程主要包含以下几个关键步骤:
1. 功能变异的优先排序与文库构建: 研究者首先通过统计精细定位(Fine-mapping)对最新的AD GWAS数据(Bellenguez et al., 2022; Schwartzentruber et al., 2021)进行分析,使用了包括SuSiE、FINEMAP、PolyFun+SuSiE和PolyFun+FINEMAP在内的多种贝叶斯及功能信息指导的方法,并评估了不同连锁不平衡(Linkage Disequilibrium, LD)参考面板的影响。最终,从75个AD风险位点中,确定了53个至少包含一个精细定位变异(后验包含概率 Posterior Inclusion Probability, PIP > 0.1)的位点,构成了95%可信集(Credible Set)。 接下来,研究者整合了多源数据来构建用于大规模并行报告基因检测(Massively Parallel Reporter Assay, MPRA)的候选变异集合:a) 所有精细定位的AD GWAS变异(PIP > 0.01),共2,183个;b) 来自391名供体的人类小胶质细胞eQTL荟萃分析中的先导eQTL变异及其强LD(r² > 0.8)代理变异,共5,721个,并进一步过滤仅保留与显著的小胶质细胞ATAC-seq峰或小胶质细胞活性-接触(Activity-by-Contact, ABC)模型增强子-基因连接重叠的变异;c) 来自小胶质细胞caQTL研究(Kosoy et al., 2022)中高置信度精细定位(PIP > 0.5)的变异,共2,074个。通过整合,最终得到了一个包含11,550个推定的功能性调控变异的共识集。 为了测试每个变异两种等位基因的活性,研究者合成了23,100条候选调控序列(Candidate Regulatory Sequences, CRSs),每条序列与一个独特的条形码(Barcode)相连,平均每个CRS关联约119个条形码,以便通过高通量测序精确量化转录活性。此外,文库中还包含了844个作为对照的乱序序列和阳性/阴性对照序列。
2. MPRA实验与细胞模型: 将构建的MPRA慢病毒文库转导至两种人类小胶质细胞模型中:永生化人小胶质细胞系HMC3,以及由两个健康供体来源的人诱导多能干细胞(hiPSC)分化而来的成熟小胶质样细胞(iMGL,培养40天)。iMGL被认为更能模拟体内小胶质细胞的生理状态。实验设置了生物学重复(iMGL:来自两个供体,共7个重复;HMC3:3个重复),转导72小时后,从同一培养物中分别提取基因组DNA和总RNA。通过高通量测序,计算每个CRS对应的条形码的RNA丰度与DNA丰度的比值[log₂(RNA/DNA)],以此作为其转录活性的定量指标。表达调控变异(Expression-Modulating Variants, emVars)被定义为在两个等位基因间表现出显著特异性活性(错误发现率 False Discovery Rate, FDR < 0.05)的位点。
3. 数据分析与验证: * 转录组与染色质可及性分析: 对iMGL进行了RNA测序(RNA-seq)和ATAC-seq,以表征其转录组状态和染色质开放区域,并与HMC3及原代小胶质细胞数据进行比较。 * MPRA数据分析: 使用MPRanalyze软件包,采用负二项广义线性模型联合建模RNA和DNA计数,考虑文库大小和重复深度,并进行等位基因特异性活性的似然比检验。仅保留条形码数≥10且具有活性(log₂(RNA/DNA) > 0)的CRS进行后续分析。 * 功能注释与富集分析: 对emVars进行基因组注释(如启动子、增强子)、转录因子结合motif破坏分析(使用motifbreakR工具),并构建基因调控网络(使用GENIE3算法)。通过基因本体论(Gene Ontology, GO)富集分析,探究emVars预测靶基因的生物学功能。 * 变异-基因映射: 采用了三种方法将emVars映射到潜在靶基因:基于小胶质细胞ABC模型的增强子-基因连接、小胶质细胞eQTL数据以及最近的基因映射。 * 与疾病数据的整合: 将MPRA鉴定的emVars及其靶基因与死后AD脑组织小胶质细胞的单细胞转录组数据、差异表达基因等进行关联分析,以验证其疾病相关性。
四、 主要研究结果
1. 精细定位变异富集于小胶质细胞增强子: 对AD GWAS位点的精细定位成功缩小了候选致病变异的范围。高PIP的精细定位变异显著富集于小胶质细胞的增强子区域,同时也富集于其他免疫细胞类型。与先导GWAS变异相比,精细定位变异在小胶质细胞增强子中的富集程度更强,表明精细定位能更精确地将AD风险定位于小胶质细胞的功能调控元件。
2. iMGL比HMC3更能捕获AD相关的调控程序: 转录组分析显示,iMGL的基因表达谱更接近于原代小胶质细胞,而HMC3细胞则显示出更强的细胞周期相关通路和更弱的免疫/代谢通路。MPRA结果与此一致:在iMGL中鉴定出2,003个emVars,在HMC3中鉴定出1,181个,但两者重叠率很低,仅有21.5%的HMC3 emVars在iMGL中可重复。GO富集分析表明,iMGL的emVars靶基因显著富集于小胶质细胞功能的核心通路,如突触组织、细胞形状与粘附调节、钙信号传导等;而HMC3的富集通路则更偏向于通用的信号和代谢过程。这凸显了在生理相关性更高的细胞模型中评估变异功能的重要性,因此后续分析聚焦于iMGL。
3. iMGL emVars的特征: 高PIP(≥0.5)的精细定位GWAS变异比低PIP变异更可能表现出等位基因特异性转录调控活性。emVars显著富集于经典的调控元件,如启动子区域和iMGL的ATAC-seq峰内。大多数emVars的等位基因效应幅度适中(通常小于两倍变化)。约50%的CRS与预测的转录因子结合位点重叠。对emVars影响的转录因子进行富集分析,发现了与神经退行性疾病和神经发育相关的因子,如SPI1。通过共表达网络分析,构建了小胶质细胞基因调控网络,揭示了两个核心调控模块:免疫/炎症程序(涉及MAZ, NR2F6, BHLHE40)和DNA损伤/应激反应程序(涉及FOXO1, E2F6, ETS1, MBD2),后者已被认为与AD病理相关。
4. 不同优先排序策略揭示互补的生物学: 无论是基于GWAS、eQTL还是caQTL优先排序的变异,在预测CRS活性或产生emVars的比例上没有显著优劣之分。然而,当对emVars的预测靶基因进行功能富集时,发现了明显的策略特异性模式:GWAS精细定位的emVar靶基因显著富集于AD相关机制,如淀粉样蛋白生物学和免疫/炎症反应;caQTL来源的活性变异靶基因则富集于神经发育过程;而eQTL来源的活性变异靶基因没有显示出显著的功能富集。这支持了GWAS、eQTL和caQTL捕获了相关但不同的生物学过程这一观点。通过整合多种映射方法,研究者最终确定了50个高置信度的emVar相关AD基因。
5. 案例研究:TSPOAP1位点。 研究者以TSPOAP1这个新报道的AD风险位点为例,展示了MPRA在解析复杂调控信号方面的能力。统计精细定位指出了多个候选致病变异,其中rs2680700具有最高的PIP。共定位分析提示AD GWAS信号与小胶质细胞eQTL可能存在共享的因果信号,但证据不强。MPRA实验在该位点鉴定出了两个emVars(rs2526377和rs116939255),但它们均非PIP最高的变异。这表明该位点的GWAS关联和eQTL关联可能源于不同的调控机制,MPRA能够直接识别出具有功能活性的变异,克服了纯粹计算预测的局限性。
五、 研究结论与意义
本研究建立了一个可扩展的实验框架,首次系统性地在人类小胶质细胞中评估了AD相关变异及QTL变异的调控功能。主要结论如下: 1. 细胞模型至关重要: iMGL比广泛使用的HMC3细胞系能更有效地捕捉与小胶质细胞生理和AD病理相关的调控程序,强调了在最具生理相关性的细胞类型中进行功能检测的必要性。 2. 变异优先排序策略的互补性: GWAS、eQTL和caQTL优先排序的变异在预测MPRA活性方面效力相似,但它们在生物学功能上各有侧重。GWAS变异更直接地与疾病表型(如淀粉样蛋白通路)相关,而caQTL变异更关联于发育过程,eQTL则缺乏强烈的功能富集。这揭示了不同遗传学方法背后的潜在偏倚。 3. AD风险的调控复杂性: AD的遗传风险分散在广泛的调控环境中,涉及免疫/炎症和应激反应等多个核心通路。MPRA能够直接鉴定出功能性的调控变异,甚至在统计精细定位未能给出明确答案的位点(如TSPOAP1)发现潜在的致病变异。 4. 方法学价值: 本研究证明了整合统计精细定位、多组学QTL数据与高通量MPRA实验,能够有效澄清GWAS信号的模糊性,为在衰老相关神经退行性疾病中进行功能研究提供了框架。
六、 研究亮点
七、 其他有价值的内容
本研究还详细描述了所使用的数据分析方法、代码和数据可用性,确保了研究的可重复性。作者指出,MPRA技术本身存在局限性,例如它测试的是脱离原始染色质环境的短序列(约200 bp),可能无法捕捉长距离的调控相互作用,这或许部分解释了本研究中观察到的emVars富集于转录因子结合位点(短程调控)的现象。此外,研究者强调,鉴于小胶质细胞状态的动态性和异质性与AD病理相关,未来需要在更多动态的细胞状态下测试变异活性,以更全面地理解AD风险。