本文是一篇发表于*Nature Reviews Genetics*的综述文章,由来自葡萄牙古尔本基安分子医学研究所和里斯本大学医学院的Rui Sousa-Luís与Maria Carmo-Fonseca合作撰写。文章题为“Tools and tactics for studying alternative splicing”,旨在全面回顾研究可变剪接(Alternative Splicing, AS)的技术与策略,并展望该领域的未来发展方向。文章系统性地梳理了从早期技术到最新突破的研究方法,涵盖了从转录本鉴定、功能验证到遗传调控和计算预测的完整研究链条。
文章的主要观点与论述
1. 可变剪接的普遍性与重要性 文章开篇即强调了可变剪接在细胞稳态中的核心作用及其与疾病的广泛关联。可变剪接通过多种机制(如外显子跳跃、可变剪接位点使用、内含子保留、可变转录起始位点和可变多聚腺苷酸化)极大地增加了转录组和蛋白质组的多样性。人类基因组中约20,000个蛋白质编码基因通过可变剪接产生了远超预期的蛋白质复杂性。这种多样性在进化、发育和疾病(从罕见遗传病到癌症)中至关重要。文章指出,对可变剪接调控的全面理解,以及由此衍生的诊断和治疗策略,首先依赖于对剪接异构体(isoform)的完整注释和功能解析,而这长期受限于技术瓶颈。
2. 迈向完整的mRNA异构体图谱:测序技术的演进 文章详细回顾了绘制可变剪接图谱的技术发展史,将其划分为几个关键阶段: * 早期技术(1990s-2000s初):如逆转录PCR(RT-PCR)、表达序列标签(Expressed Sequence Tags, ESTs)和微阵列技术。这些方法虽然提供了初步见解,但存在通量低、覆盖不全、无法发现新异构体等局限。 * 短读长RNA测序(RNA-seq)革命:以Illumina平台为代表的高通量RNA-seq技术提供了核苷酸级分辨率和全基因组覆盖,揭示了高达92-95%的人类多外显子基因存在可变剪接。然而,短读长(通常<300 bp)限制了其重构全长转录本和解析复杂剪接模式的能力。文章介绍了用于分析短读长数据的生物信息学工具,如STAR、HISAT2等比对工具,以及基于异构体和基于计数的差异剪接分析方法,并指出不同工具的结果存在差异,强调了正交验证的重要性。 * 长读长测序技术的崛起:PacBio的单分子实时测序(SMRT)和Oxford Nanopore Technologies(ONT)的纳米孔测序技术实现了对全长转录本的单分子直接测序,平均读长可达10-20 kb,能直接揭示外显子的连接关系,是研究复杂剪接模式的关键突破。文章对比了两种平台(如PacBio HiFi的高准确度和ONT直接RNA测序可保留RNA修饰的优势)及其在发现新转录本、构建组织特异性图谱方面的应用。同时,也指出了长读长数据分析和准确注释低丰度异构体所面临的挑战。 * 单细胞与空间分辨率下的剪接研究: * 单细胞RNA测序(scRNA-seq):揭示了细胞类型特异性的剪接程序。文章区分了基于液滴的3‘/5’端测序(如10x Genomics)和基于平板的全长scRNA-seq协议(如Smart-seq2/3, VASA-seq),后者更适合剪接分析但通量较低。新兴的单细胞长读长测序方法(如scISOr-Seq2, Ouro-Seq)正在努力克服数据稀疏性问题。 * 空间转录组学:解决了单细胞技术丢失空间信息的局限。成像方法(如MERFISH)和基于测序的条形码方法(如Slide-seq, Stereo-seq)能够将剪接异构体的表达映射到组织切片中的特定坐标。最新的进展(如spl-iso-seq, LongCell)开始将长读长测序与空间条形码结合,实现空间分辨的全长异构体分析。
3. 剪接异构体的功能相关性 在鉴定出大量剪接异构体后,如何区分功能性异构体与无意义的剪接“噪音”是核心挑战。文章从两个层面探讨了功能验证: * 蛋白质编码潜力:可变剪接可产生具有不同酶活性、亚细胞定位或蛋白互作界面的蛋白质异构体。然而,由于质谱技术的灵敏度和覆盖度限制,许多RNA水平鉴定的异构体在蛋白质水平难以检测。文章提到,使用多种蛋白酶消化和先进的质谱技术,以及核糖体图谱分析和纳米孔直接蛋白测序等新兴技术,正在帮助弥合转录组与蛋白质组之间的差距。 * 剪接对蛋白质功能的调控:可变剪接不仅改变蛋白质序列,还能通过引入提前终止密码子(触发无义介导的mRNA降解,NMD)、改变非翻译区(UTR)结构(影响mRNA稳定性、定位和翻译效率)等方式,在转录后水平精细调控基因表达。文章举例说明了“毒害外显子”(poison exon)和3‘ UTR可变剪接在基因表达调控中的作用。 * 操纵剪接以进行功能分析:为了验证特定异构体的功能,文章回顾了多种干预工具: * 反义寡核苷酸(ASOs):通过阻断剪接位点或沉默子来调控外显子包含/跳跃,但效果短暂且设计复杂。 * CRISPR-Cas系统: * CRISPR-Cas9基因组编辑:通过破坏剪接位点或顺式调控元件来永久改变剪接模式,已用于高通量筛选影响细胞适应性的外显子。 * 碱基编辑器:在不引起DNA双链断裂的情况下精确突变剪接位点或调控基序,实现可预测的剪接改变。 * CRISPR-Cas13系统:直接靶向RNA,可实现异构体特异性的敲低(通过催化活性形式)或剪接调控(通过催化失活形式dCas13,如SpliceRUSH平台),为大规模功能筛选提供了灵活工具。
4. 剪接的遗传控制 文章阐述了遗传变异如何塑造个体间的剪接差异,并影响疾病风险。 * 剪接数量性状位点(sQTL)分析:通过将群体规模的基因组数据与剪接定量数据(如PSI值)关联,识别影响剪接的遗传变异。研究表明,大量与复杂性状和疾病相关的变异通过影响剪接而非基因表达水平来发挥作用。长读长测序通过提供更完整的异构体注释和直接的单倍型定相,正在提升sQTL分析的精度。 * 等位基因特异性表达(ASE)分析:利用个体内杂合的单核苷酸多态性(SNP),直接比较同一细胞内两个等位基因的剪接差异,是识别顺式作用元件的有力方法。 * 大规模平行报告基因检测(MPRA):通过构建包含数千个序列变体的质粒文库,在细胞中平行测试它们对剪接的影响,可用于系统评估疾病相关突变或随机序列对剪接的影响,并用于验证计算预测模型。
5. 解码剪接的语言:从计算模型到预测 文章回顾了从基于序列特征的早期模型到现代深度学习模型预测剪接调控的历程。 * 早期模型与“剪接密码”:早期模型基于剪接位点保守基序、外显子/内含子剪接增强子/沉默子等特征,但无法全面解释细胞类型和状态依赖性的复杂调控。 * 深度学习模型:随着大规模RNA-seq数据集的出现,深度学习模型能够直接从数据中学习相关特征。 * SpliceAI:使用卷积神经网络预测剪接位点。 * Pangolin:预测跨组织的剪接位点使用情况。 * DeltaSplice, Borzoi:多模态模型。 * DNABERT, SpliceBERT:基于Transformer架构的模型。 文章指出,尽管这些模型在预测准确性上取得了进展,但在全面预测不同细胞类型和条件下基因产生的全部异构体及其丰度方面仍有局限。未来的“基础模型”(如AlphaGenome)有望整合多组学数据,实现更通用和可解释的预测。
6. 预测和验证致病性剪接变异 文章强调了剪接失调在人类疾病中的广泛作用,从单基因遗传病到癌症。在计算预测致病性剪接变异的基础上,实验验证至关重要。除了传统的迷你基因报告系统,文章介绍了更接近生理环境的新策略: * ExSISERS:利用蛋白质内含子剪接技术,在患者来源的诱导多能干细胞(iPSC)中定量内源性蛋白质异构体。 * CRISPR基因组编辑与iPSC定向分化:将特定变异引入内源性基因座,并在疾病相关细胞类型(如心肌细胞、光感受器细胞)中研究其影响,为理解组织特异性剪接失调提供了生理相关模型。
7. 剩余的挑战与未来展望 文章最后总结了领域面临的挑战和未来方向: * 解析异构体动态:需要更高精度和通量的长读长测序、能联合建模转录起始、剪接和3‘端形成的计算框架,以及具有异构体分辨率的高空间分辨率技术。 * 剪接预测的未来:目标是开发能够准确预测任何给定细胞类型和信号状态下完整异构体谱及其相对丰度的模型,并理解其功能影响。 * 迈向可解释的剪接调控模型:需要将大规模扰动筛选(如CRISPR筛选)、RNA-蛋白质相互作用图谱、RNA结构分析和高阶核组织信息整合起来,以构建机制性理解框架。 * 从剪接改变到疾病机制:利用异构体分辨的基因组和转录组学研究,结合高通量报告系统、基因组编辑和iPSC疾病模型,来建立遗传变异与疾病表型之间的因果关系。 * 稀有异构体是否重要?:需要开发新的实验和计算方法来区分功能性稀有异构体与普遍的剪接“噪音”。
文章的意义与价值
这篇综述文章系统性地梳理了可变剪接研究领域的技术发展脉络,从基础工具到前沿方法,从异构体发现到功能验证和遗传解析,为读者提供了一份详尽的“工具与战术”指南。其价值在于: 1. 综合性:它不仅回顾了历史,更重点介绍了长读长测序、单细胞与空间转录组学、CRISPR工具、深度学习模型等最新进展,展现了该领域从描述性注释向预测性和机制性理解转变的动态趋势。 2. 指导性:文章详细比较了不同技术的优势与局限(如表2),并列举了相关的生物信息学工具(补充表格),为研究者根据具体科学问题选择合适的技术路线提供了宝贵参考。 3. 前瞻性:文章明确指出了当前领域存在的挑战(如低丰度异构体注释、空间异构体解析、计算模型的可解释性等),并展望了未来可能的发展方向,包括基础模型的构建、多组学整合以及从机制到疗法的转化。 4. 桥梁作用:它将技术进展与生物学问题(如功能验证、遗传控制、疾病机制)紧密结合起来,强调了技术进步如何推动对可变剪接生物学意义的更深层次理解,并最终为基于剪接的精准诊断和治疗策略奠定基础。