《RNA Atlas研究:扩展人类非编码RNA目录及功能解析》
第一作者及机构
本研究由Lucia Lorenzi(比利时根特大学医学遗传学中心、根特癌症研究所)和Hua-Sheng Chiu(美国贝勒医学院德州儿童癌症中心)作为共同第一作者领衔,联合来自Illumina公司、VIB-UGent医学生物技术中心、澳大利亚电子健康研究中心等20余家国际机构的科研团队共同完成。研究成果于2021年11月发表于Nature Biotechnology期刊(Volume 39, Pages 1453–1465)。
研究领域与动机
本研究属于转录组学(Transcriptomics)与非编码RNA(ncRNA)功能研究交叉领域。尽管RNA测序技术已能解析人类转录组的核苷酸分辨率,但现有ncRNA目录仍存在两大局限:
1. 技术偏差:既往研究主要依赖小RNA(small RNA)和聚腺苷酸化RNA(polyA RNA)测序,导致非聚腺苷酸化(non-polyA)和环状RNA(circRNA)的系统性研究不足;
2. 功能空白:大量ncRNA的调控机制及其与蛋白质编码基因(PCGs)的互作网络尚未明确。
研究目标
团队旨在通过多技术整合测序,构建更全面的人类转录组图谱,并揭示ncRNA在基因调控中的功能。
1. 样本与测序策略
- 样本库:收集300例人类样本,包括45种组织、162种细胞类型和93种细胞系(含89种癌细胞系)。
- 多组学测序:对每例样本并行开展三类测序:
- 小RNA测序(298样本,中位数深度1300万读长);
- polyA RNA测序(295样本,6000万读长);
- 总RNA测序(296样本,1.25亿读长)。
- 技术优势:总RNA测序首次实现非polyA转录本和内含子覆盖度的系统性检测。
2. 转录组组装与注释
- 参考数据库:以Ensembl v86和GENCODE v33为基准,整合FANTOM5、CHESS等公共数据。
- 新转录本鉴定:通过StringTie组装新基因,利用CAGE测序和染色质状态(chromatin states)验证转录活性。
- 分类标准:将基因分为三类:
- 已注释基因(annotated,如99%的PCGs);
- 既往报道基因(prerep,如38%的lincRNAs);
- 本研究独有基因(RNA Atlas-only,如27%的lincRNAs)。
3. 功能证据挖掘
- circRNA鉴定:通过反向剪接位点(back-splice)识别38,023个候选circRNA,其中98%源自PCG宿主基因。
- miRNA预测:结合miRBase v22和miRDeep2,发现3,567个新型miRNA(73%未被其他数据库收录)。
- 单外显子lincRNA验证:通过链特异性测序和qPCR排除DNA污染假阳性,证实4,877个单外显子lincRNA的真实性。
4. 调控网络分析
- pre-mRNA/mRNA比值(m/p ratio):利用总RNA测序的内含子覆盖度,区分转录调控(TF作用)与转录后调控(miRNA作用)。
- 算法工具:开发Longhorn算法,预测lncRNA通过四种模式调控靶基因:
- 转录共因子(co-factor);
- 转录引导子(guide);
- TF诱饵(decoy);
- miRNA/RBP诱饵(post-transcriptional decoy)。
1. 扩展的ncRNA目录
- 新增8%的ncRNA:包括5,471个RNA Atlas-only lncRNA,其中89%为单外显子基因。
- 非polyA转录本:48%的lincRNA和37%的asRNA无polyA尾,填补既往技术盲区。
- 新型PCG候选:通过CPAT、PhyloCSF和质谱验证,发现104个潜在PCG,20个在人类蛋白质组图谱中检测到肽段。
2. 细胞类型特异性表达
- 上皮/间质细胞标记:42个miRNA和141个单外显子lincRNA在特定细胞亚型中高表达(log2FC>3,FDR<0.01)。
- circRNA表达特征:仅1%高丰度circRNA呈现细胞类型特异性,提示其量化需更高测序深度。
3. 调控功能证据
- miRNA靶向验证:211个miRBase miRNA和105个新型miRNA显著调控靶基因的m/p比值(p<0.05)。
- lncRNA功能分类:
- 转录调控主导:79%单外显子lncRNA和88%多外显子lncRNA参与TF调控;
- circRNA作为诱饵:21个circRNA富集于转录后调控。
- 通路富集:3,310个lncRNA靶向17条 hallmark 通路(如p53、MYC、TGF-β),其中增殖和信号通路最显著。
科学意义
1. 技术突破:首次整合多RNA测序技术,系统性解析非polyA和环状转录本。
2. 功能解析:通过m/p比值和Longhorn算法,为ncRNA调控机制提供多维度证据。
3. 资源开放:所有数据发布于R2平台(http://r2platform.com/rna_atlas),支持后续研究。
应用前景
- 疾病标志物:细胞类型特异性ncRNA或为癌症诊断提供新靶点;
- 基因治疗:如lncRNA SAMMSON(黑色素瘤依赖基因)的靶向干预潜力。
其他价值
- 数据可重用性:提供38,023个circRNA、5,213个miRNA的完整表达谱;
- 方法学通用性:m/p比值分析框架可推广至其他物种或疾病模型。