单细胞RNA测序(scRNA-seq)技术在生物医学研究和临床应用中的数据分析指南
作者及发表信息
本文由Min Su(南京医科大学生殖医学国家重点实验室)、Tao Pan(海南医学院第一附属医院生物医学信息与工程学院)、Qiu-Zhen Chen(南京医科大学)、Wei-Wei Zhou(哈尔滨医科大学生物信息科学与技术学院)等来自中国、澳大利亚多所研究机构的学者共同完成,于2022年发表在*Military Medical Research*期刊(卷9期68),采用知识共享许可协议(CC BY 4.0)开放获取。
研究背景与目标
单细胞RNA测序(scRNA-seq)技术通过解析单个细胞的转录组异质性,为疾病机制研究和临床诊疗策略开发提供了前所未有的分辨率。然而,随着高通量scRNA-seq技术的普及(如10× Genomics和Singleron平台),海量数据的分析成为非生物信息学背景研究者的主要障碍。本文旨在:(1)系统总结scRNA-seq数据分析流程中的算法进展与性能评估;(2)针对生物医学研究场景提供定制化分析工具推荐;(3)通过GitHub开源分析脚本(https://github.com/wxlab-njmu/scrna-recom)降低技术门槛。
核心内容框架
一、实验设计与数据预处理
1. 实验设计考量
- 样本来源:需明确物种(如人源/小鼠)、组织类型(实体瘤/PBMCs/类器官)和实验设计(病例-对照/队列研究)。例如,COVID-19研究采用健康人群作为对照,而肝癌研究常对比癌与癌旁组织。
- 批次效应控制:建议采用嵌套病例-对照设计或样本多重标记技术(如Cell Hashing)减少批次差异。
二、基础分析流程
1. 表达标准化
- 全局缩放方法:TPM(Transcripts Per Million)和scran的池化策略(pooling cells)优于传统bulk RNA-seq方法(如DESeq2),后者因零膨胀问题不适用单细胞数据。
- 生物协变量校正:sctransform通过正则化负二项回归实现方差稳定,Seurat的线性回归可消除细胞周期影响。
三、高级分析模块
1. 细胞亚群解析
- 聚类算法:Seurat的社区检测法和SC3(Single-Cell Consensus Clustering)表现最佳,后者通过k-means整合多聚类结果。
- 细胞注释策略:
- 标记基因法:CellMarker和PanglaoDB数据库提供13,000+标记基因,SCINA通过EM算法实现半自动注释
- 参考转录组法:SingleR匹配Human Cell Atlas等参考数据集
- 机器学习法:SingleCellNet随机森林分类器适用于已知细胞类型
四、代谢与功能分析
1. 代谢通量建模:
- 路径富集:scMetabolism包支持ssGSEA和AUCell算法
- 通量平衡分析(FBA):
- SC-FBA:基于Recon2模型构建代谢网络
- scFEAs:图神经网络解决非线性优化问题
研究意义与创新点
1. 方法论价值:
- 首次系统比较了16种细胞互作资源和7种预测工具的效能差异,揭示现有方法的不一致性
- 提出”先Harmony快速筛查,后LIGER精细整合”的分层分析策略
本文通过”干湿结合”的视角,为生物医学研究者构建了从原始数据到生物学发现的完整分析路径,其开源脚本库将持续更新以纳入最新算法进展。