Deep scStar: 利用深度学习从单细胞RNA测序和空间转录组数据中提取和增强表型相关特征

近年来,单细胞测序(single-cell RNA sequencing,scRNA-seq)与空间转录组学(spatial transcriptomics, ST)等前沿技术极大推动了生命科学与临床医学的发展。其揭示了细胞异质性,提供了疾病、发育、免疫等重大领域的全新洞见。然而,大规模单细胞数据由于技术噪声强、批次效应(batch effects)复杂、生物信号多样且杂乱,使得“准确提取与增强与表型相关的特征”成为关键挑战之一。许多传统方法虽主攻降噪、整合,却可能同时削弱乃至丢失关键的表型决策信号,限制了研究者对疾病机制与细胞间互作的深入理解。

一、研究背景与意义

单细胞表型相关特征的识别对于阐明疾病进展、免疫应答、肿瘤耐药等问题至关重要。例如,在癌症免疫治疗、个体化诊疗中,能否准确识别那些与免疫失能或耐药相关的细胞亚群常常决定整个诊疗策略的成败。当前主流的数据处理或整合工具如Harmony、scMerge、scMerge2、MNN、Seurat、Liger等主要以批次校正、技术降噪为目标,却在维持和增强“与疾病表型密切相关的生物学异质性”方面存在明显限制。即使是近年来新兴的“HIDDEN”等方法,通过将样本标签精细到每个单细胞层面实现标签传播和降维预测,虽可提升相关细胞类型的区分度,但在面对复杂特征大样本数据时仍有欠缺。

针对这一现实难题,该论文团队继先前提出的scStar(以偏最小二乘法,PLS为核心)基础上,进一步开发了基于深度学习的“deep scStar(dscStar)”新框架。dscStar集成了多步噪声削减与监督多任务学习模型,专注于增强并揭示单细胞/空间组学数据中隐藏的、与表型紧密相关的关键信号,助力解析肿瘤微环境与疾病耐药的本质机制。

二、论文来源与作者机构背景

本篇论文题为《Deep scStar: leveraging deep learning for the extraction and enhancement of phenotype-associated features from single-cell RNA sequencing and spatial transcriptomics data》,发表于2025年Oxford University Press出版的Briefings in Bioinformatics(Volume 26, Issue 3, bbaf160)。作者群包括Lianchong Gao、Yujun Liu、Jiawei Zou、Fulan Deng、Zheqi Liu、Zhen Zhang、Xinran Zhao、Lei Chen、Henry H.Y. Tong、Yuan Ji、Huangying Le、Xin Zou、Jie Hao等,分别来自上海交通大学系统生物医学中心、复旦大学、上海九院、澳门理工大学、中山医院等多家中国顶级高校与相关医学、生命科学研究所。这一阵容不仅体现出跨学科多中心协作,也为本研究奠定了坚实的学术与数据基础。

三、研究设计与工作流程深度解析

1. 整体流程梳理

dscStar核心目的是在大规模单细胞数据中,最大程度保留并增强与特定表型(如临床分型、疾病进展、治疗反应等)相关的细胞特征/亚群。其工作流主要分为三大步骤,逐层剥除非表型差异源带来的噪声,最终通过深度学习模型强化目标特征:

Step 1:不变细胞识别(Unchanged Cell Recognition)

利用SCCURE算法对两组数据(按疾病状态、治疗策略或特定基因表达等进行分组)进行高斯混合模型(GMM)聚类,自动或手工决策聚类数目,通过Kullback–Leibler散度(KL Divergence)筛选出在不同表型间未发生显著表达变化的“稳定细胞亚群”(unchanged cells)。这一部分设计算法实现了批次效应和非目标噪声差异的“anchor cell”校正,为后续噪声消减和特征提取打下基础。

Step 2:PLS-DA降噪(Noise Reduction with PLS-DA)

在第1步选定的不变细胞上,建立偏最小二乘判别分析(PLS-DA)模型,去除随机噪声、批次效应和与表型无关的生物学干扰,使剩余信息最大程度贴合后续表型特征建模。值得注意的是,考虑到极端降噪可能导致部分微弱的生物信号损失,工具允许用户依据需求跳过本步骤,提升算法灵活性。

Step 3:监督多任务学习(Supervised Multi-task Learning)

在上一环节降噪后数据基础上,使用深度自编码器(Denoising Autoencoder,DAE)作为编码器,将高维表达矩阵嵌入低维潜空间,并结合多层感知机(Multi-layer Perceptron, MLP)执行表达特征到表型标签的判别,联合候选重构损失、分类损失及正交损失三项,通过MTL模型进一步细化并增强与表型密切关联的特征。

2. 算法创新与实现细节

a) 深度学习模型组件与损失函数

  • 编码器(Encoder)与解码器(Decoder):分别由多层神经网络组成,采样自5120, 1024, 512(编码器);512, 1024, 5120(解码器)隐层,激活函数采用ELU,各层配置有不同的dropout率。
  • 噪声注入(Binomial Noise):增强模型鲁棒性。
  • 分类器(MLP):连接编码后的512维潜在向量与binary表型标签,实现表型区分。
  • 损失项:重构损失(MSE)、分类损失(MSE)、正交损失(Gram矩阵与单位阵Frobenius距离),权重比例可调,实现特征去相关及判别增强。

b) 其他关键数据处理与评估流程

标准化、批次整合(Seurat-BBKNN/Harmony)、高变基因选择、邻居图与聚类、降维(UMAP)、基因集富集(GSVA)、伪时序分析(scTour)、空间信号增强(MCP-counter、RCTD、SpaceXR)、分子互作(CellChat、NicheNet)、相关性与生存分析、多种评价指标(ARI, ASW, F1-score)等,多环节构筑完善的定量验证体系。

四、主要研究结果及科学发现

论文针对数种典型场景与复杂数据集进行了系统性测试与科学发现验证。

1. 仿真数据集性能评估

通过高度控制的模拟数据集(不同聚类数、fold change强度,多样噪声环境),dscStar相较原有scStar、scMerge2、Harmony等工具,在弱信号环境下仍然能以高ARI、ASW、F1-score,准确识别并增强与表型关联的细胞亚群与差异表达基因,实现高质量的异质性保留及信号增强。

2. 稀有亚群识别与细粒度转化揭示

以真实生物样本中的naive B细胞和memory B细胞混合模拟(95:5)为例,dscStar准确分离出极稀有的memory B亚群,并进一步识别出从memory B到plasmablast的中间过渡状态,而传统工具则将其归并至大类簇中,丧失细粒度分型。伪时序分析明确验证了dscStar捕获的转化轨迹贴合真实生物过程。

3. 肿瘤微环境关键耐药亚群发现

  • NSCLC抗PD-1免疫治疗:通过dscStar分析32,528个CD8+ T细胞,揭示了一类高表达HSP(热休克蛋白)及FKBP4的终末耗竭T细胞亚群(hsp-related tex),表现出免疫失能与免疫检查点治疗(ICB)耐药性,并与预后不良高度相关。进一步结合TCR克隆追踪,阐明这一亚群区别于其它耗竭T细胞,可能代表疗法耐药突破点。
  • 其他肿瘤实验证实:皮肤黑色素瘤(SKCM)、基底细胞癌(BCC)等相关免疫治疗单细胞和bulk数据均呈现hsp/fkbp4高表达与免疫失效关联,佐证跨癌种的普适性。

4. 空间转录组学中的肿瘤-免疫细胞互作揭示

以肾癌(RCC)空间转录组数据为例,dscStar通过增强信号分析,发现并精细地定位了肿瘤细胞、CD8+ T细胞、肿瘤相关巨噬细胞(TAMs)及MSC-like(间充质样)肿瘤细胞的空间分布,揭示了MSC-like肿瘤细胞与免疫抑制间的强FN1/CD99通路互作,为免疫抑制与耐药机制提供新线索,并通过独立数据集(如TCGA, CellChat, Survival analysis)获得生物学与临床预后验证。

5. 肝细胞癌中的免疫墙机制

应用于HCC(肝细胞癌)多组学数据,dscStar揭示了S100A12+中性粒细胞(neu_c1)与肿瘤相关成纤维细胞(CAF)在肿瘤边缘形成免疫屏障,且neu_c1信号仅在ICB非响应者肿瘤边界富集,推测其与治疗抵抗密切相关。利用NicheNet、EnrichR等工具深入解析了ligand-receptor相互作用,指向ECM组织通路的激活,提示“免疫壁垒”联合抑制微环境调控是HCC治疗挑战的深层根源。

6. 精细表型响应亚群探测力

在LPC诱导髓鞘脱失的小鼠模型时间序列单核转录组数据上,dscStar敏锐识别并增强了早期响应内皮细胞特征(lgals1,s100a6高表达),而常规流程仅获得均一簇,无法有效定位关键应激响应亚群,充分体现其对微弱表型响应的高灵敏度。

五、结论与意义

本研究全面展示并验证了dscStar在多类复杂、弱异质性、高维度单细胞及空间组学数据中持续挖掘并增强关键信号的强大能力。不仅提供了理论与技术突破,也为肿瘤微环境、免疫耐药、疾病表型与临床决策等领域带来实际指引。

  • 科学意义:揭示依赖于多组学、多时空尺度的细胞亚群互作机理,补全了传统数据分析方法的盲区。
  • 应用价值:为精准医学、免疫治疗、单细胞智算等产业提供高层级的数据处理与生物标志物发现工具,并已实现公开源代码和标准流程。

六、研究亮点与创新特性

  1. 深度学习+多任务机制,联合多路损失函数,有效应对大数据、高复杂的生物信号环境。
  2. 无需事先设定亚群/特征数目,兼具自适应与可解释性。
  3. 对弱相关、稀有亚群极高灵敏度,显著超越传统聚类或批次整合算法。
  4. 赋能空间组学、单细胞多组学等复杂场景下的细粒度互作揭示
  5. 开源代码与流程,便于复现与推广

七、局限与展望

尽管dscStar已显示突出性能,作者坦言其对连续/复杂表型适用性仍需提升,目前多以二分类(high/low)区分,并对标签质量有一定依赖。面向数据平衡性、罕见亚群检出、多种“泛组学”场景、正交实验验证等,还需进一步扩展与完善。

八、结语

《Deep scStar: leveraging deep learning for the extraction and enhancement of phenotype-associated features from single-cell RNA sequencing and spatial transcriptomics data》一文以极具前瞻性的理论、算法与实际应用示范,引领了单细胞组学表型特征增强方向的新高峰,也为整个生命医学大数据领域提供了强有力的研究工具和发展范式。