该研究由Simon Cabello-Aguilar(法国蒙彼利埃癌症研究所、蒙彼利埃大学)、Mélissa Alame(蒙彼利埃大学医院)、Fabien Kon-Sun-Tack和Jacques Colinge等研究者合作完成,于2020年3月20日在线发表于《Nucleic Acids Research》期刊(2020年第48卷第10期,文章编号e55,DOI: 10.1093/nar/gkaa183)。
在生物医学研究领域,理解多细胞生物中细胞间的通讯网络对于揭示发育、组织稳态和疾病机制至关重要。虽然存在多种细胞间通讯机制,但分泌的配体(ligand)与细胞表面受体(receptor)间的物理相互作用构成了细胞通讯的主要途径。随着单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)技术的快速发展,研究者能够以前所未有的分辨率解析组织中各种细胞群体的转录特征,这为基于配体-受体(ligand-receptor, LR)相互作用推断细胞间通讯网络提供了新的机会。
然而,现有的LR互作预测工具面临几个关键挑战:缺乏经过精心整理的LR互作参考数据库;现有评分方法难以在不同深度的单细胞数据集间建立稳定的阈值来控制假阳性;缺乏系统的方法评估预测结果的可靠性。针对这些问题,研究团队开发了名为SingleCellSignalR的新型计算工具和配套的LR互作数据库LRdb,旨在提供更准确、可靠的细胞间网络推断解决方案。
研究团队首先整合了多个经过实验验证的LR互作来源,包括FANTOM5、HPRD、HPMR、IUHAR/BPS药理学指南、UniProtKB/SwissProt等数据库的注释信息。此外,从Reactome通路中提取了带有GO(Gene Ontology)细胞定位注释的LR对(受体需标注为”receptor complex”,配体需标注为”extracellular space”或”extracellular region”)。经严格人工审查剔除不可靠记录后,最终构建了包含3251个LR对的LRdb数据库,这是目前同类数据库中规模最大且经过充分验证的收集。
为确保数据库质量,研究团队将LRdb与基于STRING数据库自动生成的LR参考集(>30,000对)进行对比,发现仅有50.2%的重叠率,这表明自动生成的参考集中包含大量未被充分验证的潜在互作。研究团队坚持采用文献支持的LR对,以提高预测结果的可解释性和可靠性。
针对现有LR评分方法的局限性,研究团队创新性地提出了正则化乘积评分(regularized product score):lrscore = √(lr)/(μ + √lr),其中μ代表整个归一化计数矩阵的平均值。这一设计的核心优势在于: - 通过引入μ作为缩放因子,使评分能够适应不同深度的单细胞数据集; - 采用平方根变换保持LR乘积与μ在同一尺度; - 评分被限制在0-1范围内,便于跨数据集比较。
为验证评分的有效性,团队设计了两套基准测试方案:其一利用Ramilowski等人提供的深度测序数据(144种原代细胞类型的TPM表达矩阵),以10 TPM为表达阈值;其二基于Rieckmann等发布的蛋白质组数据(28种造血细胞的四重复质谱计数),以平均谱计数≥2为标准。通过ROC曲线分析比较了五种评分方案(乘积、均值、p值、Zhou等选择法和本研究的lrscore),结果表明lrscore在各项指标上表现最优(AUC最高),且阈值稳定性显著优于其他方法。
SingleCellSignalR采用R语言实现,遵循Bioconductor标准,具有以下核心功能模块:
数据预处理:支持从原始UMI/read计数矩阵开始分析,内置归一化方法(基于99百分位数)和两种聚类算法(PCA+k-means或SIMLR);提供基于PanglaoDB格式的细胞类型注释功能,可扩展用户自定义标记基因集。
LR互作推断:可分析旁分泌(paracrine)和自分泌(autocrine)两种互作模式;通过EdgeR进行差异表达分析,标记”特异性”LR对(配体和受体均在相应细胞类型中显著富集)。
结果可视化:提供弦图(chord diagram)、t-SNE表达投影、集成网络视图(可导出为GraphML格式供Cytoscape使用)等多种展示方式。独特的细胞间网络全景图能直观展现复杂的互作关系,例如在黑色素瘤数据中揭示的免疫抑制微环境特征。
通路关联分析:整合Reactome和KEGG通路信息,建立受体与下游信号通路的联系。研究团队还手动补充了100个原本缺乏下游互作信息的受体的176条文献支持互作。
以小鼠表皮毛囊间表皮(interfollicular epidermis, IFE)数据为例,展示了SingleCellSignalR在模式生物中的应用。通过将小鼠基因映射到人类直系同源基因,成功预测了248对高置信度(lrscore > 0.5)的LR互作。其中,早老素-1(presenilin-1, PSEN1)/CD44互作通过免疫荧光实验验证:PSEN1在胞质和分泌区域均有表达,而CD44主要位于基底层上细胞膜,两者在特定区域共定位(如图4d所示)。通过与人类蛋白质图谱(Human Protein Atlas)和文献数据比对,确认了158/176个可验证互作,假阳性率约10.2%,与前期基准测试结果一致。
数据分析揭示IFE的显著层级通讯模式:外层K2细胞发出最多信号却接收最少,而基底层则表现出相反模式。这种定向通讯结构可能与表皮持续自我更新调控相关,其中K2-d1间的伤口愈合相关LR对提示了快速响应损伤的潜在机制。值得注意的是,尽管排除了免疫细胞,但仍检测到146个免疫相关基因在表皮细胞中的表达,这为皮肤炎症疾病研究提供了新视角。
研究通过系统的基准测试证实,lrscore在控制假阳性方面显著优于现有方法。在transcriptomics和proteomics两个独立参照系下,设定lrscore > 0.5可分别实现75% ROC曲线中FP率%和<10%的表现。相比而言,传统的乘积评分在不同数据集间FP率波动较大(如图2g所示)。
工具比较显示,SingleCellSignalR在多个方面具备优势:i) 使用最大规模的手动校验LR参考集;ii) 创新的正则化评分系统;iii) 全面的可视化与下游分析功能。相比之下,Pyminer和SCTensor等基于STRING自动生成参考集的工具产生的互作列表规模庞大但可靠性较低;而CellPhoneDB因严格的复合受体/配体完整表达要求和重排p值计算导致灵敏度降低8.5倍;iTALK虽结果类似但存在基因命名更新不及时的问题。
研究还发现,肿瘤微环境中的细胞间网络通常呈现高度冗余性,同一配体或受体常由多种细胞类型表达(如图3g)。这种复杂性强调了系统级分析工具的重要性,也印证了控制假阳性的必要性——例如在免疫检查点如PD-1/PD-L1广泛表达的背景下,传统特异性p值方法可能无法有效识别真实互作。
SingleCellSignalR的主要科学价值体现在: 1. 数据库层面:构建了目前最大规模、经过严格人工校验的LR互作参考集LRdb,为领域研究提供了可靠的知识基础。 2. 算法层面:开发的正则化评分系统首次实现了在不同深度单细胞数据集间建立稳定阈值来控制假阳性,解决了该领域的关键方法论挑战。 3. 应用层面:提供从原始数据处理到网络可视化的完整解决方案,并通过受体-通路关联分析增强结果的可解释性。软件设计兼顾易用性(适合初学者)与灵活性(支持高级用户接入其他工具的前处理结果)。
该研究的突出创新点包括: - 首创针对LR互作预测的假阳性控制评估框架,通过transcriptomics和proteomics双重基准验证方法可靠性 - 发现小鼠表皮中存在从外层到基底层的定向通讯结构,为理解组织自稳态提供新线索 - 实现多模态数据整合,将细胞间通讯与细胞内信号网络有机联系,推动系统生物学研究的发展