本研究的通讯作者为Julio Saez-Rodriguez,来自德国海德堡大学医学院和海德堡大学医院的计算生物医学研究所BioQuant中心。研究团队由来自德国、匈牙利、瑞士等多个机构的16位研究人员组成。该研究于2022年发表在《Nature Communications》期刊上,文章标题为”Comparison of methods and resources for cell-cell communication inference from single-cell RNA-seq data”。
本研究属于计算生物学和单细胞组学交叉领域,聚焦于单细胞RNA测序(scRNA-seq)数据分析中的细胞间通讯(CCC, cell-cell communication)推断问题。
随着单细胞RNA测序技术的发展,科学家们能够以前所未有的分辨率研究组织的细胞异质性。细胞间通讯是维持组织稳态、发育和疾病过程的关键机制。目前已有多种计算工具被开发用于从scRNA-seq数据推断CCC事件,这些工具通常包含两个主要组成部分:(1)细胞间相互作用的先验知识资源;(2)基于已知相互作用和数据集预测潜在CCC事件的方法。
尽管已有多种CCC推断工具,但资源选择和方法选择对预测结果的影响尚不明确。本研究旨在: 1. 系统比较16种CCC推断资源和7种预测方法 2. 评估不同资源-方法组合对预测结果的影响 3. 分析CCC预测结果与其他数据模态(如空间共定位、细胞因子活性和受体蛋白丰度)的一致性 4. 开发一个开放源代码框架LIANA,为所有资源和方法提供统一接口
研究人员首先收集整理了16种CCC推断资源,包括: - 专用CCC资源:CellPhoneDB、CellChatDB、Ramilowski等 - 综合知识数据库:OmniPath
这些资源主要包含配体-受体、细胞外基质和黏附相互作用等信息。研究人员对这些资源进行了标准化处理,包括去除重复、更新基因符号、仅保留经过验证的UniProt ID等。特别地,对于包含蛋白质复合体的资源,研究人员将其解离为单独的亚基以便于比较分析。
研究人员从多个维度对资源进行了全面比较: (1) 独特性和重叠性分析:计算每个资源中独特的相互作用、受体和配体的比例,使用Jaccard指数评估资源间的相似性。
(2) 功能偏倚分析:通过Fisher精确检验评估不同资源在特定通路、功能类别和组织富集蛋白方面的覆盖偏差。研究人员匹配了来自SignaLink、NetPath和CancerSea等数据库的通路和功能类别。
(3) 组织特异性分析:评估资源对人类蛋白质图谱(Human Protein Atlas)中组织富集蛋白和DisGeNET中疾病相关基因的覆盖情况。
研究人员开发了LIANA框架,该框架能够将任何带注释的单细胞RNA数据集作为输入,并提供对所有资源和方法的统一接口。使用LIANA,研究人员:
(1) 将7种CCC推断方法与16种资源进行所有可能的组合(共112种组合) (2) 在6个不同的scRNA-seq数据集上运行这些组合: - 三种乳腺癌亚型数据集 - 脐带血单核细胞数据集 - 胰腺胰岛数据集 - 结直肠癌数据集
(3) 对每种组合预测的前1000个最高排名的相互作用进行重叠分析,计算Jaccard指数
研究人员使用多种数据模态评估CCC方法的预测结果:
(1) 与细胞因子活性的一致性:使用43种细胞因子表达特征(CytoSig)评估预测的CCC事件与下游信号活动的关联。计算优先排序的相互作用与阳性富集细胞因子之间的优势比。
(2) 与空间共定位的一致性:使用10x Visium空间转录组数据(小鼠大脑皮层和三阴性乳腺癌)鉴定共定位的细胞类型。假设空间相邻的细胞类型更可能发生相互作用。
(3) 与受体蛋白丰度的一致性:使用CITE-seq数据集评估受体蛋白特异性表达与CCC预测的一致性。
(4) 稳健性分析:评估方法对数据噪声和资源噪声的敏感性,包括: - 细胞亚采样 - 细胞类型标签错误标注 - 资源中相互作用的随机替换
研究发现不同CCC资源之间重叠有限: - 平均仅有6.4%的独特受体、5.7%的独特配体和10.4%的独特相互作用 - CellLinker资源是个例外,其39.3%的相互作用在其他资源中不存在 - 资源间的成对重叠差异很大,但通常有限(Jaccard指数中位数=0.119)
研究发现不同资源在功能通路覆盖上存在明显偏倚: - RTK、JAK/STAT、TGF、Wnt和Notch通路覆盖了最大比例的相互作用 - T细胞受体通路在大多数资源中代表性不足,但在OmniPath和CellLinker中过表达 - 细胞外基质相关相互作用在某些资源中代表性不足 - 疾病相关基因标记在各资源中分布均匀
研究发现方法和资源选择都会显著影响预测结果: - 使用不同方法时,前1000个预测相互作用的重叠很低(Jaccard指数中位数=0.080) - 使用不同资源时的重叠略高(Jaccard指数中位数=0.119),但仍有限 - 这种差异反映了不同评分系统的多样性,特别是赋予相互作用通讯细胞对特异性的不同方法
(1) 细胞因子活性: - 所有方法在最优先排序的相互作用中显示出与细胞因子活性的一般一致性 - Connectome、Crosstalk scores和NATMI在两个数据集中都表现出一致趋势
(2) 空间共定位: - 在小鼠大脑皮层(结构明确)中,大多数方法显示细胞类型空间相邻性与CCC预测正相关 - 在乳腺癌中,只有Consensus和logFC mean显示出持续正相关
(3) 受体蛋白丰度: - 所有方法都能适当地检测CITE-seq数据集中特异性表达的受体蛋白
(4) 稳健性分析: - 所有方法对细胞亚采样都相当稳健 - 细胞类型标签错误标注对方法影响更大 - CellChat、CellPhoneDB和SingleCellSignalR对数据和资源中的噪声表现出最强的稳健性
方法学建议:
局限性讨论:
未来方向: