分享自:

单细胞RNA测序数据中细胞间通讯推断方法与资源的比较

期刊:Nature CommunicationsDOI:10.1038/s41467-022-30755-0

单细胞RNA测序数据中细胞间通讯推断方法与资源的系统性比较研究

作者与发表信息

本研究的通讯作者为Julio Saez-Rodriguez,来自德国海德堡大学医学院和海德堡大学医院的计算生物医学研究所BioQuant中心。研究团队由来自德国、匈牙利、瑞士等多个机构的16位研究人员组成。该研究于2022年发表在《Nature Communications》期刊上,文章标题为”Comparison of methods and resources for cell-cell communication inference from single-cell RNA-seq data”。

学术背景与研究目的

研究领域

本研究属于计算生物学和单细胞组学交叉领域,聚焦于单细胞RNA测序(scRNA-seq)数据分析中的细胞间通讯(CCC, cell-cell communication)推断问题。

背景知识

随着单细胞RNA测序技术的发展,科学家们能够以前所未有的分辨率研究组织的细胞异质性。细胞间通讯是维持组织稳态、发育和疾病过程的关键机制。目前已有多种计算工具被开发用于从scRNA-seq数据推断CCC事件,这些工具通常包含两个主要组成部分:(1)细胞间相互作用的先验知识资源;(2)基于已知相互作用和数据集预测潜在CCC事件的方法。

研究动机与目的

尽管已有多种CCC推断工具,但资源选择和方法选择对预测结果的影响尚不明确。本研究旨在: 1. 系统比较16种CCC推断资源和7种预测方法 2. 评估不同资源-方法组合对预测结果的影响 3. 分析CCC预测结果与其他数据模态(如空间共定位、细胞因子活性和受体蛋白丰度)的一致性 4. 开发一个开放源代码框架LIANA,为所有资源和方法提供统一接口

详细研究流程

1. 资源处理与比较

研究人员首先收集整理了16种CCC推断资源,包括: - 专用CCC资源:CellPhoneDB、CellChatDB、Ramilowski等 - 综合知识数据库:OmniPath

这些资源主要包含配体-受体、细胞外基质和黏附相互作用等信息。研究人员对这些资源进行了标准化处理,包括去除重复、更新基因符号、仅保留经过验证的UniProt ID等。特别地,对于包含蛋白质复合体的资源,研究人员将其解离为单独的亚基以便于比较分析。

2. 资源描述性分析

研究人员从多个维度对资源进行了全面比较: (1) 独特性和重叠性分析:计算每个资源中独特的相互作用、受体和配体的比例,使用Jaccard指数评估资源间的相似性。

(2) 功能偏倚分析:通过Fisher精确检验评估不同资源在特定通路、功能类别和组织富集蛋白方面的覆盖偏差。研究人员匹配了来自SignaLink、NetPath和CancerSea等数据库的通路和功能类别。

(3) 组织特异性分析:评估资源对人类蛋白质图谱(Human Protein Atlas)中组织富集蛋白和DisGeNET中疾病相关基因的覆盖情况。

3. 方法-资源组合分析

研究人员开发了LIANA框架,该框架能够将任何带注释的单细胞RNA数据集作为输入,并提供对所有资源和方法的统一接口。使用LIANA,研究人员:

(1) 将7种CCC推断方法与16种资源进行所有可能的组合(共112种组合) (2) 在6个不同的scRNA-seq数据集上运行这些组合: - 三种乳腺癌亚型数据集 - 脐带血单核细胞数据集 - 胰腺胰岛数据集 - 结直肠癌数据集

(3) 对每种组合预测的前1000个最高排名的相互作用进行重叠分析,计算Jaccard指数

4. 方法评估

研究人员使用多种数据模态评估CCC方法的预测结果:

(1) 与细胞因子活性的一致性:使用43种细胞因子表达特征(CytoSig)评估预测的CCC事件与下游信号活动的关联。计算优先排序的相互作用与阳性富集细胞因子之间的优势比。

(2) 与空间共定位的一致性:使用10x Visium空间转录组数据(小鼠大脑皮层和三阴性乳腺癌)鉴定共定位的细胞类型。假设空间相邻的细胞类型更可能发生相互作用。

(3) 与受体蛋白丰度的一致性:使用CITE-seq数据集评估受体蛋白特异性表达与CCC预测的一致性。

(4) 稳健性分析:评估方法对数据噪声和资源噪声的敏感性,包括: - 细胞亚采样 - 细胞类型标签错误标注 - 资源中相互作用的随机替换

5. 数据分析流程

  • 数据预处理:所有数据集均使用标准的Seurat流程进行处理,包括log归一化、可变特征选择、PCA降维和聚类。
  • 统计方法:使用Fisher精确检验计算优势比,评估不同排序区间内优先排序的相互作用与阳性类别(如细胞因子活性、空间共定位)的关联。
  • 可视化:使用ComplexHeatmap和ggplot2进行数据可视化。

主要研究结果

1. 资源的独特性和重叠性

研究发现不同CCC资源之间重叠有限: - 平均仅有6.4%的独特受体、5.7%的独特配体和10.4%的独特相互作用 - CellLinker资源是个例外,其39.3%的相互作用在其他资源中不存在 - 资源间的成对重叠差异很大,但通常有限(Jaccard指数中位数=0.119)

2. 资源的功能偏倚

研究发现不同资源在功能通路覆盖上存在明显偏倚: - RTK、JAK/STAT、TGF、Wnt和Notch通路覆盖了最大比例的相互作用 - T细胞受体通路在大多数资源中代表性不足,但在OmniPath和CellLinker中过表达 - 细胞外基质相关相互作用在某些资源中代表性不足 - 疾病相关基因标记在各资源中分布均匀

3. 方法-资源组合的影响

研究发现方法和资源选择都会显著影响预测结果: - 使用不同方法时,前1000个预测相互作用的重叠很低(Jaccard指数中位数=0.080) - 使用不同资源时的重叠略高(Jaccard指数中位数=0.119),但仍有限 - 这种差异反映了不同评分系统的多样性,特别是赋予相互作用通讯细胞对特异性的不同方法

4. 与其他数据模态的一致性

(1) 细胞因子活性: - 所有方法在最优先排序的相互作用中显示出与细胞因子活性的一般一致性 - Connectome、Crosstalk scores和NATMI在两个数据集中都表现出一致趋势

(2) 空间共定位: - 在小鼠大脑皮层(结构明确)中,大多数方法显示细胞类型空间相邻性与CCC预测正相关 - 在乳腺癌中,只有Consensus和logFC mean显示出持续正相关

(3) 受体蛋白丰度: - 所有方法都能适当地检测CITE-seq数据集中特异性表达的受体蛋白

(4) 稳健性分析: - 所有方法对细胞亚采样都相当稳健 - 细胞类型标签错误标注对方法影响更大 - CellChat、CellPhoneDB和SingleCellSignalR对数据和资源中的噪声表现出最强的稳健性

研究结论与价值

科学价值

  1. 首次系统性地比较了多种CCC推断资源和方法,揭示了资源选择和方法选择对预测结果的显著影响
  2. 阐明了现有CCC资源在覆盖范围和功能偏倚方面的局限性,呼吁更大规模的注释工作
  3. 证明了CCC预测与其他数据模态(如空间转录组和蛋白质组)的一致性,为方法验证提供了新思路

应用价值

  1. 开发了LIANA框架,为CCC分析提供了统一接口和标准化流程
  2. 为研究人员选择适当的CCC分析工具提供了实证依据
  3. 提出的多模态验证方法可提高CCC预测结果的可信度

研究亮点

  1. 系统性比较:首次对16种资源和7种方法进行全面比较,涵盖112种可能的组合
  2. 多模态验证:创新性地使用空间共定位、细胞因子活性和受体蛋白丰度等多种数据模态验证CCC预测
  3. 开源框架:开发的LIANA框架实现了资源和方法的解耦,促进了CCC分析的标准化和可重复性
  4. 资源分析深度:对CCC资源进行了前所未有的详细描述性分析,揭示了功能偏倚和覆盖差异

其他有价值内容

  1. 方法学建议

    • 强调了考虑蛋白质复合物的重要性,因为不同亚基组合可能诱导不同的反应
    • 建议结合空间信息来约束或告知CCC预测
    • 推荐使用下游信号活动(如细胞因子活性和转录因子活性)来提高预测可信度
  2. 局限性讨论

    • CCC推断受限于先验知识资源,仅能预测资源中已知的相互作用
    • 当前方法主要关注基因表达,忽略了蛋白翻译、分泌和扩散等过程
    • 空间信息的利用仍受限于当前空间转录组技术的分辨率
  3. 未来方向

    • 整合单细胞蛋白质组数据
    • 扩展到跨物种通讯分析
    • 开发考虑长距离内分泌信号的方法
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com