分享自:

公共RNA测序数据集的预处理以促进人类疾病的下游分析

期刊:dataDOI:10.3390/data6070075

这篇文档属于类型a,即报告了一项原始研究。以下是针对该研究的学术报告:


作者及研究机构
本研究由Naomi Rapier-Sharman、John Krapohl、Ethan J. Beausoleil、Kennedy T. L. Gifford、Benjamin R. Hinatsu、Curtis S. Hoffmann、Makayla Komer、Tiana M. Scott和Brett E. Pickett共同完成,研究机构为美国杨百翰大学(Brigham Young University)的微生物学与分子生物学系。该研究于2021年7月15日发表在期刊《Data》上,文章标题为“Preprocessing of Public RNA-Sequencing Datasets to Facilitate Downstream Analyses of Human Diseases”。

学术背景
RNA测序(RNA-Seq)技术是研究人类疾病机制的重要工具,尤其是在转录组学(Transcriptomics)领域。然而,预处理RNA-Seq数据需要大量的生物信息学知识和计算资源。尽管公共数据库中RNA-Seq数据集的数量不断增加,但这些数据的预处理结果(如差异表达基因分析)并不一致,且不同研究使用的算法和参数存在差异,导致数据集之间的直接比较变得困难。因此,本研究旨在通过标准化预处理流程,生成一系列经过预处理的公共RNA-Seq数据集,以促进下游分析,尤其是人类疾病的研究。

研究目标
本研究的主要目标是:
1. 通过一致的预处理流程,生成高质量的RNA-Seq数据集;
2. 提供差异表达基因(DEGs)、基因本体论(GO)术语、剪接变体(splice variants)和信号通路分析的结果;
3. 降低生物信息学门槛,使缺乏计算资源或专业知识的研究者能够直接使用这些预处理数据进行后续分析;
4. 支持疾病机制的研究,特别是与癌症、自身免疫疾病和病原体感染相关的疾病。

研究流程
1. 数据收集与元数据整理
- 从NCBI的基因表达综合数据库(GEO)中筛选出31个公开的RNA-Seq数据集,涵盖1250多个样本。
- 手动整理每个研究的元数据,确保分析设计的准确性。
- 排除与目标疾病无关的样本,如药物实验、异种移植等。

  1. 数据预处理

    • 使用sratools下载fastq测序文件。
    • 采用自动化可重复模块化工作流(ARMOR)进行预处理,具体步骤包括:
      • 使用TrimGalore!进行序列修剪;
      • 使用FastQC进行质量控制;
      • 使用Salmon将序列比对到人类GRCh38转录组并进行定量;
      • 使用edgeR生成差异表达基因列表;
      • 使用CAMERA进行基因本体论富集分析;
      • 使用DrimSeq进行剪接变体分析。
    • 使用R脚本和SPIA算法(Signaling Pathway Impact Analysis)分析显著信号通路。
  2. 数据分析与验证

    • 生成超过200个文件,包含差异表达基因、基因本体论术语、剪接变体和信号通路分析结果。
    • 通过对比已有研究验证结果的准确性。例如,在伯氏疏螺旋体(Borrelia burgdorferi)感染的数据集中,发现的差异表达基因COQ10A、LEMD3和C19orf12与莱姆病的病理机制相关。

主要结果
1. 数据集覆盖范围
- 预处理的数据集涵盖多种疾病,包括急性淋巴细胞白血病(ALL)、B细胞淋巴瘤、慢性阻塞性肺病(COPD)、结直肠癌、红斑狼疮,以及病原体感染(如伯氏疏螺旋体、汉坦病毒、流感病毒、中东呼吸综合征冠状病毒(MERS-CoV)、肺炎链球菌、呼吸道合胞病毒(RSV)、严重急性呼吸综合征冠状病毒(SARS-CoV)和SARS-CoV-2)。

  1. 差异表达基因与功能分析

    • 每个数据集均生成了差异表达基因列表和显著富集的基因本体论术语。例如,在RSV感染的数据集中,发现ISG15、IFIT1、IFIT2和IFIT3等基因显著上调,这些基因在抗病毒反应中起重要作用。
  2. 信号通路与剪接变体分析

    • 部分数据集还提供了剪接变体和信号通路分析结果。例如,在B细胞淋巴瘤的数据集中,发现CXCL9和VCAM1的上调与疾病进展相关。

研究结论
本研究通过标准化预处理流程,生成了31个高质量的RNA-Seq数据集,为人类疾病的研究提供了重要资源。这些数据集的公开不仅降低了生物信息学门槛,还支持了疾病机制的研究和生物标志物的发现。此外,本研究遵循FAIR原则(可发现、可访问、可互操作、可重用),促进了科学数据的共享与协作。

研究亮点
1. 数据集规模与覆盖范围
- 本研究是首次在单一研究中预处理如此大规模的RNA-Seq数据集,涵盖多种疾病和病原体。

  1. 标准化预处理流程

    • 采用ARMOR工作流,确保数据预处理的一致性和可重复性。
  2. 数据验证与应用价值

    • 通过对比已有研究验证了结果的准确性,并展示了这些数据在疾病机制研究和生物标志物发现中的应用潜力。

其他价值
本研究为缺乏计算资源或生物信息学专业知识的研究者提供了可直接使用的预处理数据,加速了疾病研究的进程。此外,研究结果还可用于药物重定位和新疗法的开发。


以上是对该研究的全面报告。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com