分享自:

四倍体马铃薯品种特异性转录组与泛转录组重建

期刊:scientific dataDOI:10.1038/s41597-020-00581-4

这篇文档属于类型a:单篇原创研究论文报告。以下是针对该研究的学术报告:


马铃薯四倍体品种特异性转录组及pan-transcriptome重构研究

作者及机构
该研究由Marko Petek、Maja Zagorščak、Živa Ramšak等来自斯洛文尼亚国家生物学研究所(National Institute of Biology)的团队主导,合作单位包括美国印第安纳大学、法国INRA等。研究成果发表于《Scientific Data》(2020年,卷7,文章号249),DOI:10.1038/s41597-020-00581-4。

学术背景
研究领域为植物基因组学与转录组学。马铃薯(Solanum tuberosum)作为全球重要作物,其四倍体栽培品种(group tuberosum)具有高度杂合性,但基因组多样性研究仍不充分。尽管双单倍体(double-monoploid, DM)马铃薯(group phureja)的参考基因组已公布,但其与四倍体栽培品种的遗传差异限制了育种进展。本研究旨在通过整合多组学数据,构建三个四倍体马铃薯基因型(品种Désirée、Rywal和育种系PW363)的品种特异性转录组及pan-transcriptome(全转录组),为马铃薯基因变异探索、高通量分析和育种提供资源。

研究流程
1. 基因模型整合与优化
- 对象:PGSC和ITAG两个马铃薯DM基因组注释(共74,435个基因模型)。
- 方法:通过计算流程合并两者基因模型,手动矫正非重叠区域。最终生成49,322个染色体定位序列的GFF3文件,其中31,442个为ITAG模型,17,880个为PGSC模型。
- 创新点:开发了基于基因组位置的自动化合并算法,并针对复杂簇(如1对多基因)进行人工校对(图1)。

  1. RNA-seq数据预处理与组装

    • 样本:三个基因型的Illumina/SOLID短读长数据(约15亿条reads)及Rywal的PacBio长读长数据(140万条全长转录本)。
    • 组装策略
      • 短读长数据采用Trinity、Velvet/Oases、RNAspades和CLC Genomics Workbench等多组装器并行分析,测试不同k-mer参数(表1)。
      • 长读长数据通过Iso-Seq 3流程处理,使用cupcake tofu脚本去冗余。
    • 关键步骤:数字归一化(khmer)降低数据量,优化组装效率。
  2. 转录组去冗余与注释

    • 流程
      • 使用EvidentialGene的tr2aacds流程去除冗余转录本,保留代表性序列(main set)和候选可变剪接体(alt set)。
      • 通过STARlong将转录本映射至DM基因组,MatchAnnot匹配基因模型,InterProScan进行蛋白结构域注释。
      • 自定义R脚本过滤无生物学证据的转录本(如无InterPro或UniProt匹配的序列)。
    • 结果:初始组装经18–38倍压缩,最终获得高质量转录组(如Désirée从376万条压缩至5.7万条代表性序列)。
  3. Pan-transcriptome构建

    • 方法:将品种特异性CDS与DM基因模型合并,使用CD-HIT-EST(全局相似度90%)聚类,定义”核心转录组”(68,708条序列)和”基因型特异性转录组”(64,529条序列)。
    • 验证:BUSCO评估显示核心转录组完整性达98.3%(表6),长读长数据显著减少片段化转录本。

主要结果
1. 转录组多样性:发现约23,000(Désirée)、13,000(PW363)和7,500(Rywal)个DM中未注释的转录本簇,证实四倍体栽培品种存在大量特有基因。
2. 技术验证
- Sanger测序验证Rywal的NPR1-1基因变异(图4),与组装转录本完全匹配。
- 独立RNA-seq数据映射显示,品种特异性转录组的唯一映射率比DM参考基因组高5.5%(表7)。
3. Pan-transcriptome结构:核心转录组占71%,基因型特异性序列中13%为部分转录本,可能与等位基因变异或低表达相关(图3)。

结论与价值
1. 科学意义:首次系统构建马铃薯四倍体pan-transcriptome,揭示栽培品种间显著的转录组多样性,为研究杂合性与驯化提供新视角。
2. 应用价值
- 作为RNA-seq、sRNA-seq等分析的精准参考,提升多组学数据解读效率。
- 通过转录本变异设计品种特异性qPCR引物(图5),辅助分子育种。
3. 方法论贡献:融合多组装策略与长读长数据,建立适用于复杂基因组的转录组分析标准流程。

研究亮点
1. 数据规模:整合1.5亿条reads和PacBio全长转录本,覆盖多组织和应激条件。
2. 技术创新:开发自动化基因模型合并流程,优化EvidentialGene参数以减少信息损失。
3. 资源开放:所有数据(FASTA、GTF)发布于FAIRDOMHub(项目_p_strt),遵循CC BY 4.0协议。

其他价值
研究还发现转录组中包含约1%微生物序列(如马铃薯病毒Y),为研究植物-微生物互作提供意外资源(辅助文件3)。代码与中间数据公开,支持研究复现(GitHub链接见原文)。


(注:以上内容严格遵循原文数据,术语如”pan-transcriptome”首次出现时保留英文并标注中文”全转录组”,专业流程名称如”EvidentialGene”不翻译。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com