六倍体面包小麦(Triticum aestivum L.)首个端粒到端粒(T2T)无间隙基因组组装及多组学数据揭示其进化机制
作者及机构
本研究由北京大学现代农业研究院(State Key Laboratory of Wheat Improvement, Peking University Institute of Advanced Agricultural Sciences)的Shoucheng Liu、Kui Li、Xiuru Dai等21位作者共同完成,通讯作者为Bosheng Li、Hang He和Xing Wang Deng。研究成果于2025年4月发表于Nature Genetics(Volume 57, 1008–1020),论文标题为《A telomere-to-telomere genome assembly coupled with multi-omic data provides insights into the evolution of hexaploid bread wheat》。
学术背景
面包小麦是全球最重要的粮食作物之一,其六倍体基因组(约15 Gb)包含三个亚基因组(A、B、D),重复序列占比超过85%,结构复杂,组装难度极高。尽管国际小麦基因组测序联盟(IWGSC)于2018年发布了首个参考基因组(CS RefSeq v1.0),但仍有大量未组装区域(如端粒、着丝粒和核糖体DNA阵列)。本研究旨在通过长读长测序技术构建首个完整的六倍体小麦T2T无间隙基因组(命名为CS-IAAS),并结合转录组和蛋白质组数据,解析小麦多倍化过程中的基因组进化机制。
研究流程
1. 基因组测序与组装
- 测序技术:结合PacBio HiFi(250×覆盖度,平均读长18 kbp)和Oxford Nanopore超长读长(ONT UL,120×覆盖度,>100 kbp)测序,辅以Hi-C、Bionano光学图谱和Illumina短读长数据。
- 组装策略:开发半自动化流程SPART(Semi-automated Pipeline for Assembling Reference sequence of T2T),通过自适应测序(adaptive sequencing)靶向富集缺口区域,最终获得14.51 Gb的T2T组装,包含21条染色体、42个端粒和21个着丝粒,Contig N50达723.78 Mbp,填补了CS RefSeq v2.1中183,603个缺口。
- 验证:通过BUSCO评估(99.96%完整性)、Merqury质量值(56.79 vs. 47.57)和PCR-free reads比对(99.98%覆盖率)验证组装准确性。
基因组注释与多组学整合
进化与多倍化机制解析
主要结果
1. 基因组组装突破:CS-IAAS是首个完整的六倍体小麦T2T参考基因组,填补了此前未组装的着丝粒、端粒和rDNA阵列,新增565.66 Mbp序列(16.05%为着丝粒卫星序列)。
2. 转座子驱动进化:六倍化过程中,转座子插入(如DTX_famn25/51家族)通过抑制基因表达(如Gypsy捕获的3,236个基因)增强基因组可塑性。
3. 着丝粒动态演化:四倍化后,A亚基因组着丝粒通过CRM转座子爆发(约30万年前)扩张至10.2 Mbp,而D亚基因组着丝粒则通过Cacta转座子差异化积累。
4. 多组学功能注释:蛋白质组鉴定29,902个高置信度蛋白,支持基因模型边界;选择性剪接(AS)事件(29,123个)显示亚基因组特异性调控(如callus组织中24.1%为组织特异性AS)。
结论与意义
1. 科学价值:CS-IAAS为复杂多倍体基因组组装树立了新标杆,揭示了转座子和着丝粒变异在小麦适应性进化中的核心作用。
2. 应用潜力:为小麦抗病基因挖掘(如NBS-LRR家族新增611个成员)和分子育种提供了精准参考。
3. 理论创新:提出“转座子-着丝粒共进化”模型,解释多倍化中亚基因组分化的表观遗传基础。
研究亮点
1. 技术革新:首次整合HiFi与ONT UL测序,开发SPART流程实现六倍体基因组无间隙组装。
2. 发现创新:揭示Retand转座子作为着丝粒新组分,挑战了CRM主导着丝粒结构的传统认知。
3. 多组学深度:全长转录组与蛋白质组数据为小麦功能基因组研究提供迄今最全面的资源。
其他价值
研究数据已公开(DOI: 10.1038/s41588-025-02137-x),包括基因组序列、注释文件及多组学数据集,推动小麦研究进入“完整基因组时代”。