水稻泛基因组研究揭示隐藏的基因组变异及其对驯化和环境适应的贡献
主要作者及机构
本研究的通讯作者为四川农业大学的Peng Qin(秦鹏)与李仕贵(Shigui Li)、中国科学院遗传与发育生物学研究所的梁承志(Chengzhi Liang)。研究团队还包括来自中国农业大学、河北大学、美国爱荷华州立大学等多所机构的30余位合作者。研究结果于2021年6月24日发表在*Cell*期刊(卷184,页3542–3558),论文标题为《Resource: Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations》。
学术背景
水稻是全球最重要的粮食作物之一,其基因组变异的研究对揭示驯化历史、适应性演化及育种创新具有重要意义。尽管前期研究基于短读长测序鉴定了一些结构变异(Structural Variations, SVs)和基因拷贝数变异(Gene Copy Number Variations, GCNVs),但由于技术限制,大部分大尺度变异(尤其复杂重复区域)未被充分解析。此外,缺乏高质量泛基因组资源阻碍了对水稻遗传多样性的系统性探索。本研究通过从头组装31个高质量水稻基因组,结合已有2个参考基因组,构建了首个基于图形的泛基因组(graph-based pan-genome),揭示了SVs和GCNVs在水稻环境适应与驯化中的作用。
研究流程与方法
1. 样品选择与测序
研究选取了33个具有广泛遗传多样性(覆盖亚洲栽培稻*Oryza sativa*所有亚群和非洲栽培稻*O. glaberrima*)的水稻材料。其中31个材料通过PacBio长读长测序(平均深度60×)结合短读长校正(20×)进行测序,并利用Canu和HERA软件进行从头组装。组装结果评估显示,所有基因组连续性强(contig N50平均12.88 Mbp)、完整度高(BUSCO完整性98.5%),且通过Hi-C数据验证了大尺度SVs的准确性。
基因组注释与泛基因组构建
采用分层策略对蛋白编码基因进行注释,发现平均每材料含40,082个基因。通过整合所有材料的基因集,构建了包含66,636个基因的泛基因组,其中20,374个为核心基因(存在于所有材料),46,262个为可变基因(含14,609个材料特异性基因)。此外,转座元件(TEs)注释显示,籼稻(XI亚群)的Gypsy类LTR反转录转座子数量显著高于粳稻(GJ亚群),暗示亚群分化后TE的爆发性扩增。
结构变异(SVs)与热点区域鉴定
通过全基因组比对工具Syri,以日本晴(Nipponbare)为参考,鉴定了171,072个非冗余SVs(含164,009个存在/缺失变异PAVs)。82.8%的PAVs为首次发现,且67.9%的变异无法通过传统长读长分析方法(如NGMLR/Sniffles)检测到。研究发现140个SVs热点区域,例如第11号染色体上一个含有30个NBS抗病基因家族的区域,其变异可能与稻瘟病抗性QTL相关。
SVs衍生状态推断与功能分析
利用非洲稻CG14作为外群,推断了*O. sativa*中130,862个衍生SVs(DSVs),发现插入事件显著多于缺失(89,981 vs 35,908)。53.2%的DSVs与基因区域重叠(如启动子、内含子),其中15.6%的变异与基因表达量显著相关(p<0.05)。例如,位于*OsGLP2-1*上游的643 bp插入与GJ亚群种子休眠增强相关,而*OsWAK112d*基因的缺失可能通过降低对稻瘟病的敏感性而被选择。
基因拷贝数变异(GCNVs)的发现
通过蛋白序列比对,鉴定出25,549个GCNV基因(占泛基因组的38.34%),包括320个已知功能基因(如抗稻瘟病基因*PID4*)。表达分析显示,拷贝数增加可显著提升基因表达量(如开花调控基因*OsVIL1*和*OsMADS18*)。例如,日本晴中*OsMADS18*的串联重复导致其表达上调,可能贡献了早花表型。
SVs形成机制解析
基于断点序列特征分析,发现48.7%的DSVs可通过特定机制解释:50.8%由转座子插入(TEI)驱动,43.9%通过非同源末端连接(NHEJ)形成。此外,73.2%的SVs断点与TEs重叠,表明TEs通过提供同源序列或引发断裂促进变异。
图形泛基因组构建与应用
整合66,542个PAVs构建图形基因组,支持短读长数据的高效基因分型。基于该资源对674个材料的重分析,发现17.5%的SVs与邻近SNPs连锁性低(r²<0.25),揭示了传统SNP分析未捕捉的遗传变异。例如,通过GWAS鉴定到稻叶早衰相关SVs(如*Os06g13470*启动子区的LTR插入)。
主要结论与价值
1. 科学价值:
- 提供了首个高质量水稻泛基因组资源,突破了单一参考基因组的局限性。
- 揭示了SVs和GCNVs通过调控基因表达和功能,驱动水稻环境适应与人工选择(如种子休眠、抗病性)。
- 解析了TE介导的SVs形成机制,为植物基因组演化研究提供新视角。
研究亮点
1. 首次系统性整合31个高质量基因组,填补了植物泛基因组领域的技术空白。
2. 通过外群基因组推断SVs演化方向,为驯化研究提供了新方法。
3. 揭示GCNVs通过剂量效应(如*OsVIL1*)和异位表达(如*Kala4*)调控表型多样性。
其他要点
研究局限性包括部分SVs边界在组装中的分辨率不足,以及野生稻参考基因组缺乏对祖先状态推断的影响。未来可通过更多野生材料测序和长读长技术优化进一步改进。