PlantCaduceus:利用预训练DNA语言模型实现单碱基分辨率植物基因组跨物种建模

植物基因组跨物种建模的里程碑:PlantCaduceus DNA语言模型的创建与突破性应用 一、学术背景与研究动因 在过去二十年里,伴随高通量测序技术的飞速发展,超过1000种植物基因组已经发表,预计未来这一数字还将持续激增。然而,对这些庞大基因组的功能元素进行注释、理解它们在转录和翻译层面的表达调控,以及分析不同遗传变异对于生物个体适应性和性状的影响,一直是植物基因组学乃至作物改良领域中亟需突破的“瓶颈”问题。 相较于动物和人类,植物基因组拥有更复杂的结构,表现为基因组大小巨大、重复序列比例极高、物种间多样性极强,甚至同属同种内部亦具有极大变异。因此,基于单一物种构建的深度学习(deep learning,DL)模型,往往只在特定物种内表现良好,难以跨物种泛化。这极大限制了新测序植物(尤其...

利用分阶段泛基因组进行杂交马铃薯单倍型设计

利用分阶段泛基因组进行杂交马铃薯单倍型设计 学术背景 马铃薯(Solanum tuberosum L.)是全球最重要的块茎作物之一,每年为超过120个国家的13亿人口提供食物。然而,马铃薯的四倍体基因组和克隆繁殖方式使其育种进展缓慢,难以通过传统的育种方式快速积累有益性状。为了加速马铃薯的改良,科学家们提出了基于二倍体自交系的种子繁殖杂交系统。然而,二倍体自交系的开发受到大量有害变异的阻碍,这些有害变异的存在严重影响了马铃薯的生长和整体适应性。因此,理解这些有害变异的本质并找到消除它们的方法,成为当前杂交马铃薯研究的重点。 此外,大多数已发表的二倍体马铃薯基因组是未分相的,这掩盖了单倍型多样性和杂合性的关键信息。为了克服这一挑战,研究人员开发了一个分相的马铃薯泛基因组图谱,旨在揭示马铃薯基因...