PlantCaduceus:利用预训练DNA语言模型实现单碱基分辨率植物基因组跨物种建模
植物基因组跨物种建模的里程碑:PlantCaduceus DNA语言模型的创建与突破性应用
一、学术背景与研究动因
在过去二十年里,伴随高通量测序技术的飞速发展,超过1000种植物基因组已经发表,预计未来这一数字还将持续激增。然而,对这些庞大基因组的功能元素进行注释、理解它们在转录和翻译层面的表达调控,以及分析不同遗传变异对于生物个体适应性和性状的影响,一直是植物基因组学乃至作物改良领域中亟需突破的“瓶颈”问题。
相较于动物和人类,植物基因组拥有更复杂的结构,表现为基因组大小巨大、重复序列比例极高、物种间多样性极强,甚至同属同种内部亦具有极大变异。因此,基于单一物种构建的深度学习(deep learning,DL)模型,往往只在特定物种内表现良好,难以跨物种泛化。这极大限制了新测序植物(尤其是非模式植物)的基因功能注释和变异效果预测能力。同时,大规模的标注数据在植物领域极度稀缺,传统有监督深度学习无法高效扩展到未标注种类。
近年来,受自然语言处理(NLP)自监督预训练语言模型(Language Model, LM)兴起的影响,生物序列数据的预训练模型逐渐被证实具有强大特征抽象与泛化能力。蛋白质语言模型(如ESM)已在蛋白结构预测、突变效应识别等领域取得突破,但其只能解析编码区序列,对非编码区、调控元件难以涵盖。而DNA语言模型则有潜力涵盖全基因组序列信息,包括非编码区和调控区。
但DNA语言模型难以应对植物基因组的挑战:(1)复杂重复序列极易导致模型偏向无意义的序列模式而无法习得生物学功能相关的语言规律;(2)非编码区保守性低,噪声大,模型训练易引发数据偏置;(3)DNA为双链结构,且需充分考虑正链与反向互补链的信息对称性(reverse complement,RC)。
因此,开发一个机制合理、特征丰富且具备跨物种泛化能力的植物DNA语言模型,是当前植物基因组学研究的一个“里程碑式”需求。
二、论文来源与作者介绍
本研究论文题为“Cross-species modeling of plant genomes at single-nucleotide resolution using a pretrained DNA language model”,由Jingjing Zhai, Aaron Gokaslan, Yair Schiff, Ana Berthel, Zong-Yan Liu, Wei-Yun Lai, Zachary R. Miller, Armin Scheben, Michelle C. Stitzer, M. Cinta Romay, Edward S. Buckler, Volodymyr Kuleshov等学者联合完成。作者主要来自Cornell University(康奈尔大学) 基因多样性研究院、计算机科学系、植物育种与遗传学系,以及USDA(美国农业部),并得到相关NSF与NIH基金支持。
该论文发表于2025年6月9日的PNAS(Proceedings of the National Academy of Sciences of the United States of America),是领域内极具影响力的国际学术期刊。文章全文及预训练数据、模型代码已全部开放,彰显了开放科学精神。
三、研究流程详解
1. 研究对象与数据集
(1)预训练数据来源与处理
项目采用了16种被子植物(angiosperm)基因组,涵盖禾本科(Poaceae)与十字花目(Brassicales)两大门类,横跨1.6亿年进化历史,包括拟南芥、水稻、玉米、小麦等模式与农作物植物。这些基因组在大小、重复序列含量等方面具有极大多样,乃跨物种分析理想数据基础。
每个基因组被分割为512bp窗口,并采用单核苷酸(single-nucleotide)为单位进行token化,贴近HA级分辨率。与以往直接采集全基因组不同,PlantCaduceus以GPN项目的策略为基础,对重复非编码区进行下采样与加权,强化模型对有功能意义区域的学习,减少被重复序列“绑架”效应。
(2)特征测试及下游评价数据集
所有模型在完成无监督预训练后,主要通过以下几个任务验证泛化与功能解析能力:
- 基因注释四大任务(转录起始位点TIS、转录终止位点TTS、剪接供体/受体位点)
- 进化保守性(基于Andropogoneae 34个基因组对甘蔗、高粱等的比对)
- 变异效应零样本预测(zero-shot,评估突变对基因功能的潜在影响)
2. 研究流程及技术实现
(1)DNA语言模型PlantCaduceus的创新架构与预训练
模型架构创新
本研究采用了基于Mamba(Selective State Space Model, SSM)体系的Caduceus模型,针对DNA特点进一步优化,包括:
- 支持512bp超长context窗口,显著提升“远距离依赖”学习能力。
- 对DNA的双链RC对称性进行等变性建模(RC-equivariance),内置强先验,确保正链/反链信息等价处理,避免特征重复。
- 单核苷酸token化,分辨率优于目前主流k-mer(如6-mer)方法,精准对齐生物学“单碱基突变”效应。
- 采用通道翻转与特征平均,使输出embedding严格RC等变。
预训练策略
- 15%随机mask策略,遵循BERT标准,80%以special token置换,10%随机置换,10%保持原碱基。
- AdamW优化+Cosine decay学习率,最优模型225M参数,用8卡H100 GPU训练25天。
- 针对每个窗口,模型任务是预测被mask掉碱基的真实类型,所有下游功能通过提取最后隐层的embedding实现。
(2)下游任务设计与模型评估
a. 跨物种基因功能注释评估
- 利用拟南芥准确注释的TIS、TTS、剪接位点作为训练数据,仅提取embedding后,分别训练XGBoost(非线性模型)和线性层分类器,用于下游分类任务。
- 在四大任务中,分别在训练集(拟南芥)和测试集(包括玉米、水稻、棉花等包含/不包含于预训练集合的物种)验证模型表征能力与泛化能力。
- 同时与GPN、AgroNT(Transformer骨干,1B参数)、NT-v2(动物大模型)和基于传统CNN+LSTM的有监督DanQ模型对比评测。
b. 跨物种进化保守性预测
- 在高粱34个进化相关种和水稻外群基因组对齐基础上,用Identity分值分别标记为conserved(≥34)与neutral(<15)碱基,抽样277M个位点,构建极大不均衡训练集。
- 在高粱的9条染色体训练,10号染色体验证,并测试跨物种迁移到玉米。
- 模型输出embedding后,使用XGBoost进行二分类器训练,性能采用AUROC、AUPRC指标。
c. 零样本突变效应预测——致病性/有害突变识别新方法
- 通过in silico mutagenesis(全基因组变异模拟),考察reference与alternate等位基因的log-likelihood的差值(zero-shot score)作为突变效应评判依据。
- 涉及数据包括玉米、甘蔗、拟南芥、SNP群体测序等超百万比例的真实/模拟突变集。
- 对比主流MSA推断方法PhyloP、PhastCons, 以及GPN/AgroNT打分性能。
(3)方法/模型对比与消融实验
- 为确保GPN对比公平,专门自定义大尺寸GPN,并做参数和训练步数对齐,进一步分析集成更多基因组与扩大网络规模对模型泛化贡献。
- 针对AgroNT参数量极大、不便Brassicales集合预训练,通过LoRA微调弥补冻层embedding信息缺失。
- 多层次分析XGBoost与线性层之间差异,验证高维嵌入是否需要复杂模型才能充分提取信息。
四、研究主要发现与数据支撑
1. 新模型PlantCaduceus的泛化与表征力
- 在四类基因注释任务(TIS、TTS、剪接供体/受体)中,PlantCaduceus无论嵌入层固定还是轻量线性层微调,均在拟南芥内部评测(AUPRC均值>0.94)表现超越或匹敌既有模型。
- 关键突破在跨物种任务(如玉米、棉花等),PlantCaduceus跨物种AUPRC仅从阿拉伯芥的0.789下降至0.764,远优于GPN(0.509)、AgroNT(0.106)、NT-v2等,同时DanQ模型几乎失效(AUPRC接近0)。
- 消融试验证明,增加预训练物种数量、提高模型容量均强化泛化能力,但PlantCaduceus即便配置最小参数量(20M),仍能超过其他对标模型。
- 特别地,PlantCaduceus架构在参数效率和RC等变性处理上表现明显优势。
2. 进化保守性预测的跨物种迁移力
- PlantCaduceus无需对准注释,单凭DNA序列输出的embedding即可用于高准确率的进化保守性预测:Sorghum AUROC=0.896,AUPRC=0.876,迁移到Maize也能获得AUROC=0.829,AUPRC=0.797,均明显高于对标模型。
- 非编码区的保守性预测甚至超过蛋白编码区,突显该模型对调控元件等复杂区域的表征能力。
- 自定义GPN及LoRA微调AgroNT近似plantcaduceus下游性能,但仍未达到其极限。
3. 零样本模型驱动的致病突变/致病变异筛查方法
- 以差异log-likelihood的zero-shot score对模拟和真实变异判别,PlantCaduceus比GPN、AgroNT及历史MSA方法(PhyloP、PhastCons)更敏感捕捉致病性强/罕见等位基因,三倍提升罕见等位基因富集度。
- 特别在外部验证的拟南芥EMS等位基因筛查中,19个表型已知突变中15个PlantCaduceus排名Top1-10%,远胜其他模型,为因果突变/重要育种位点筛选提供新范式。
- 糯玉米su1位点GWAS信号中,PlantCaduceus能定位出唯一因果突变W578R, 有效解决高度LD(遗传连锁)下的信号去卷积问题。
五、研究结论与学术/应用价值
本研究首次提出了以PlantCaduceus为代表的多物种预训练DNA语言模型方案,有效克服了植物基因组多样性、重复序列复杂度、注释缺失、双链RC等变等技术难题。该模型兼具高精度(如序列注释、调控预测)、高泛化性(跨物种迁移)、高效率(参数量与计算代价俱减)、兼容单碱基功能解析(如变异致病性零样本预测)。研究团队还全方位开放源代码、模型与数据,为未来“千种植物基因组计划”、大规模新物种基因功能解读、作物精准育种、优良材料筛选等研究提供了强有力基础和可发展平台。
进一步而言,PlantCaduceus导出“零样本突变解释”方案,打开了无需昂贵进化保守性多序列比对、无需模型物种训练的致病/重要突变识别全新赛道,为基因组医学、群体基因组学与多样性作物改良领域提供范式转变的突破。
六、研究亮点与创新点总结
- 模型机制创新:采用SSM+Mamba+Caduceus架构,优于已有Transformer与CNN/LSTM方法,首次系统引入RC等变性。
- 方法体系完整:从数据集处理、预训练到下游任务设计、消融实验、下游模型多手段对比,保证了结论的严密性和适用广度。
- 应用价值多元:兼具学术研究(如基因功能进化、调控元件解码)、作物产业应用(迅速发现优异/致病变异)、生物信息学方法论推动作用。
- 便利开放性强:代码、模型、数据全面开放,为二次开发及学科教育资源铺路。
七、其他补充与展望
- 未来扩展方向:计划将预训练基因组扩展至包括裸子植物等更广泛谱系,提升模型泛化力与应用广度;亦考虑增加context窗口至上千/万bp,进军远程调控元件预测等任务。
- 专业技术细节:模型参数(如32层225M, 24层40M等多版本),便于不同资源实验室灵活调用。
- 育种实际功能:模型能够指导分子育种材料优选、辅助杂交组配、降低害突变负担,提高作物产量与抗逆性。
PlantCaduceus作为新一代植物DNA语言模型,不仅推动基础生物学研究,也为数字化精准育种、基因组医学等下游应用提供创新型工具平台,是跨物种基因组注释与功能解析的重大突破。