《Genome Biology》发表Qiu等团队关于基因表达精确调控的开创性研究
作者及机构
本研究由Yang Qiu(华中农业大学作物遗传改良全国重点实验室)、Lifen Liu(华中农业大学信息学院)、Jiali Yan(华中农业大学)等共同完成,通讯作者为Xuehai Hu(华中农业大学)和Jianbing Yan(华中农业大学/崖州湾国家实验室)。合作单位包括海南微米生物科技有限公司、德国马克斯·普朗克分子植物生理研究所等。论文于2025年发表于Genome Biology(DOI: 10.1186/s13059-025-03516-7)。
学术背景
科学领域与动机
研究聚焦于植物顺式调控元件(cis-regulatory elements, CREs)的精准识别与编辑,属于计算生物学与合成生物学的交叉领域。传统育种中,基因编码区的突变常导致表型剧烈变化,而调控区的编辑可实现基因表达的微调,更适合作物改良。然而,CREs的高分辨率定位及其功能预测一直是技术瓶颈。本研究旨在通过深度学习模型预测CREs,并提出“编辑可塑性(editing plasticity, EP)”新概念,为作物性状的精准调控提供新工具。
关键科学问题
1. CREs的全局识别:如何从基因组序列中高精度预测调控元件?
2. 表达调控的量化:如何评估启动子编辑对基因表达的潜在影响?
3. 跨物种普适性:模型能否适用于玉米、水稻、番茄、拟南芥等多物种?
研究流程与方法
1. 构建序列到表达的深度学习模型
- 模型架构:基于Basenji2框架开发两种模型:
- Basenji2-long:输入120 kb基因组序列(启动子上下游),预测基因表达水平。
- Basenji2-3k:聚焦启动子近端3 kb区域(含5’UTR、3’UTR等),分辨率达10 bp。
- 数据来源:整合421个RNA-seq数据集(玉米B73参考基因组),最大表达量作为预测目标。
- 创新点:引入梯度×输入(gradient×input)和遮挡(occlusion)等可解释性方法,定位关键调控位点。
2. 全基因组CREs图谱构建
- CREs识别:通过峰值调用算法从贡献分数向量中筛选候选CREs,共鉴定745,684个候选位点(覆盖玉米基因组的28.3%)。
- 验证方法:
- UMI-STARR-seq:合成12,000条候选序列(200 bp/条),在玉米原生质体中验证增强子活性,40.9%序列显示显著活性。
- 表观遗传证据:与染色质开放区域(ATAC-seq)、组蛋白修饰(H3K27ac)等数据交叉验证。
3. 编辑可塑性(EP)与进化空间分析
- EP量化:通过模拟启动子区缺失/突变,预测表达变化范围。例如,玉米ZmFCP1基因的EP分析显示组合删除可扩大表达调控范围至1.76倍。
- 进化空间(evolvability space):基于Basenji2-3k-NAM模型(整合22个玉米自交系数据),将基因分为三类:
- Maxima:突变易导致表达下降。
- Malleable:表达可双向大幅调控(高EP值)。
- Minima:突变易导致表达上升。
4. 实验验证:玉米ZmVT4基因编辑
- AI指导方案:预测启动子区10个关键峰,其中峰4(TSS下游12–21 bp)缺失可提升表达10%。
- CRISPR编辑:构建5个突变体,VTE4-cr4(4 bp缺失)显著增加α-生育酚含量(实验验证与模型预测一致)。
主要结果与逻辑关联
- 模型性能:Basenji2-long在玉米中预测精度(PCC=0.733)优于现有工具(如Xpresso)。
- CREs功能验证:UMI-STARR-seq证实53.7%已知增强子活性,37.9%新预测位点具有功能。
- EP的应用:ZmVT4编辑案例证明,AI方案可设计自然界不存在的变异,突破自然变异限制。
- 跨物种推广:模型在番茄、水稻中PCC达0.641–0.816,小麦中迁移性较好(PCC=0.35)。
结论与价值
科学价值
- 提出“编辑可塑性”概念,量化启动子编辑潜力,为合成生物学提供理论框架。
- 开发首个植物多物种CREs预测工具,公开基因组调控图谱(访问链接)。
应用前景
- 精准育种:通过CREs编辑微调基因表达,避免编码区突变的副作用。
- 合成生物学:指导人工启动子设计,优化代谢通路。
研究亮点
- 方法创新:结合深度学习与湿实验验证,实现CREs从预测到编辑的全流程闭环。
- 跨尺度解析:长序列模型(120 kb)捕获远端调控,短序列模型(3 kb)实现单碱基分辨率。
- 资源贡献:发布玉米、水稻等四物种的CREs图谱,推动植物非编码区研究。
局限与展望
当前模型对高阶顺式互作的预测能力有限,未来需整合染色质互作(Hi-C)数据。环境响应型CREs的识别将是下一阶段重点。
(全文约2000字)