分享自:

机器学习在植物AI育种中的应用

期刊:Genomics, Proteomics & BioinformaticsDOI:10.1093/gpbjnl/qzae051

本文由Qian Cheng和Xiangfeng Wang撰写,分别来自中国农业大学的玉米生物育种国家重点实验室和国家玉米改良中心。文章发表于2024年7月2日的《Genomics, Proteomics & Bioinformatics》期刊,题为“Machine Learning for AI Breeding in Plants”。该研究探讨了机器学习(Machine Learning, ML)在植物育种中的应用,特别是如何利用ML技术推动植物基因组、种质资源、基因、基因组育种和基因编辑(5G)时代的育种实践。

学术背景

随着多组学技术的快速发展,植物育种进入了“5G”时代,即基因组(Genome)、种质资源(Germplasm)、基因(Genes)、基因组育种(Genomic Breeding)和基因编辑(Gene Editing)。ML作为人工智能(AI)的核心技术,能够通过数据驱动的模式识别,减少对先验假设的依赖,从而加速植物育种中的基因发现、基因型到表型(Genotype-to-Phenotype, G2P)预测、基因组选择(Genomic Selection, GS)和植物表型组学分析。然而,尽管ML在多组学驱动的植物研究中展现出巨大潜力,基础研究与育种实践之间仍存在差距。本文旨在探讨如何利用前沿的ML模型克服植物研究中的主要挑战,最终实现智能化和便捷化的植物育种。

研究流程

  1. 多组学分析用于基因发现
    研究首先强调了多组学分析在基因发现中的重要性。通过整合基因组、转录组、蛋白质组和代谢组数据,结合表型组学数据,研究人员能够更精确地定位与农艺性状相关的基因。特别是,表型组学数据通过高通量成像技术生成,反映了植物细胞内部的生理活动,被视为“成像性状”(Imaging Traits, ITraits)。为了应对高维数据的“维度灾难”,研究采用了无监督学习中的降维(Dimensionality Reduction, DR)技术,如主成分分析(PCA)和非负矩阵分解(NMF),以简化数据并提高分析效率。

  2. 自动化特征工程
    由于特征集(如SNPs、代谢物或表型特征)通常远大于样本集,研究提出了自动化特征工程的重要性。通过特征选择或特征提取,ML模型能够减少过拟合风险。例如,NMF算法通过分解代谢物矩阵生成新的“元代谢物”特征,从而简化数据并提高分析效率。此外,研究还探讨了深度学习(Deep Learning, DL)和集成学习(Ensemble Learning, EL)在特征工程中的应用。

  3. 流形学习用于数据可视化
    研究还介绍了流形学习(Manifold Learning)在超高维数据可视化中的应用。通过非线性降维算法(如t-SNE和UMAP),研究人员能够更好地理解单细胞RNA测序(scRNA-seq)数据的结构。此外,深度学习模型(如稀疏自编码器SAUCIE)也被用于同时进行降维和数据可视化。

  4. 精细定位因果变异
    研究进一步探讨了如何通过多组学数据精细定位与性状相关的因果变异。通过整合基因组、转录组和代谢组数据,研究人员能够缩小候选基因或基因组区域的范围,并通过统计检验验证这些变异的功能性。

  5. 知识驱动的分子设计育种
    研究强调了将植物研究中的知识转化为育种实践的重要性。通过ML模型,研究人员能够整合基因和机制的知识,优化育种策略。例如,ML辅助的分子设计育种能够帮助培育适合机械化收获的玉米品种,同时考虑多个性状的协同或竞争关系。

  6. 数据驱动的基因组设计育种
    研究还探讨了数据驱动的基因组设计育种,特别是基因组选择(GS)在植物育种中的应用。通过低覆盖度全基因组测序(LCGWS)和超低覆盖度全基因组测序(ULCGWS),研究人员能够降低基因分型成本,并通过ML模型预测性状表现。

主要结果

  1. 多组学分析显著提高了基因发现的精度。通过降维技术,研究人员能够简化高维数据,并更高效地定位与农艺性状相关的基因。
  2. 自动化特征工程减少了过拟合风险。通过特征选择和特征提取,ML模型能够更准确地识别与性状相关的变异。
  3. 流形学习提供了更直观的数据可视化。非线性降维算法帮助研究人员更好地理解复杂数据的结构。
  4. 精细定位因果变异为精准育种提供了基础。通过整合多组学数据,研究人员能够更精确地定位与性状相关的基因变异。
  5. 知识驱动的分子设计育种优化了育种策略。ML模型能够整合基因和机制的知识,帮助培育具有特定性状的植物品种。
  6. 数据驱动的基因组设计育种降低了育种成本。通过低覆盖度测序和ML模型,研究人员能够更经济高效地进行基因组选择。

结论与意义

本文系统探讨了ML在植物育种中的应用,提出了如何利用前沿ML技术克服多组学数据的高维性和异质性挑战。通过自动化特征工程、流形学习和精细定位因果变异,研究为智能化和精准化的植物育种提供了新的思路。此外,研究还强调了知识驱动和数据驱动育种策略的结合,为未来植物育种实践提供了重要的理论和技术支持。

研究亮点

  1. ML在多组学数据中的应用:研究展示了ML如何通过降维、特征工程和数据可视化技术,简化高维数据的分析,提高基因发现的精度。
  2. 自动化特征工程的创新:通过NMF和深度学习算法,研究提出了自动化特征工程的新方法,减少了过拟合风险,并提高了模型的可解释性。
  3. 精细定位因果变异的突破:研究通过整合多组学数据,提出了精细定位因果变异的新策略,为精准育种提供了重要工具。
  4. 知识驱动与数据驱动育种的结合:研究强调了将基因和机制的知识与数据驱动的ML模型相结合,优化育种策略,推动植物育种的智能化发展。

其他有价值的内容

研究还探讨了ML在基因组选择(GS)中的应用,特别是如何通过低覆盖度测序和ML模型降低育种成本。此外,研究提出了构建AI育种生态系统的设想,包括数据平台、模型平台和应用平台,为未来植物育种的智能化发展提供了重要方向。

本文为ML在植物育种中的应用提供了全面的理论框架和实践指导,具有重要的科学和应用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com