本文献发表于 Molecular Ecology Resources 期刊2025年的第25卷,文章标题为“Conserved sequence identification within large genomic datasets using ‘UnikSeq2’: application in environmental DNA assay development”。主要作者包括来自加拿大维多利亚大学生物化学与微生物学系的 Mark Louie D. Lopez、Caren C. Helbing 等人,以及来自加拿大BC癌症研究所迈克尔·史密斯基因组科学中心的 René L. Warren、Inanc Birol 等合作者。该研究于2025年7月4日正式被接受发表。
本研究属于环境DNA(environmental DNA, eDNA)生物监测与生物信息学交叉领域。随着eDNA技术成为监测生物多样性的高效、非侵入性工具,开发高特异性和高灵敏性的检测方法至关重要。传统上,针对特定物种的eDNA检测方法(如定量PCR,qPCR)需要设计特异的引物和探针,其设计过程高度依赖于在目标物种与潜在干扰物种之间识别出独特的DNA序列区域。然而,在生态监测中,有时需要检测更广泛的类群(例如,检测某个科、目甚至纲的所有物种),这就需要找到在整个目标类群内高度保守、同时又能与非目标类群区分开的序列区域。目前,识别这种保守序列区域通常依赖于人工检查大规模的多序列比对结果,这一过程在面对公共数据库中快速增长的基因组数据(如截至2024年11月,NCBI GenBank已拥有超过16,000个动物线粒体基因组)时,变得异常耗时、繁琐且容易出错。因此,本研究旨在解决这一瓶颈,通过开发并应用一种名为UnikSeq2的新型生物信息学工具,实现自动化、高效地在大规模基因组数据集中识别既保守又独特的序列,从而为开发具有更宽分类学覆盖范围(从属到纲)的eDNA检测方法提供可靠基础。
本研究的工作流程主要包括三个核心部分:工具开发与算法阐述、利用UnikSeq2进行序列解析与eDNA检测方法设计、以及eDNA检测方法的体外与现场验证。
首先,研究团队对已有的UnikSeq工具进行了功能扩展,开发了UnikSeq2(版本2.0.0)。UnikSeq是一个基于k-mer(k核苷酸短序列)、无需序列比对的工具,最初设计用于在大型数据集中识别目标物种独有的序列。UnikSeq2的核心创新在于新增了一个“保守模式”(通过参数 -c 1 启用)。在此模式下,该工具能够识别在用户定义的“内群”(即希望被qPCR扩增的目标物种序列)中保守,同时又相对于“外群”(非目标或干扰物种序列)保持独特的序列区域。其算法流程如下:工具接受三个输入——一个参考序列、一个内群序列集和一个外群序列集。它首先从内群和外群序列中提取所有长度为k(默认为25)的k-mer及其反向互补序列,并将其存储在哈希数据结构中以快速查询。接着,工具扫描参考序列,识别那些其k-mer至少出现在一定比例(由参数 -p 控制,例如25%)内群序列中、同时在外群序列中缺失或出现频率极低(由参数 -l, -m, -u 控制容错度)的连续区域。满足长度阈值(参数 -s,默认为100 bp)的区域将被输出。该工具会生成两种主要输出:一是包含候选保守/独特序列的FASTA文件,其中保守且独特的区域用大写字母表示;二是TSV格式的详细报告文件,记录每个k-mer在内群和外群中出现的情况,可用于生成可视化图谱。UnikSeq2作为开源工具(GPLv3许可)发布在GitHub上,其无需比对的特性使其能够高效处理结构不一致的大规模序列数据。
其次,研究者应用UnikSeq2为四个不同分类层级的类群设计eDNA检测方法。这些类群包括:硬骨鱼纲(Osteichthyes,代表纲级)、鲑科(Salmonidae,代表科级)、鼠耳蝠属(Myotis,代表属级)以及鹿属(Cervus,代表属级)。对于每个目标类群,研究团队从NCBI GenBank和MitoFish数据库下载了完整的线粒体基因组序列,并精心构建了内群和外群序列集(例如,针对硬骨鱼类的Efish1检测方法,使用了4211个内群线粒体基因组和大量其他脊椎动物及无脊椎动物的外群基因组)。使用默认参数运行UnikSeq2后,获得了每个目标类群的候选保守独特序列。研究人员选择其中最长的输出序列,利用Beacon Designer和Geneious Prime软件,遵循严格的qPCR检测方法设计原则(如引物长度18-23 bp,扩增子长度80-400 bp,避免二聚体形成等),为每个类群设计了特异的引物和TaqMan水解探针。例如,为硬骨鱼设计的Efish1检测靶向mt-rnr1基因的153 bp区域;为鲑科设计的Esalmo2检测靶向mt-tRNA基因簇的140 bp区域;为鼠耳蝠设计的Emyotis1检测靶向mt-rnr1基因的78 bp区域;为鹿属设计的Ecervus3检测靶向mt-co1基因的170 bp区域。设计完成后,通过计算机模拟(in silico)验证了这些引物-探针组合的特异性:包括在Geneious Prime中将它们映射到目标与非目标物种的序列比对中观察错配,以及使用机器学习工具eDNAssay预测其与非目标物种发生交叉扩增的概率。
第三,研究团队对设计的四种eDNA检测方法进行了严格的体外(in situ)和现场验证。体外验证首先使用从目标物种和非目标物种(包括密切相关的类群以及常见污染源如人、猫、狗的DNA)的组织样本中提取的基因组DNA,测试检测方法的特异性。所有检测方法均显示仅对目标类群内的物种产生特异性扩增,而对非目标物种无扩增,证实了其高特异性。尽管计算机模拟显示Efish1检测对某些两栖动物(如蝾螈)有较低的潜在扩增概率,实际验证中也观察到了微弱信号,这通过序列比对发现这些物种的引物结合区域存在高度相似性而得到了解释,这提示了在实际应用中需考虑特定生态系统中潜在干扰物种的存在。随后,研究人员合成了目标序列的gBlock标准品,通过系列稀释构建标准曲线,评估了每种检测方法的灵敏度、效率和线性范围。四种检测方法均表现出高灵敏度,其检测限(Limit of Detection, LOD)均低于1个拷贝/反应(例如Emyotis1检测低至0.1拷贝/反应)。除Esalmo2检测的效率为76%略低于推荐标准(80%)外,其余检测方法的效率在80%到104%之间,线性回归系数(R²)均达到0.99,表明定量性能优良。最后,研究团队使用来自已知存在目标物种地点的环境样本进行了现场验证:Efish1和Esalmo2检测用于加拿大不列颠哥伦比亚省Skeena流域的水体和沉积物样本;Emyotis1检测用于人工蝙蝠栖息地的空气过滤样本;Ecervus3检测用于魁北克鹿栏的木桩擦拭样本。所有检测方法均成功地在实地样本中检测到了目标DNA,且阴性对照均为阴性,证明了这些方法在不同环境基质(水、沉积物、空气、表面拭子)中的实用性和可靠性。
本研究的主要结论是,成功开发并验证了UnikSeq2这一强大的生物信息学工具,它能够自动化、高效且准确地从大规模基因组数据集中识别出既在目标类群内保守、又能与非目标类群区分开的序列区域。利用这一工具,研究者成功设计了四种针对不同分类层级(从属到纲)的、具有高特异性和高灵敏性的宽靶向eDNA qPCR检测方法。这些方法经过了从计算机模拟到体外验证再到现场应用的全流程严格测试,证明了其在实际环境监测中的可行性和价值。
本研究的价值和意义体现在多个层面。在科学价值上,UnikSeq2工具填补了eDNA检测方法设计流程中的一个关键自动化空白,将研究人员从繁琐、易错的手工序列比对检查中解放出来,极大地提高了方法开发的效率和可重复性。它巧妙地运用k-mer分析避免了计算成本高昂的多序列比对,同时通过内群/外群比较的框架,将“保守性”与“独特性”的识别合二为一,概念清晰且实用。在应用价值上,所开发的四种eDNA检测方法为生态学家和保育生物学家提供了新的监测工具,能够以更高效的方式(例如,一次检测可筛查一个纲的所有鱼类)评估生物多样性,特别适用于目标物种DNA浓度极低或需要对整个类群进行快速普查的场景。此外,UnikSeq2的灵活性也使其不仅适用于qPCR检测方法设计,其识别的保守区域同样可为基于测序的宏条形码(metabarcoding)通用引物设计提供候选序列,从而支持更广泛的生态和进化研究。
本研究的亮点突出。首先,研究方法具有显著的新颖性:UnikSeq2是首个专门为满足eDNA检测方法设计中“识别既保守又独特的序列”这一特定需求而开发的自动化工具,其“保守模式”是一项重要的功能创新。其次,研究工作流程完整且严谨:从工具算法开发,到应用工具设计检测方法,再到通过计算机模拟、体外组织DNA验证、合成DNA灵敏度测试和多种环境基质的现场样本验证,形成了一个环环相扣、证据充分的完整证据链,充分体现了eDNA检测方法开发的国际最佳实践标准。最后,研究成果具有明确的实用性和推广潜力:不仅提供了四个即用型eDNA检测方法,更重要的是提供了UnikSeq2这一开源工具,使得全球研究人员都能利用公共基因组数据,快速、标准化地开发针对任何目标类群的eDNA检测方法,这将有力地推动eDNA技术在全球生物多样性监测和保护中的规模化、标准化应用。