DNA存储技术作为应对数据爆炸问题的潜在解决方案备受关注。然而,DNA合成、聚合酶链反应(PCR)和测序过程中常会产生包含碱基插入、缺失和替换(insertion-deletion-substitution, IDS)错误的读取片段。特别是在第三代测序技术中,这一问题更为严重。针对这一问题,来自广州大学计算科学与技术研究所的Xiaodong Zheng、Ranze Xie、Xiangyu Yao等研究人员在《Scientific Reports》期刊(2024年14卷)发表了一项开创性研究,提出了一种基于生成对抗网络(Generative Adversarial Network, GAN)的新型解决方案——DNA-GAN,用于多读取片段重建。以下将从多个方面详细介绍这项研究。
DNA存储因其超长保存时间和高存储密度(单克DNA可存储数百PB数据)成为研究热点。然而,当前生物技术限制导致DNA存储的五个关键阶段(合成、PCR、序列衰变、采样和测序)会产生带有IDS错误的噪声读取片段。主流第二代测序的错误率为1-2%,而纳米孔测序仪(第三代测序)的错误率高达10%。传统方法如多序列比对(Multiple Sequence Alignment, MSA)虽广泛应用,但其计算复杂度为NP完全问题,且启发式算法(如MAFFT、MUSCLE)常以牺牲精度为代价。深度学习技术(如基于Transformer的模型)在低错误率(≤1.3%)场景表现良好,但难以应对第三代测序的高错误率环境。为此,研究团队提出将多读取片段重建问题转化为图像平滑问题,利用条件生成对抗网络(cGAN)生成共识序列。
研究使用四组模拟数据集(错误率5%-8%,每条序列110 bp,共22,000条)进行训练和验证,并选用两个真实数据集评估性能: - Meiser数据集:102 bp序列,错误率2.56%,包含4,041条高质量序列(每簇≥50读取)。 - Srinivasavaradhan数据集:110 bp序列,错误率5.9%(插入1.7%、缺失2%、替换2.2%),包含2,833条序列(每簇30-50读取)。
DNA-GAN基于pix2pix GAN框架改进,核心创新包括: - 输入表示:将读取簇转化为双通道图像(左对齐和右对齐),每个碱基用颜色编码(A=黑,T=红,C=蓝,G=绿,N=白),生成3×h×w维图像(h=110,w=50)。 - 生成器设计:采用ResNet架构,通过下采样卷积提取特征,经6个残差模块处理后上采样生成重建图像。 - 判别器设计:基于卷积的PatchGAN分类器,输出6×3矩阵评估图像块真实性。 - 损失函数:结合对抗损失(L_adv)和L1损失(λ=100),公式为: [ G^* = \arg\min_G \maxD L{adv}(G,D) + \lambda L_{L1}(G) ]
重建性能:
鲁棒性:
关键因素分析:
DNA-GAN首次将GAN应用于DNA存储的多读取重建,其科学价值与应用价值体现在: 1. 技术突破:首次实现第三代测序高错误率(5.9%)环境的完整序列重建,填补了Transformer模型的局限性。 2. 方法论创新:通过图像化表示和双通道输入,有效捕捉跨读取信息,优于传统单热点编码(one-hot encoding)方法。 3. 实用优势:重排和迭代策略将成功率提升至100%,且计算耗时(5.7μs/簇)低于MAFFT(6.3μs)。
该研究为DNA存储的实用化提供了关键技术支撑,其代码和数据已公开,为后续研究奠定基础。