分享自:

基于编码理论和深度学习的可扩展且稳健的DNA存储

期刊:nature machine intelligenceDOI:10.1038/s42256-025-01003-z

学术研究报告:基于编码理论和深度学习的可扩展、稳健DNA存储方案

作者及发表信息
本研究由Daniella Bar-Lev(以色列理工学院)、Itai Orr(以色列理工学院/Uveye Ltd.)、Omer Sabary(以色列理工学院)、Tuvi Etzion(以色列理工学院)和Eitan Yaakobi(以色列理工学院)共同完成,发表于2025年4月的《Nature Machine Intelligence》(Volume 7, Pages 639–649)。

学术背景
随着全球数据量呈指数级增长(预计2025年达180 ZB),传统磁性和光学存储技术面临密度和耐久性瓶颈。DNA存储因其超高信息密度(每克DNA可存储约215 PB数据)、长寿命(数千年)和近乎零的维护能耗成为潜在解决方案。然而,DNA存储的信息检索流程(information retrieval pipeline)存在两大挑战:
1. 可扩展性(scalability)与准确性(accuracy)的权衡:现有方法需大量计算资源处理大规模数据;
2. 噪声环境下的纠错:DNA合成(synthesis)和测序(sequencing)过程会引入插入(insertion)、删除(deletion)和替换(substitution)错误。
本研究旨在通过结合深度神经网络(DNN)张量积纠错码(TP-ECC)安全边际机制(safety margin),构建一个端到端的高效DNA信息检索系统。

研究流程与方法
1. 编码与合成
- 模块化编码方案:将二进制数据转换为DNA四碱基序列(A/C/G/T),采用分层设计:
- 索引编码(index encoding):确保索引间编辑距离≥3,减少聚类错误;
- 对角列编码(diagonal column encoding):基于RS码(Reed-Solomon code)冗余,对抗序列首尾的高错误率;
- 约束编码(constrained code):限制同聚物长度(homopolymer ≤4)和GC含量(45–55%),提升合成稳定性。
- 实验对象:合成3.1 MB数据(含随机比特、文本、音频和图像),分为1,000条序列的试点数据集(pilot dataset)和110,000条序列的测试数据集(test dataset),通过Twist Bioscience合成。

  1. 测序与聚类

    • 测序技术:使用Illumina MiSeq(低错误率0.079–0.123%)和Oxford Nanopore MinION(高错误率4.1–5.07%);
    • 快速分箱聚类(binning):基于索引的朴素聚类算法,牺牲准确性换取速度(比传统方法快3,200倍),但引入噪声(错误聚类率达1.6%)。
  2. 序列重建

    • DNAformer模型
      • 架构:孪生网络(siamese network)结合卷积与Transformer模块,通过非相干对齐层(NCI aligner)处理变长读段;
      • 训练数据:基于真实数据噪声模型(SOLQC工具分析)生成14亿条模拟读段,成本仅为真实数据的0.001%;
      • 创新点:双分支一致性损失(consistency loss)和置信度过滤器(confidence filter),筛选高可信预测(阈值µ=0.91)。
    • 条件概率逻辑(CPL):动态规划算法补救低置信度聚类,通过编辑距离图重构序列。
  3. 解码与纠错

    • 改进的张量积码(TP-ECC):利用上游重建结果减少冗余,码率(code rate)达1.6 bits/碱基(高噪声下);
    • 安全边际机制:量化系统在噪声环境中的稳健性(如Nanopore单流通池需CPL介入以维持检索成功)。

主要结果
1. 重建性能
- 准确性:在Illumina和Nanopore数据集上,失败率(failure rate)分别为0.0055%和1.65%,优于BMA Lookahead等传统算法(对比图3a);
- 速度:处理100 MB数据仅需9分18秒(单GPU),比迭代方法(iterative method)快3,200倍(图3b)。

  1. 编码效率

    • 在错误率4.47%的Nanopore数据中,TP-ECC码率超越Goldman等方案(图4a),同时支持随机访问(random access)和模块化更新。
  2. 跨数据类型验证

    • 结构化(文本/音频/图像)与非结构化(随机比特)数据重建准确率无显著差异,证明模型依赖噪声特征而非语义。

结论与价值
1. 科学价值
- 提出首个融合DNN与ECC的DNA存储端到端解决方案,突破可扩展性与准确性的传统权衡;
- 通过模拟数据训练和CPL算法,降低对昂贵真实数据的依赖,为商业化铺平道路。

  1. 应用价值
    • 实测3.1 MB数据存储,代码库与数据集开源(Zenodo/GitHub);
    • 未来可扩展至TB级,成本预计2030年降至$1/TB(DNA合成技术预测)。

研究亮点
1. 创新方法:DNAformer首次将Transformer架构应用于DNA重建,参数量仅1亿(远低于大语言模型);
2. 系统优化:从编码(对角RS码)到解码(TP-ECC)的全链路设计,冗余降低7.6%;
3. 工程贡献:开发SOLQC噪声分析工具和开源代码库(GitHub),推动领域标准化。

其他价值
- 专利技术(US 18233,855)涵盖编码架构与DNN训练方法;
- 跨学科意义:TP-ECC框架可迁移至其他同步误差信道(synchronization channels)的通信场景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com