学术研究报告:基于编码理论和深度学习的可扩展、稳健DNA存储方案
作者及发表信息
本研究由Daniella Bar-Lev(以色列理工学院)、Itai Orr(以色列理工学院/Uveye Ltd.)、Omer Sabary(以色列理工学院)、Tuvi Etzion(以色列理工学院)和Eitan Yaakobi(以色列理工学院)共同完成,发表于2025年4月的《Nature Machine Intelligence》(Volume 7, Pages 639–649)。
学术背景
随着全球数据量呈指数级增长(预计2025年达180 ZB),传统磁性和光学存储技术面临密度和耐久性瓶颈。DNA存储因其超高信息密度(每克DNA可存储约215 PB数据)、长寿命(数千年)和近乎零的维护能耗成为潜在解决方案。然而,DNA存储的信息检索流程(information retrieval pipeline)存在两大挑战:
1. 可扩展性(scalability)与准确性(accuracy)的权衡:现有方法需大量计算资源处理大规模数据;
2. 噪声环境下的纠错:DNA合成(synthesis)和测序(sequencing)过程会引入插入(insertion)、删除(deletion)和替换(substitution)错误。
本研究旨在通过结合深度神经网络(DNN)、张量积纠错码(TP-ECC)和安全边际机制(safety margin),构建一个端到端的高效DNA信息检索系统。
研究流程与方法
1. 编码与合成
- 模块化编码方案:将二进制数据转换为DNA四碱基序列(A/C/G/T),采用分层设计:
- 索引编码(index encoding):确保索引间编辑距离≥3,减少聚类错误;
- 对角列编码(diagonal column encoding):基于RS码(Reed-Solomon code)冗余,对抗序列首尾的高错误率;
- 约束编码(constrained code):限制同聚物长度(homopolymer ≤4)和GC含量(45–55%),提升合成稳定性。
- 实验对象:合成3.1 MB数据(含随机比特、文本、音频和图像),分为1,000条序列的试点数据集(pilot dataset)和110,000条序列的测试数据集(test dataset),通过Twist Bioscience合成。
测序与聚类
序列重建
解码与纠错
主要结果
1. 重建性能
- 准确性:在Illumina和Nanopore数据集上,失败率(failure rate)分别为0.0055%和1.65%,优于BMA Lookahead等传统算法(对比图3a);
- 速度:处理100 MB数据仅需9分18秒(单GPU),比迭代方法(iterative method)快3,200倍(图3b)。
编码效率
跨数据类型验证
结论与价值
1. 科学价值
- 提出首个融合DNN与ECC的DNA存储端到端解决方案,突破可扩展性与准确性的传统权衡;
- 通过模拟数据训练和CPL算法,降低对昂贵真实数据的依赖,为商业化铺平道路。
研究亮点
1. 创新方法:DNAformer首次将Transformer架构应用于DNA重建,参数量仅1亿(远低于大语言模型);
2. 系统优化:从编码(对角RS码)到解码(TP-ECC)的全链路设计,冗余降低7.6%;
3. 工程贡献:开发SOLQC噪声分析工具和开源代码库(GitHub),推动领域标准化。
其他价值
- 专利技术(US 18⁄233,855)涵盖编码架构与DNN训练方法;
- 跨学科意义:TP-ECC框架可迁移至其他同步误差信道(synchronization channels)的通信场景。