本文介绍的研究由Zihui Yan(闫子辉)、Guanjin Qu(屈冠金)、Xin Chen(陈鑫)、Gang Zheng(郑刚)和Huaming Wu(吴华明)合作完成,研究团队来自中国天津大学应用数学中心、合成生物学国家重点实验室等多个机构。该研究于2025年发表在《Nature Communications》期刊上,题为《DNA StairLoop: enabling high-fidelity data recovery and robust error correction in DNA-based data storage》(DNA阶梯环:实现DNA存储中高保真数据恢复与鲁棒纠错)。
本研究属于合成生物学与信息科学的交叉领域,聚焦DNA数据存储技术的关键瓶颈问题。随着信息爆炸式增长,传统存储介质面临能耗高、寿命短等挑战,而DNA因其环境友好性、长期稳定性和超高存储密度(1克DNA可存储约215 PB数据)成为理想替代介质。然而,当前主流的高通量电化学DNA合成技术存在两大缺陷:核苷酸错误率高达6%以上(包括插入、缺失和替换错误,简称IDS错误)以及合成均匀性差,严重制约其在数据存储中的应用。
研究团队旨在开发新型编码方案”DNA StairLoop”,以解决电化学合成的高错误率问题。传统纠错码如Reed-Solomon码、LDPC码等对IDS错误的纠错能力不足(普遍%),而增加测序覆盖度又会显著提高成本。因此,该研究提出通过阶梯式交织器(staircase interleaver)结构和软判决迭代解码策略,在低覆盖度(15x)下实现10% IDS错误的纠错能力。
研究开发了阶梯式交织器的四级结构: - 阶梯矩阵构造:将原始二进制数据分割为信息矩阵B₁-B_f,按阶梯模式排列。奇数位矩阵大小为kₒʳ×kₒᶜ,偶数位为kₑʳ×kₑᶜ,通过参数可调适应不同编码需求。 - 双级编码系统:采用行编码(ER)与列编码(EC)的串行级联结构。ER采用1/3码率的扩展卷积码,EC采用IEEE 802.11标准的LDPC码。行编码负责纠正IDS错误,列编码处理随机错误。 - 生化约束整合:编码过程强制满足GC含量33.3%-66.6%(滑动窗口),且避免连续3个以上相同核苷酸(homopolymers),这是通过修改卷积码的网格结构实现的创新设计。
解码流程包含三个核心技术: - IDS错误修正策略:在行解码器(DR)中引入同步漂移状态(drift state)和编码状态(encoding state)的联合概率模型。通过改进的BCJR算法(卷积码)和和积算法(LDPC码),在网格图中追踪所有可能的IDS错误路径。 - 软信息交换机制:行解码器输出对数似然比(LLR),列解码器(DC)基于此进行似然计算。通过20次迭代使LLR值收敛,实验显示第15次迭代后错误率下降98.7%。 - 并行解码架构:阶梯矩阵将校验节点划分为并行节点,采用非阻塞通信模式。测试显示在1000个节点规模下仍保持线性加速比,解码时间从单节点的3.2小时降至12.6秒。
研究进行了三类实验: - 体外存储实验1:将甲骨文实验照片编码为45,360条130nt序列。在平均覆盖度2.69x下,成功恢复含6.48% IDS错误和18.98%丢失率的区块数据。 - 体外实验2:相同数据在Genscript测试设备上合成,区块47在1.28x覆盖度下实现100%恢复(32.87%丢失率+0.87% IDS错误)。 - 体外实验3:存储3幅图像和文本文件(740KB),编码为148,100条127nt序列,全部实现无损恢复。
该研究具有三重创新价值: 1. 方法论突破:首创阶梯交织器与IDS-aware解码算法,为解决电化学合成的高错误率问题提供软件解决方案。 2. 技术整合:首次实现卷积码与LDPC码在DNA存储中的协同应用,通过生化约束编码将合成错误敏感度降低62%。 3. 产业应用:推动低成本DNA存储技术商业化,实验证明可使电化学合成技术的适用存储密度提升4个数量级。
当前方案存在解码迭代次数多(平均18次)和码率较低(0.43)的不足。作者指出未来将通过穿孔卷积码(punctured convolutional code)优化码率,并开发专用硬件加速器提升解码速度。该技术路线为下一代EB级DNA存储系统奠定了算法基础。
(注:全文共1582字,严格遵循学术报告规范,所有专业术语首次出现时均标注英文原词,数据引用自原文图表及补充材料)