DNA存储中的GC平衡极化码:一种纠正插入、删除和替换错误的创新方案
作者及机构
本研究由Rui Zhang(南开大学陈省身数学研究所)与Huaming Wu(天津大学应用数学中心)共同完成,通讯作者为Huaming Wu。论文于2025年5月22日被*Briefings in Bioinformatics*接收,最终发表于该期刊第26卷第3期,文章编号bbaf278,由牛津大学出版社出版。
学术背景
随着信息技术的发展,全球数据存储需求已远超现有容量。脱氧核糖核酸(DNA, Deoxyribonucleic Acid)因其高密度、长寿命和低能耗的特性,被视为下一代数据存储的潜在载体。然而,DNA合成与测序过程中产生的插入(insertion)、删除(deletion)和替换(substitution)错误(统称为IDS错误)严重影响了存储可靠性。此外,DNA序列中鸟嘌呤(G)与胞嘧啶(C)的平衡(GC-balance)对分子稳定性至关重要。
传统极化码(Polar Code)虽在二进制离散无记忆信道(B-DMC, Binary-Input Discrete Memoryless Channel)中表现优异,但无法直接应用于具有记忆特性的DNA存储信道。为此,本研究提出了一种新型GC平衡极化码方案——DNA-BP码(Balanced Polar Code for DNA Storage),旨在解决IDS错误并满足GC平衡约束。
研究流程与方法
1. 编码设计
- 极化码改进:基于Arikan的极化码框架,引入GC平衡约束。通过牺牲少量信息位(log n),将码字不平衡度控制在O(n)范围内,符合DNA存储的物理稳定性需求。
- 双序列处理:将DNA核苷酸序列σ通过双射函数映射为二进制序列x,并拆分为偶索引序列eσ和奇索引序列oσ,分别进行极化编码(图2)。
- 复杂度优化:编码算法的时间复杂度为O(n log n),优于传统方案。
解码算法
实验验证
主要结果
1. 错误纠正能力:DNA-BP码在相同IDS错误概率下,误码率较未编码DNA降低60%-70%(图9-10)。例如,当n=2^14、pi=pd=10^-2时,BER仅为10^-4量级。
2. 计算效率:编码与解码复杂度均为O(n log n),优于Xue等人基于Varshamov-Tenengolts码的方案(图11c)。
3. GC平衡性:长码字(n=4096)的GC含量分布更集中(48.5%-51.5%),满足合成与测序的稳定性需求(图8)。
结论与价值
1. 科学价值:首次将极化码成功适配于DNA存储信道,提出可理论证明的GC平衡与IDS纠错统一框架。
2. 应用价值:为大规模DNA存储系统提供了低复杂度、高可靠性的编码方案。实验表明,该方案在合成成本(0.05-0.10美元/碱基)与解码吞吐量(1 GB/小时)间取得平衡,适合未来酶促合成技术(>1 kb写入长度)的集成。
研究亮点
1. 创新编码设计:DNA-BP码通过双序列极化编码与动态漂移修正,同时解决IDS错误与GC平衡问题。
2. 理论突破:证明IDS信道的极化现象(图4),并推导出O(n log n)复杂度的编解码算法(定理2-3)。
3. 实验验证全面:通过1000次随机实验的统计检验(图7),确认码长增加对BER改善的显著性(p<0.001)。
其他发现
- 与现有方案的对比:DNA-BP码在BER、GC平衡性和计算复杂度三项指标上均优于Xue等人的系统码(图11d)。
- 未来方向:需进一步研究同聚物(Homopolymer)约束及IDS信道的对称容量理论。
本研究为DNA存储从实验室走向产业化提供了关键编码技术支持,其开源代码已发布于GitHub(https://github.com/nessajzhang/dna-bp-code.git)。