分享自:

基于机器学习的代码感知存储通道建模

期刊:2022 IEEE Information Theory Workshop (ITW)

基于机器学习的编码感知闪存信道建模研究学术报告

作者与发表信息

本研究由加州大学圣地亚哥分校(University of California, San Diego)电气与计算机工程系的Simeng Zheng和Paul H. Siegel共同完成,论文发表于2022年IEEE信息论研讨会(IEEE Information Theory Workshop, ITW)。

学术背景

研究领域:本研究属于数据存储系统与机器学习的交叉领域,聚焦于NAND闪存信道的建模与优化。随着闪存器件尺寸缩小和单元比特密度提升,单元间干扰(Inter-Cell Interference, ICI)和扰动效应加剧,导致读写错误率上升。传统方法通过约束编码(Constrained Coding)避免易错模式,但编码设计需依赖对信道特性的精确建模。

研究动机:现有统计模型(如基于循环编程/擦除(P/E)周期、ICI和保留时间的模型)未充分验证模式依赖性错误的时空特性。此前提出的生成式闪存建模(Generative Flash Modeling, GFM)虽能捕捉伪随机数据的时空特征,但无法直接适用于编码约束信道。

研究目标:提出一种基于迁移学习的编码感知GFM框架,通过预训练模型的知识迁移,减少对编码约束数据的大规模实验依赖,实现高效、精确的电压分布重构。

研究流程与方法

1. 基础模型架构:GFM

GFM采用条件VAE-GAN(Conditional VAE-GAN)架构,包含三个模块:
- 编码器(Encoder):基于变分自编码器(VAE)从实测电压(VL)生成潜变量(Z)。
- 生成器(Generator):输入编程电平(PL)、P/E周期和潜变量,重构电压阵列(ṼL)。
- 判别器(Discriminator):区分真实VL与生成ṼL。

训练与评估模式
- 训练阶段:ṼL = Generator(PL, P/E, Encoder(VL))
- 评估阶段:ṼL = Generator(PL, P/E, Z),Z采样自标准高斯分布。

2. 编码感知GFM的迁移学习框架

核心创新:通过预训练伪随机数据模型,微调编码约束数据模型。具体步骤:
1. 预训练阶段:使用大规模伪随机数据集(1.5×10⁵样本)训练GFM,学习基础信道特性。
2. 微调阶段
- 目标数据集:两种约束编码(WL方向约束SWL和2D约束S2D),各1.5×10⁴样本。
- 约束条件
- SWL禁止WL方向上的{000, 010}模式(消除707、706、607等高-低-高ICI模式)。
- S2D禁止WL和BL双向的{000, 010}模式。
- 迁移配置:共享预训练模型的全部参数(Encoder、Generator、Discriminator),学习率2×10⁻⁴,批量大小2。

3. 实验设计与评估

数据集:商用1x-nm TLC闪存芯片,P/E周期为4000、7000、10000次。
评估指标
- 电压分布(PDF)分析:通过总变差距离(Total Variation Distance, DTV)量化生成与实测分布的差异。
- 误码率(BER)分析:对比不同页(Lower/Middle/Upper)的实测与重构BER。
- 训练效率:记录达到收敛所需的迭代次数。

主要结果

1. 电压分布重构精度

  • DTV结果
    • 预训练模型微调后,SWL约束数据的DTV为0.0505~0.0696(10000 P/E周期最优),显著低于随机初始化(DTV=0.1020~0.1421)。
    • S2D约束下,预训练模型的DTV(0.0771~0.1007)优于随机初始化(0.1021~0.1408)。
  • PDF可视化:生成电压分布与实测分布高度吻合,尤其在尾部(高误码区域)表现优异(图3)。

2. 误码率(BER)优化

  • SWL约束
    • 实测BER显示,约束编码使所有页的BER下降(如4000 P/E周期下,Lower页BER降低至未约束的1/3)。
    • 预训练模型重构的BER与实测趋势一致,但Lower页在4000 P/E周期存在高估(图4左)。
  • S2D约束
    • 未预训练的GFM(i-rnd/t-pr/e-2d)重构BER严重偏离实测(>3×10⁻²),而预训练模型(i-pre/t-2d/e-2d)显著改善。

3. 训练效率提升

  • 预训练模型微调仅需7.5×10³次迭代,较随机初始化训练(6×10⁴~6.75×10⁴次)减少88%以上。

结论与价值

科学价值
1. 提出首个结合迁移学习与生成模型的闪存信道建模框架,解决了编码约束数据稀缺下的建模难题。
2. 验证了预训练知识在跨任务(伪随机→约束数据)迁移中的有效性,为存储系统的机器学习应用提供新范式。

应用价值
- 为约束编码与纠错码(ECC)的联合优化提供工具,可加速高密度闪存的编码设计。
- 通过减少实验开销(目标数据集规模仅为源数据的10%),降低工业界研发成本。

研究亮点

  1. 方法创新:首次将条件VAE-GAN与迁移学习结合用于闪存信道建模。
  2. 工程意义:在商用TLC芯片上验证了框架的实用性,电压分布与BER重构精度达业界需求。
  3. 跨领域贡献:为通信与存储系统的生成模型研究提供可扩展框架。

其他发现

  • ICI模式分析:表格I显示,双向707模式的误码率在10000 P/E周期达54.22%,是平均误码率的19.6倍,凸显约束编码的必要性。
  • 数据兼容性:框架可扩展至数据整形码(Data Shaping Codes),如概率分布优化编码(参考文献11-13)。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com