本研究由加州大学圣地亚哥分校(University of California, San Diego)电气与计算机工程系的Simeng Zheng和Paul H. Siegel共同完成,论文发表于2022年IEEE信息论研讨会(IEEE Information Theory Workshop, ITW)。
研究领域:本研究属于数据存储系统与机器学习的交叉领域,聚焦于NAND闪存信道的建模与优化。随着闪存器件尺寸缩小和单元比特密度提升,单元间干扰(Inter-Cell Interference, ICI)和扰动效应加剧,导致读写错误率上升。传统方法通过约束编码(Constrained Coding)避免易错模式,但编码设计需依赖对信道特性的精确建模。
研究动机:现有统计模型(如基于循环编程/擦除(P/E)周期、ICI和保留时间的模型)未充分验证模式依赖性错误的时空特性。此前提出的生成式闪存建模(Generative Flash Modeling, GFM)虽能捕捉伪随机数据的时空特征,但无法直接适用于编码约束信道。
研究目标:提出一种基于迁移学习的编码感知GFM框架,通过预训练模型的知识迁移,减少对编码约束数据的大规模实验依赖,实现高效、精确的电压分布重构。
GFM采用条件VAE-GAN(Conditional VAE-GAN)架构,包含三个模块:
- 编码器(Encoder):基于变分自编码器(VAE)从实测电压(VL)生成潜变量(Z)。
- 生成器(Generator):输入编程电平(PL)、P/E周期和潜变量,重构电压阵列(ṼL)。
- 判别器(Discriminator):区分真实VL与生成ṼL。
训练与评估模式:
- 训练阶段:ṼL = Generator(PL, P/E, Encoder(VL))
- 评估阶段:ṼL = Generator(PL, P/E, Z),Z采样自标准高斯分布。
核心创新:通过预训练伪随机数据模型,微调编码约束数据模型。具体步骤:
1. 预训练阶段:使用大规模伪随机数据集(1.5×10⁵样本)训练GFM,学习基础信道特性。
2. 微调阶段:
- 目标数据集:两种约束编码(WL方向约束SWL和2D约束S2D),各1.5×10⁴样本。
- 约束条件:
- SWL禁止WL方向上的{000, 010}模式(消除707、706、607等高-低-高ICI模式)。
- S2D禁止WL和BL双向的{000, 010}模式。
- 迁移配置:共享预训练模型的全部参数(Encoder、Generator、Discriminator),学习率2×10⁻⁴,批量大小2。
数据集:商用1x-nm TLC闪存芯片,P/E周期为4000、7000、10000次。
评估指标:
- 电压分布(PDF)分析:通过总变差距离(Total Variation Distance, DTV)量化生成与实测分布的差异。
- 误码率(BER)分析:对比不同页(Lower/Middle/Upper)的实测与重构BER。
- 训练效率:记录达到收敛所需的迭代次数。
科学价值:
1. 提出首个结合迁移学习与生成模型的闪存信道建模框架,解决了编码约束数据稀缺下的建模难题。
2. 验证了预训练知识在跨任务(伪随机→约束数据)迁移中的有效性,为存储系统的机器学习应用提供新范式。
应用价值:
- 为约束编码与纠错码(ECC)的联合优化提供工具,可加速高密度闪存的编码设计。
- 通过减少实验开销(目标数据集规模仅为源数据的10%),降低工业界研发成本。