作者与机构
该综述由新加坡国立大学的 Ruonan Yu、Songhua Liu 和 Xinchao Wang(通讯作者)共同撰写,并投稿至 IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI)。
研究背景
深度学习(Deep Learning, DL)近年来在计算机视觉、自然语言处理和语音识别等领域取得了突破性进展,但其成功很大程度上依赖于大规模数据集的训练。然而,海量数据的存储、传输以及训练过程消耗巨大计算资源,且涉及隐私保护问题。为解决这些问题,数据集蒸馏(Dataset Distillation, DD)(又称数据集压缩(Dataset Condensation, DC))应运而生。该技术的目标是从原始大规模数据集中学习生成一个极小的合成数据集(Synthetic Dataset),使得基于此合成数据集训练的模型性能与基于原始数据集训练的模型性能相当。
综述主要内容
该综述系统地总结了数据集蒸馏的研究进展,并提出了一个统一的算法框架,对现有方法进行分类,并探讨其理论关联。此外,综述还通过实验分析当前挑战,并展望未来研究方向。
在分类任务中,给定原始数据集 $\mathcal{T} = (\mathbf{X}^t, \mathbf{y}^t)$,其中 $\mathbf{X}^t \in \mathbb{R}^{N \times d}$ 表示 $N$ 个样本,$\mathbf{y}^t$ 为对应标签;蒸馏的目标是学习一个合成数据集 $\mathcal{S} = (\mathbf{X}^s, \mathbf{y}^s)$,其中 $\mathbf{X}^s \in \mathbb{R}^{M \times d}$($M \ll N$),使得基于 $\mathcal{S}$ 训练的模型在原始测试集上的性能接近基于 $\mathcal{T}$ 训练所得模型。
现有的DD方法通常遵循算法1的通用框架:
1. 初始化 $\mathcal{S}$ —— 可以是随机初始化、从原始数据采样或基于Core-set方法(如K中心算法)选择代表性样本。
2. 迭代优化 —— 通过交替训练神经网络 $\theta$ 和更新 $\mathcal{S}$:
- 网络更新:$\theta$ 可以从随机初始化或缓存的历史状态加载,并使用 $\mathcal{S}$ 或 $\mathcal{T}$ 进行若干步训练。
- 合成数据更新:基于目标函数 $\mathcal{L}(\mathcal{S}, \mathcal{T})$ 优化 $\mathcal{S}$。
现有方法可按优化目标分为三类:
目标:使基于 $\mathcal{S}$ 训练的模型在原始验证集上表现良好。其代表性方法包括:
- 元学习(Meta-Learning):如Wang等人(2018)提出的双层优化(Bi-Level Optimization),内层用 $\mathcal{S}$ 训练模型,外层优化 $\mathcal{S}$ 使模型在 $\mathcal{T}$ 上损失最小。
- 核岭回归(Kernel Ridge Regression, KRR):如KIP(Nguyen等,2021)利用神经正切核(NTK)逼近神经网络训练,避免昂贵的内层循环。
目标:使基于 $\mathcal{S}$ 和 $\mathcal{T}$ 训练的模型参数接近,具体分为:
- 单步梯度匹配(Gradient Matching):如DC(Zhao等,2021)直接匹配两类数据计算的梯度。
- 多步轨迹匹配(Training Trajectory Matching):如MTT(Cazenavette等,2022)对齐多步训练后的参数。
目标:使 $\mathcal{S}$ 和 $\mathcal{T}$ 的样本分布一致。如DM(Zhao等,2023)通过随机网络提取特征,并用最大均值差异(MMD)衡量分布距离。
综述在MNIST、CIFAR-10/100等数据集上对比了典型方法(DD、DC、DSA、DM、MTT、FrePo):
- 性能:FrePo在多数任务中表现最优,MTT次之。
- 跨架构泛化性:DM和FrePo对网络结构变化鲁棒性较强。
- 计算成本:DD和MTT因需展开计算图而内存消耗大;DM效率最高。
意义与亮点
该综述首次系统梳理了DD领域,提出统一框架并揭示不同方法间的理论联系。其亮点包括:
1. 全面性:涵盖优化目标、参数化技术及应用场景。
2. 实验分析:跨数据集、跨架构的定量对比。
3. 前瞻性:指出现有局限并规划未来路径,为后续研究提供重要参考。