本文档介绍了一项名为 D2A2 的研究工作。D2A2 是一个用于大型语言模型(Large Language Model, LLM)知识蒸馏(Knowledge Distillation, KD)的新框架,旨在解决现有方法因忽略数据集中问题难度差异而导致的资源分配低效和训练效果欠佳的问题。该工作由来自中国科学技术大学的 He Bolei 和 Ling Zhenhua、百度公司的 He Xinran 以及清华大学的 Wang Yikun 共同完成,已发表于 Expert Systems with Applications 期刊第 311 卷(2026年)。
随着大型语言模型的广泛使用,其庞大的参数量和极高的计算成本限制了其在资源受限环境下的部署。知识蒸馏作为一种将大型教师模型(Teacher Model)的能力迁移到小型学生模型(Student Model)的技术,被视为一种有前途的解决方案。然而,现有的知识蒸馏方法,特别是在 LLM 时代,通常将专有的 LLM(如 GPT-4)引入蒸馏过程,不仅增加了成本和复杂性,还普遍存在一个关键缺陷:它们往往平等对待所有训练样本。这种“一刀切”的方式使得大量简单或冗余的样本在训练中占据主导地位,而那些对学生模型真正构成挑战的困难样本则得不到足够关注,从而降低了蒸馏的整体效率和最终性能。
与此同时,研究者们注意到 LLM 在决策时表现出的不确定性(Uncertainty)与问题本身的难度密切相关。当一个 LLM 面对潜在答案的概率分布差异很大时,它表现出较高的置信度,这通常对应一个较简单的问题;反之,当概率分布相似时,模型会表现出较高的不确定性,这标志着一个更具挑战性的问题。这种模型感知的难度(可能与人类感知不同)为优化蒸馏过程提供了关键洞见。此外,模型在训练过程中对问题难度的感知是动态变化的,初期困难的问题随着模型知识的增长可能变得容易。
基于以上背景,本研究的目标是提出一个高效且通用的 LLM 蒸馏框架,将问题难度感知整合到蒸馏流程中,通过优先处理和聚焦于对学生模型而言困难的样本,以更少的数据和计算资源实现更优的学生模型性能。该框架被命名为 D2A2,即“难度感知与自适应蒸馏”(Difficulty-aware and Adaptive Distillation)。
D2A2 框架遵循经典的两阶段知识蒸馏范式,但在两个核心阶段进行了创新:难度感知数据过滤(Difficulty-aware Data Filtering)和难度自适应训练(Difficulty-adaptive Training)。其整体工作流程概括为:首先,基于学生模型自身的不确定性评估并筛选出最困难的训练样本子集;然后,在这个筛选后的子集上,根据学生模型在训练时的实时表现动态调整损失函数中不同样本的权重,将训练资源聚焦于持续构成挑战的问题。
第一阶段:难度感知数据过滤
此阶段的目标是在不使用教师模型(黑盒设定)的情况下,从原始训练数据集中筛选出对学生模型最具挑战性的样本子集。具体步骤如下: 1. 多响应生成:使用初始的学生模型为数据集中的每个问题生成 N 个答案。这 N 个答案是通过采样得到的,代表了模型在给定问题下可能的输出分布。 2. 语义表征:使用一个预训练的语言模型编码器(如 DeBERTa-large)将上述生成的每个答案映射为高维向量(嵌入)。这些嵌入捕捉了答案的语义信息,使得语义相似但表面形式不同的答案能够被聚合。 3. 计算内在难度分数:对每个问题,将其 N 个答案的嵌入进行无监督聚类(如使用 DBSCAN 算法)。聚类的目的是识别出语义上不同的回答类别。然后,基于这些语义簇计算内在难度分数。其计算基于信息熵(Entropy)的思想:如果模型对于一个问题的答案集中在少数几个语义簇中(低熵),说明模型对该问题比较确定,问题相对容易;反之,如果答案分散在许多不同的语义簇中(高熵),则表明模型决策不确定性高,问题对学生而言更具挑战性。分数越高,代表问题越难。 4. Top-K 问题选择:根据计算出的 IDS 对所有问题进行降序排序,并选择排名前 k%(例如 50%)的问题构成筛选后的训练子集。这样,后续的蒸馏训练将仅使用这个更小但更具信息量的困难样本子集。
第二阶段:难度自适应训练
此阶段的目标是在使用筛选后数据子集进行标准蒸馏训练的同时,根据学生模型当前的学习状态动态调整对不同样本的关注度。具体步骤如下: 1. 标准蒸馏损失计算:对于从筛选子集中采样的一个问题,获取教师模型(如通过 API 调用的 GPT-4)的答案作为标签,计算学生模型输出的标准知识蒸馏损失。 2. 令牌级难度估计:在训练过程中,为每个问题实时计算一个简化的难度分数。由于在每次训练迭代中生成多个答案并聚类成本过高,D2A2 采用了一种基于模型生成单个答案时每个令牌(Token)的概率分布的近似方法。具体而言,计算模型生成整个答案序列时,每个预测位置的条件概率的对数概率的期望值的负数,并进行归一化处理。这个分数反映了模型在逐词生成答案时的平均不确定性,作为 IDS 在训练时的轻量级替代。 3. 动态损失加权:利用计算出的令牌级难度分数,动态地调整该样本在损失函数中的权重。最终的损失函数是标准蒸馏损失乘以一个加权因子 (1 + α * 归一化令牌级难度分数),其中 α 是一个控制难度影响强度的超参数。这意味着,对于当前模型仍然觉得困难(不确定性高)的问题,其损失权重会被放大,从而在参数更新时获得更大的梯度影响;而对于模型已经掌握(不确定性低)的问题,其权重则相对较小。 4. 模型参数更新:使用上述加权后的损失函数来优化学生模型的参数。
通过这两个阶段的结合,D2A2 实现了从“数据选择”到“训练过程”的全流程难度感知与自适应,确保有限的计算资源被精准地投入到最能提升学生模型能力的困难学习任务上。
研究团队在多个公开数据集(包括 SciQ、ANLI、SVAMP、CQA)和不同的学生模型(如 Llama2-7B/13B、ChatGLM3-6B、Qwen1.5⁄2.5 系列)上进行了广泛的实验,以 GPT-4 作为教师模型,验证 D2A2 的有效性、效率和通用性。
1. 整体性能优势 实验结果表明,D2A2 在使用更少数据的情况下,性能 consistently 优于包括标准任务特定蒸馏(STSD)、SeqKD、Cherry-LLM、LION、Distilling Step-by-Step (DSS)、MCC-KD 和 TA-in-the-loop 在内的多种先进基线方法。例如,在 ANLI 数据集上,D2A2 仅使用 10% 的数据就能达到 66.71% 的 pass@10 准确率,超过了其他方法使用 50% 甚至 100% 数据所能达到的水平。在使用 20% 数据时,其性能已与许多基线方法使用全量数据时的性能相当。当使用 50% 的筛选数据时,D2A2 在多数数据集上取得了最佳性能,甚至超过了使用 100% 未筛选数据的效果。这证明了“少而精”的数据策略的有效性。
2. 计算效率与成本优势 D2A2 在计算成本和资源使用上也表现出高效性。其预处理阶段仅需一次性的学生模型前向计算来评估 IDS,避免了像 LION、DSS 等方法那样需要反复调用昂贵教师模型 API 来生成对抗性指令或详细原理。在训练阶段,由于使用了 50% 的筛选数据,训练时间显著缩短。分析显示,在 CQA 数据集上,D2A2 的总体训练时间低于大多数基线方法,且 API 调用成本为零(过滤阶段仅使用学生模型)。这使其在预算有限的场景下更具吸引力。
3. 各组件贡献的消融研究 通过消融实验验证了 D2A2 两个核心组件的必要性。实验设置了四个对比条件:基线 STSD(无过滤无自适应)、仅使用难度自适应训练(无过滤)、仅使用难度感知过滤(无自适应)、完整的 D2A2。结果显示,每个单独组件都能带来性能提升,但两者结合时达到最佳性能。例如在 SVAMP 数据集上,完整 D2A2 的准确率为 67.5%,而基线为 63.5%,仅自适应训练为 65.5%,仅数据过滤为 65.5%。这表明过滤确保了数据质量,而自适应训练确保了模型能最优地利用这些数据,二者协同作用。
4. 难度评估的有效性验证 研究还验证了 D2A2 提出的内在难度分数与基于人工标注的“黄金答案通过率”之间的相关性。通过计算两种排序(按 IDS 降序 vs. 按通过率升序)在 Top-K 样本上的重叠率和 NDCG 指标,发现两者具有良好的一致性。这支持了 IDS 作为可靠难度指标的论点。
5. 跨难度水平的泛化能力 为了检验 D2A2 策略是否偏废,研究者将测试集按黄金答案通过率分为“简单”和“困难”两个子集。实验发现,使用 D2A2 筛选出的“困难”训练子集(前 50%)进行训练,不仅在困难测试子集上表现优异(64.89%),在简单测试子集上也保持了良好性能(79.01%),与使用全部数据训练的结果(64.24% 和 78.24%)相当甚至更好。而仅使用“简单”训练子集训练,则在两个测试子集上表现都较差。这证明了聚焦困难样本并不会损害模型对简单问题的解决能力,反而能带来更均衡和强大的泛化性能。
6. 超参数敏感性分析 对控制难度加权强度的超参数 α 进行了网格搜索。实验发现,在多个数据集上,α = 0.5 时通常能取得最佳或接近最佳的性能。性能在 α 值附近变化相对平缓,表明方法对 α 的选择并不极端敏感,增强了其实用性。
本研究提出并验证了 D2A2,一个新颖的、学生中心(Student-centric)的、黑盒 LLM 知识蒸馏框架。其核心贡献在于将模型决策的不确定性作为问题难度的代理,并将此感知系统地融入蒸馏的数据筛选和训练优化两个阶段。
科学价值:D2A2 为知识蒸馏领域,特别是面向黑盒大模型的蒸馏,提供了一个新的优化视角。它强调了“以学定教”的理念,即根据学生模型当前的学习状态(通过不确定性体现)来动态调整教学(训练)的重点和资源分配。这项工作将课程学习(Curriculum Learning)和困难样本挖掘(Hard Example Mining)的思想巧妙地与 LLM 的知识蒸馏相结合,并发展出一套基于语义不确定性的定量评估与动态调整方法。
应用价值:该框架具有显著的实用价值。首先,它能够用更少的数据实现与甚至超越全数据训练的模型性能,大大降低了数据收集和处理的成本。其次,其训练过程更高效,减少了计算时间和资源消耗。第三,它不依赖教师模型的内部状态或多次 API 调用,适用于更广泛的商业黑盒 API 场景。最后,其通用性在多种不同架构和规模的 LLM 上得到了验证,显示出良好的推广潜力。
D2A2 框架为推动高效、低成本的大型语言模型知识蒸馏技术发展提供了一个有理论依据且经实验证明有效的强大工具。