33.基于未标记数据从大语言模型中进行高效知识蒸馏

分享自：
33.基于未标记数据从大语言模型中进行高效知识蒸馏

期刊:findings of the association for computational linguistics: naacl 2025
关于论文《Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data》的学术报告
作者、机构与发表信息 本文的主要作者包括来自Michigan State University的Juanhui Li和Jiliang Tang，来自Amazon.com的Sreyashi Nag, Hui Liu, Xianfeng Tang, Sheikh Sarwar, Limeng Cui, Hansu Gu, Qi He，以及来自Penn State University的Suhang Wang。研究已收录于计算语言学领域顶级会议NAACL（North American Chapter of the Association for Computational Linguistics）2025年的会议论文集*Findings of the Association for Computational Linguistics: NAACL 2025*，会议将于2025年4月29日至5月4日举行。
研究背景 本研究隶属于自然语言处理（NLP）领域，具体聚焦于知识蒸馏（Knowledge Distillation）技术。研究的现实背景是：大型语言模型（LLMs， Large Language Models）虽然在大规模数据集上训练后展现出强大的语言理解和任务解决能力，但其庞大的参数量导致了高计算成本、高内存需求和推理延迟，这使得它们在许多实际应用场景，尤其是需要进一步针对特定任务进行微调（Fine-tuning）的场合下，部署成本高昂。因此，参数量更少、计算效率更高的小型模型通常是实际部署的优选。
然而，训练一个性能优异的小型模型面临一个关键瓶颈：标注数据稀缺且获取成本高昂。与此相对，无标注数据在现实世界中往往更容易大量获取。一个自然而然的思路是，利用强大的LLM为无标注数据生成伪标签（Pseudo-labels），然后用这些伪标签数据来训练小型模型（学生模型），使其能够从LLM（教师模型）那里学习知识，同时保持较低的计算开销。这个过程本质上是一种知识蒸馏。
但是，这种思路存在显著挑战：LLM生成的伪标签可能包含噪声（错误或不准确的标签）。直接使用所有伪标签数据进行训练，可能会因噪声而导致学生模型性能下降。因此，如何从大量伪标签数据中选择高质量且信息丰富的样本进行训练，成为一个关键问题。这不仅能提升模型性能，也能提高数据利用效率（Data Efficiency），即用更少的数据达到更好的效果。尽管已有一些研究关注知识蒸馏中的数据选择，但它们大多依赖有真实标签的数据集，或者未能同时有效应对伪标签噪声和学生模型动态学习状态的问题。本研究旨在解决这些局限。
本研究的目标是提出一种高效的知识蒸馏方法，使其能够：1）利用LLM和无标注数据进行学习；2）减少所需的计算资源和训练数据量；3）通过创新的数据选择策略，提升学生模型的最终性能和训练的数据效率。
研究方法与流程 本研究提出了一种名为LLKD（Learning with Less for Knowledge Distillation）的自适应样本选择方法。其核心思想是：在每个训练步骤中，综合考虑教师模型（LLM）的置信度（Confidence）和学生模型的不确定性（Uncertainty），动态地选择对训练最有益的样本。其工作流程主要包含以下几个步骤：
1. 构建基础设置与数据准备： 研究使用了五个来自不同领域的文本分类数据集：医学论文摘要数据集PubMed-RCT-20k、问答社区数据集Yahoo! Answers、情感分类数据集Emotions、学术论文摘要数据集arXiv-10和职业预测数据集BiosBias。这些数据集被划分为训练集、验证集和测试集。其中，训练集被视为无标注数据（即学生模型训练时不使用其真实标签），仅用于生成伪标签；验证集用于模型选择和超参数调整；测试集用于最终性能评估。
2. 教师模型生成伪标签与置信度： 研究选用LLaMA（一个开源大型语言模型）作为教师模型。为了使其执行文本分类任务，研究者构建了特定的提示模板（Prompt Template）。该模板包含系统指令、从验证集中选取的少量示例（Few-shot Examples）、待分类的输入文本以及输出标签的格式。通过将无标注训练样本输入此模板，教师模型会生成一个预测标签（伪标签）以及一个对应的置信度分数。置信度定义为教师模型预测概率分布中最大值，即模型对其预测的最大确信程度。这个过程是静态的，教师模型在整个训练过程中保持不变。
3. 学生模型初始化与不确定性度量： 学生模型选用RoBERTa（一个较小的预训练语言模型）。为了提升小模型在分类任务上的表现，研究者采用了提示学习（Prompt Learning）框架，即将分类任务重构为掩码语言建模（Masked Language Modeling）任务。例如，构造提示模板“[输入文本]. It was [MASK].”，然后通过预测[MASK]位置对应的词（由标签映射器 Verbalizer 映射到具体标签词汇）来得到分类概率分布。学生模型的不确定性通过计算该概率分布的熵（Entropy）来衡量。熵值越高，表示学生模型对该样本的预测越不确定，说明该样本对当前学生模型而言是“困难”或“信息丰富”的样本，需要更多学习。
4. 核心：LLKD动态数据选择算法： 这是本研究提出的核心创新方法。其目标是在每个训练批次（Batch）中，筛选出同时满足两个条件的样本：教师置信度高（伪标签质量可靠）和学生不确定度高（样本对学生当前具有挑战性）。为此，研究者设计了两个自适应的阈值：τ_t^t(y)（基于教师置信度的阈值）和τ_s^t(y)（基于学生不确定度的阈值）。这两个阈值并非固定值，而是随着训练步数t和类别y动态变化的。 * 阈值计算：阈值的设计灵感来源于FreeMatch方法（源自半监督学习的图像领域）。每个阈值都包含一个全局分量（反映整个模型在所有类别上的平均学习状态）和一个局部分量（反映模型在每个具体类别上的学习状态）。通过指数移动平均（EMA）来平滑地更新这些分量，使其能适应训练进程。最终的阈值是全局和局部分量的加权组合（通过超参数β控制）。 * 样本选择：在每个训练步骤，对于一个批次中的每个样本，计算其教师置信度c_i和学生不确定度u_t(x_i)。只有同时满足 c_i ≥ τ_t^t(y_pl) 和 u_t(x_i) ≥ τ_s^t(y_pl) 的样本（y_pl为该样本的伪标签类别）才会被选中参与当前步骤的梯度计算和模型更新。未被选中的样本的损失将被置零。 * 损失函数加权（可选增强版LLKD_w）：为了进一步利用置信度和不确定度信息，研究者还对被选中样本的损失函数进行了加权。权重由该样本的教师置信度和学生不确定度在经过批次内归一化后相加得到，使得教师更确信且学生更困惑的样本在训练中获得更高的权重。
5. 模型训练与评估： 学生模型（RoBERTa）使用标准交叉熵损失函数，但仅对LLKD算法选出的样本（及其可能的加权版本）计算损失并进行反向传播优化。模型在训练集上迭代多个轮次（Epochs），并在验证集上监控性能以选择最佳模型。最终，在测试集上使用准确率（Accuracy）和宏平均F1分数（Macro-F1）两个指标评估分类性能。同时，研究还统计了整个训练过程中实际被选用的训练样本总数，以此衡量数据效率。
主要实验结果 1. 分类性能对比： 在五个数据集上的综合实验表明，LLKD（及其加权版本LLKD_w）的性能显著且一致地超越了所有基线方法。 * 主要基线对比：基线包括无数据选择（no_ds）、随机选择（random）、半监督阈值方法（FreeMatch, SoftMatch）、传统知识蒸馏数据选择方法（CCKD系列， UniK等）以及基于相似度的无监督方法（Lbl2Transforme）。 * 关键数据：例如，在PubMed-RCT-20k数据集上，LLKD_w在F1分数上取得了66.17%，相比最佳基线（Entropy Score的62.53%）有5.82% 的显著相对提升。在所有数据集和指标上，LLKD方法的平均排名远高于其他方法（排名1.4，第二名为4.2）。 * 重要观察：a) 直接使用教师模型（即使是少样本提示）进行预测的性能，普遍低于所有使用学生模型并利用伪标签进行微调的方法，这证实了学生模型通过知识蒸馏可以超越教师模型在特定任务上的直接表现。b) 相似度匹配的无监督方法性能最差，凸显了利用LLM进行知识迁移的有效性。
2. 消融实验（Ablation Study）： 为了验证LLKD各组成部分的必要性，研究者进行了消融实验： * w/o tc：仅使用学生不确定度阈值选择样本。 * w/o su：仅使用教师置信度阈值选择样本。 * w/o tc+su：不使用任何数据选择（即no_ds）。 实验结果显示，完整的LLKD模型在所有数据集上均优于所有消融版本。特别是，w/o tc+su（无选择）的性能最差，这直接证明了数据选择策略对于提升模型性能至关重要。同时，w/o tc和w/o su的性能差异也表明，同时考虑教师置信度（标签质量）和学生不确定度（样本信息量）比单独使用任何一个信号都更有效。
3. 数据效率分析： LLKD在实现高性能的同时，展现了极高的数据效率。研究者统计了各方法在整个训练过程中实际参与训练的样本总数及其占原始训练样本总数的百分比。 * 关键数据：在PubMed-RCT-20k数据集上，LLKD仅使用了3.7% 的训练样本（19,828个），就取得了前述的最佳性能。在其他数据集上，LLKD通常使用不到25%的训练数据。相比之下，其他基线方法（如FreeMatch、CCKD_t+reg、Entropy Score）通常需要使用50%-90%的训练数据。 * 结论：这强有力地证明了LLKD能够精准地筛选出对训练最有价值的小部分数据，从而大幅减少训练所需的数据量，实现了“以更少数据学习”（Learning with Less）的核心目标。
4. 阈值有效性验证： 研究者通过分析被阈值选中的样本的“质量”，验证了所提阈值的有效性。 * 教师置信度阈值：计算被 τ_t^t(y) 选中的样本，其伪标签与真实标签（仅用于分析）的准确率（教师准确率）。结果显示，被选中的样本其教师准确率显著高于未选中或随机选择的样本，证明该阈值确实筛选出了伪标签质量更高的样本。 * 学生不确定度阈值：计算被 τ_s^t(y) 选中的样本，其学生模型预测与伪标签的准确率（学生准确率）。结果显示，被选中的样本其学生准确率显著更低，证明这些样本对学生模型当前而言确实是预测困难、容易出错的“挑战性”样本。 这两项分析共同验证了LLKD数据选择逻辑的正确性。
5. 鲁棒性与扩展性实验： * 教师模型无关性：当将教师模型从LLaMA替换为Gemma（另一个强大的开源LLM）时，LLKD在arXiv-10数据集上依然取得了最佳性能，表明该方法对教师模型的选择具有鲁棒性。 * 小规模真实标签对比：研究者尝试仅使用少量（数百个）真实标注数据进行训练，结果远差于LLKD利用大量无标注数据所达到的性能，这强调了在标注数据稀缺时利用无标注数据和LLM进行知识蒸馏的重要性。 * 参数敏感性分析：对控制阈值动量（λ）和全局/局部权重（β）的关键超参数进行分析，结果显示LLKD在较宽的超参数范围内表现稳健，且同时考虑全局和局部信息（β1=β2=1）通常能获得最佳性能。
研究结论与价值 本研究提出并验证了LLKD，一种面向从大型语言模型到小型模型知识蒸馏的高效、自适应的数据选择方法。其核心贡献在于： 1. 提出了一种创新的联合选择策略：首次在无标注数据知识蒸馏的框架下，系统地联合利用教师模型的置信度（评估伪标签可靠性）和学生模型的不确定性（评估样本信息量），并设计了动态自适应阈值来实现这一选择。 2. 显著提升了性能与数据效率：通过大量实验证明，LLKD能够在多个文本分类任务上取得最先进的性能，同时将实际所需的训练数据量减少一个数量级（例如从100%减少到3.7%），极大地提升了数据利用效率。 3. 提供了深入的机理分析：通过详尽的消融实验、阈值有效性验证和参数分析，清晰地阐明了LLKD各个组成部分的作用及其协同效应，为方法提供了坚实的理论支持和解释。
研究的科学价值在于，它为解决知识蒸馏中因伪标签噪声和数据效率低下而导致的性能瓶颈问题，提供了一个新颖且有效的解决方案。它将半监督学习中动态阈值的思想成功迁移并改进，应用于LLM驱动的无监督知识蒸馏场景。
研究的应用价值非常显著：它使得资源受限的开发者或组织能够更经济、更高效地利用强大的LLM来培育高性能的小型专用模型，降低了AI模型在实际产品中部署的门槛和成本，对于推动大模型技术落地具有积极意义。
研究亮点 1. 问题定义精准：紧扣实际部署中“大模型成本高、小模型缺数据”的核心矛盾，并聚焦于“伪标签噪声”和“数据效率”两个关键挑战。 2. 方法设计新颖且有效：提出的“高教师置信度 + 高学生不确定度”的双重筛选标准，逻辑清晰直观；设计的动态自适应阈值机制，能够精细地跟随训练过程进行样本选择。 3. 实验全面且令人信服：在多个不同领域的数据集上进行了广泛验证，性能提升显著；对数据效率的定量分析极具说服力；消融实验、机理分析等做得非常扎实，充分支撑了结论。 4. 具有实用性与泛化性：方法不依赖于特定教师模型，对超参数相对鲁棒，易于复现和集成到现有训练流程中。
其他有价值内容 论文在附录中提供了丰富的细节，包括：使用的具体提示模板示例、各数据集的详细统计信息和许可协议、更多关于教师置信度/学生不确定度与预测准确性关系的可视化图表、完整的基线方法描述和实现细节、以及关于使用极少量真实标签数据的补充实验结果。这些内容增强了研究的可复现性和深度。同时，作者也客观地指出了本研究的局限性：目前实验仅限于文本分类任务，尚未扩展到生成式任务；由于资源限制，未对不同规模的LLM教师模型进行系统性研究。这些为未来的工作指明了方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问