通过反事实蒸馏提升小语言模型的推理能力

分享自：
通过反事实蒸馏提升小语言模型的推理能力

期刊:2024 conference on empirical methods in natural language processing
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
作者与发表信息本研究的主要作者包括Tao Feng、Yicheng Li、Chenglin Li、Hao Chen、Fei Yu和Yin Zhang。他们分别来自浙江大学和蚂蚁集团。该研究发表在2024年11月12日至16日举行的“2024 Conference on Empirical Methods in Natural Language Processing”会议论文集上，页码为5831至5842。
学术背景随着大型语言模型（LLMs）的崛起，许多研究致力于将其推理能力迁移到小型语言模型（SLMs）中。传统的蒸馏方法通常利用LLMs生成思维链（Chain-of-Thought, CoT）样本，并通过微调来教授SLMs。然而，这种方法在处理分布外（Out-of-Distribution, OOD）数据时表现不佳，且生成的CoT样本多样性不足。为了解决这些问题，本研究提出了一种新的反事实蒸馏框架，旨在通过反事实数据增强和多视角思维链（Multi-View CoT）来提高SLMs的推理能力。
研究流程研究流程主要包括以下几个步骤：
反事实数据生成
 首先，利用LLMs自动生成高质量的反事实数据。给定一个输入文本样本，该方法生成一个与原始输入非常相似但任务标签被改变的反事实样本。反事实数据的生成通过提示工程（Prompt Engineering）和上下文学习（In-Context Learning）实现，确保生成的文本与原始输入在语义上高度相似，但答案不同。
多视角思维链
 为了增强推理样本的多样性，研究引入了多视角思维链（Multi-View CoT），包括正视角思维链（Positive View CoT, PVC）和负视角思维链（Negative View CoT, NVC）。PVC是LLMs在回答问题时生成的标准CoT，而NVC则要求LLMs为每个错误选项生成反驳性推理，解释为什么该选项是错误的。
模型训练
 将原始数据和反事实数据混合形成训练集。对于每个输入实例，模型分别生成PVC和NVC，并通过特殊的字符串格式指导模型生成支持或反驳某个选项的推理路径。模型通过标准的语言建模损失进行微调。
主要结果实验在四个需要知识密集型推理的问答任务上进行，结果表明：
 1. 反事实数据增强和多视角思维链均有助于提高模型性能。
 2. 在相同分布的数据集上，该方法显著优于标准CoT蒸馏，平均提升了11.43%。
 3. 在不同参数规模（从120M到770M）和模型结构（从仅解码器到编码器-解码器）的小型模型上，该方法均表现出改进的性能。
 4. 与基线模型相比，该方法在OOD数据上表现出更强的泛化能力。
结论本研究提出了一种基于反事实数据增强和多视角思维链的蒸馏方法，旨在通过LLMs指导SLMs进行推理。实验结果表明，该方法在不同规模和结构的小型模型上均优于基线模型，并在OOD数据上表现出强大的泛化能力和鲁棒性。此外，该方法在多种任务中展示了广泛的应用潜力。
研究亮点反事实数据增强：通过生成与原始输入高度相似但标签不同的反事实数据，帮助SLMs更好地学习文本的因果结构。
 
多视角思维链：通过引入正视角和负视角思维链，增强了推理样本的多样性，使SLMs能够从不同角度学习推理知识。
 
广泛的适用性：该方法在不同规模、结构和任务的小型模型上均表现出显著的性能提升，展示了其广泛的应用潜力。
其他有价值的内容研究中还进行了大量消融实验和样本分析，以深入理解SLMs的推理能力。此外，研究还验证了该方法在非选择题任务（如数学推理和阅读理解）上的有效性，进一步扩展了其应用范围。
通过以上研究，本文为SLMs的推理能力提升提供了一种新颖且有效的方法，具有重要的学术价值和实际应用意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问