分享自:

专有大型语言模型的对抗蒸馏:LION

期刊:2023 conference on empirical methods in natural language processing

本文档是香港科技大学(广州)及香港科技大学研究人员Yuxin Jiang, Chunkit Chan, Mingyang Chen, Wei Wang在2023年12月6-10日于《Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing》上发表的一篇原创性研究论文,题为《LION: Adversarial Distillation of Proprietary Large Language Models》。该研究属于自然语言处理与机器学习交叉领域,重点关注大型语言模型的知识蒸馏技术。

一、 研究背景与目标

随着以ChatGPT、GPT-4为代表的大规模、闭源、专有大型语言模型(Large Language Model, LLM)在遵循指令和零样本泛化方面取得巨大成功,如何将其先进能力“迁移”或“蒸馏”到更轻量、开源的模型中,已成为学术界和工业界的热点。这一方向旨在解决专有模型不透明、计算成本高、难以定制化等问题,促进技术的开放与普及。先前的研究工作,如Alpaca、Vicuna、WizardLM等,主要采用单向知识蒸馏的方式:即使用(手动或自动生成的)一系列指令(instructions),让教师模型(如ChatGPT)生成回答,然后让学生模型(开源LLM)通过指令微调(instruction tuning)来对齐教师模型的输出。

然而,这种单向模式忽略了教学过程中的关键环节——“反馈”。在一个理想的教学场景中,教师需要识别学生学习的“难点”(即学生表现不佳的指令),并针对性地提供强化训练,从而实现更高效、定制化的学习。受此启发,本文作者提出了一种创新性的对抗性知识蒸馏框架。其核心目标是:将“反馈”机制引入LLM的知识蒸馏过程,通过迭代方式识别学生模型的弱点,并动态生成具有挑战性的新指令来持续提升学生模型的性能。最终,研究者期望仅使用少量训练数据,便能使学生模型(命名为LION)在多方面能力上媲美甚至超越现有最先进的指令微调模型。

二、 研究方法与工作流程

本研究提出了一个三阶段的对抗性循环框架:模仿(Imitation)、判别(Discrimination)和生成(Generation)。整个框架将同一个强大的专有LLM(研究中为ChatGPT)赋予了三种不同的角色:教师(Teacher)裁判(Referee)生成器(Generator)。学生模型则基于开源的LLaMA模型构建。具体流程如下:

  1. 初始化

    • 学生模型(S):使用基础开源LLM(LLaMA)初始化。
    • 角色初始化:教师(T)、裁判(R)、生成器(G)均由同一个专有LLM(ChatGPT)通过不同的提示词模板(prompt templates)来扮演。
    • 数据池初始化:设置两个数据池——“训练池”(Train Pool, Xa)和“缓存池”(Cache Pool, Xb)。初始时,两者均包含来自Alpaca的52k条自动生成的指令。
  2. 模仿阶段

    • 目的:将教师模型的知识初步传递给学生模型。
    • 流程:从当前的训练池(Xa)中取出所有指令,输入给教师模型(T)以生成对应的回答,形成指令-回答对数据集。然后,以标准的自回归语言建模目标对学生模型(S)进行微调,使其输出的回答与教师模型的回答对齐。
    • 处理方法:这是传统知识蒸馏的步骤,使用监督学习进行模型参数更新。
  3. 判别阶段

    • 目的:识别学生模型表现不佳的“难点”指令。
    • 流程
      • 将缓存池(Xb)中的每一条指令同时输入给教师模型(T)和学生模型(S),得到两个回答。
      • 调用扮演裁判(R)的专有LLM,根据指令内容,对教师和学生的两个回答在帮助性、相关性、准确性和细节程度等方面进行量化评分。为了减轻LLM固有的位置偏见(positional bias),研究交换两个回答的输入顺序进行两次评分并取平均。
      • 计算每条指令对应的“难度分数”di,即教师得分与学生得分的差值。
      • 设定一个阈值τ(实验中使用1.0),将di ≥ τ的指令判别为“难点指令”(hard instructions),其余为“简单指令”(easy instructions)。
    • 新颖方法:本研究的关键创新之一在于利用LLM的通用能力作为“裁判”来评估回答质量差异,从而避免了传统对抗性知识蒸馏中需要访问教师模型权重或梯度的限制。
  4. 生成阶段

    • 目的:根据识别出的“难点指令”的分布,生成新的、同类型但更具挑战性的指令,以持续“为难”学生模型,同时保持数据多样性。
    • 流程
      • 生成新难点指令:从判别出的难点指令中随机采样,然后提示扮演生成器(G)的专有LLM,要求其生成一条与采样指令属于同一领域、同种任务类型、长度和难度水平相当的新指令。
      • 生成新简单指令(长尾分布):为防止模型遗忘已学知识并增加多样性,也从简单指令中随机采样,提示生成器(G)生成一条属于同一领域但分布更为长尾(更罕见) 的新指令。
      • 数据更新:将新生成的有效指令(通过与缓存池中现有指令计算ROUGE-L重叠度<0.7来过滤重复)以1:1的“难点:简单”比例加入系统。训练池(Xa)被新生成的指令完全替换,而缓存池(Xb)则不断累积扩充所有新生成的指令,以便在后续迭代中进行更全面的评估。
    • 新颖方法:利用LLM作为“生成器”来合成符合特定分布(难点/长尾简单)的新指令,是另一个关键创新。这模仿了传统对抗生成网络中生成器的角色,但无需训练单独的生成模型。

整个框架以迭代方式运行(研究中共进行了3轮迭代),每次迭代包含上述三个阶段。这形成了一个动态的极小极大博弈:模仿阶段,学生模型最小化其在难点样本上与教师的差距;判别和生成阶段,系统则致力于发现和创造能最大化师生差距的新难点样本。通过这种对抗性循环,学生模型的能力被高效地引导和提升。最终,经过3轮迭代,研究共使用了70k条训练数据来微调学生模型LION。

三、 主要实验结果

研究在两个主要方向评估了LION模型(包括7B和13B参数版本)的性能:开放式生成能力和推理能力,并与多个强基线模型进行了对比。

  1. 开放式生成能力评估

    • 数据集:Vicuna-Instructions(80个问题,涵盖9类任务)。
    • 评估方法:采用GPT-4作为自动评估器,比较候选模型与参考模型(ChatGPT)的回答质量。研究采用了两种设置来减少评估偏差。
    • 结果
      • LION-13B在综合评分上达到了ChatGPT能力的98.38%,显著优于当前最优的开源指令微调模型Vicuna-13B(92.61%),实现了约8个百分点的提升
      • 在分项任务上,LION-13B在通用、知识、常识和反事实等类别上表现与ChatGPT相当甚至略优,而在公认较难的数学和代码生成类别上,其相对得分远超其他基线模型(例如在数学任务上比Vicuna-13B高出至少32.32%)。
      • LION-7B也展现了超越同规模基线模型的优异性能。
  2. 推理能力评估

    • 数据集:AGIEval(8个任务,2546个英文选择题)和Big-Bench Hard(BBH,23个任务,5511个选择题)。评估均在零样本、无思维链提示下进行。
    • 结果
      • 在AGIEval上:LION-13B平均性能相比Vicuna-13B提升了16.7%,在大多数任务类别上表现更优。
      • 在BBH上:LION-13B相比Vicuna-13B实现了55.4% 的平均大幅提升。在某些具体推理任务上,如逻辑推理(Logical Deduction)、日期理解(Date Understanding)、语义消歧(Disambiguation QA)等,性能提升甚至超过100%。值得注意的是,LION-13B在少数任务(如电影推荐、识别反讽句、追踪乱序对象)上的表现超过了其教师模型ChatGPT,这证明了对抗性蒸馏框架的有效性不仅在于模仿,更在于通过针对性训练可能激发出超越教师特定方面的能力。
  3. 消融分析与动态研究

    • 阈值τ:实验发现,τ在1.0到1.5之间时模型性能最优。过低阈值无法有效区分难易指令,过高阈值则会导致识别的难点指令多样性下降。
    • 指令生成比例r:保持“难点:简单”指令1:1的生成比例能取得最佳的平均性能。全部生成难点或全部生成简单指令都会导致性能下降,证明了保持数据平衡的重要性。
    • 学习动态:随着迭代进行,LION在AGIEval和BBH上的性能持续提升,其中第一轮迭代带来的提升最为显著,这验证了识别初始难点模式的重要性。

四、 研究结论与价值

本研究的结论是,通过提出的对抗性知识蒸馏框架,能够高效地将专有大型语言模型的知识迁移至轻量级开源模型中。仅使用70k无人工标注的数据训练得到的LION-13B模型,在开放式生成任务上达到了与ChatGPT相媲美的能力,并在复杂的推理任务上显著超越了以Vicuna为代表的当前最优开源指令微调模型。

本研究的科学价值主要体现在: 1. 方法论创新:这是首次将对抗性知识蒸馏思想成功应用于大型语言模型。通过巧妙地将一个LLM实例化为三个角色(教师、裁判、生成器),构建了一个完整的对抗性学习闭环,突破了传统方法需要访问模型内部状态的限制。 2. 高效性验证:证明了通过迭代反馈和针对性数据生成,可以用远少于传统方法(如WizardLM用了250k数据)的数据量,实现更优的性能提升,为资源受限下的模型蒸馏提供了新思路。 3. 性能突破:LION模型在多个基准测试上展现出的卓越性能,特别是推理能力的大幅提升,为开源社区提供了一个强大的、接近ChatGPT水平的指令跟随模型基线。

应用价值:LION框架具有广泛的适用性,不局限于ChatGPT,可方便地适配其他专有LLM。它为企业和研究机构提供了一种可行的路径,用以开发高性能、可定制、成本可控的领域专用语言模型,同时促进了对先进AI技术机理的透明化研究。

五、 研究亮点

  1. 核心创新点:提出了首个用于大语言模型的三阶段对抗性知识蒸馏框架(模仿-判别-生成),将“反馈”机制系统性地引入蒸馏过程。
  2. 角色化提示工程:充分利用LLM的多角色适应性,通过精心设计的提示词,让同一个黑盒教师模型同时承担知识提供者、能力评估者和数据生成者三种职责,构思巧妙。
  3. 数据效率与性能:仅用70k训练数据,使得学生模型在开放生成和复杂推理任务上均达到或超越了使用更大规模数据训练的SOTA模型,体现了方法的高效性。
  4. 超越单纯模仿:实验结果显示,学生模型在部分任务上表现甚至超过了教师模型,表明该框架不仅能“模仿”,还能通过对抗性训练在某些维度上实现“超越”或“补强”。

六、 其他有价值内容

论文也坦诚地讨论了研究的局限性: 1. 模型能力限制:LION在处理复杂多轮对话和长文档方面仍有不足,其推理能力与ChatGPT相比仍有差距。 2. 训练过程成本:迭代训练需要大量调用API(约45万次),产生一定费用,且迭代速度较慢。 3. 评估方法局限:依赖GPT-4等自动评估可能存在不成熟和“幻觉”问题,建立全面、标准的评估体系仍是挑战。 4. 伦理与安全:学生模型可能继承教师模型的偏见或有害内容,且开源后存在被滥用的风险。作者建议未来可结合人类反馈强化学习(RLHF)等技术加强安全控制。

这些讨论体现了研究的严谨性,并为未来工作指明了改进方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com