分享自:

LESS:为目标指令调优选择有影响力的数据

期刊:Proceedings of the 41st International Conference on Machine Learning, Vienna, Austria. PMLR 235, 2024

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


LESS:面向目标指令调优的高影响力数据选择算法

1. 作者与发表信息

本研究由Mengzhou Xia(普林斯顿大学Princeton Language and Intelligence, PLI)、Sadhika Malladi(普林斯顿大学)、Suchin Gururangan(华盛顿大学)、Sanjeev Arora(普林斯顿大学)和Danqi Chen(普林斯顿大学)合作完成,发表于2024年国际机器学习会议(ICML)的会议论文集。

2. 学术背景

科学领域:本研究属于自然语言处理(NLP)与大规模语言模型(Large Language Models, LLMs)优化领域,聚焦于指令调优(instruction tuning)的高效数据选择方法。

研究动机
- 问题背景:指令调优通过混合数据集训练通用聊天机器人,但实际应用常需特定能力(如推理)。现有方法难以从海量数据中筛选与目标能力最相关的子集。
- 核心挑战:传统数据选择依赖表面特征(如语言或主题),而忽略数据对目标任务的真实影响;此外,LLMs的Adam优化器、变长指令数据和高维梯度计算进一步增加了复杂性。
- 研究目标:提出LESS算法,通过低秩梯度相似性搜索,高效选择对目标能力最具影响力的指令调优数据,并验证其跨模型、跨任务的泛化性。

3. 研究流程与方法

3.1 核心流程

LESS算法分为四个关键步骤:
1. 预热训练(Warmup Training)
- 对象与样本量:随机选取5%的候选数据集(约270k条指令数据中的13.5k条)。
- 方法:使用LoRA(Low-Rank Adaptation)对预训练模型(如LLaMA-2-7B)进行轻量级微调,存储每轮训练后的模型参数。
- 创新点:通过LoRA减少可训练参数(仅占原模型的1.95%),显著降低计算成本。

  1. 梯度特征计算与存储

    • 数据处理:对全部候选数据计算低维梯度特征(通过随机投影降至8192维)。
    • 技术细节
      • 使用Adam优化器的梯度更新量γ(含动量与方差信息),而非传统SGD梯度。
      • 通过余弦相似度(而非点积)消除序列长度对梯度范数的偏差。
  2. 数据选择

    • 验证集匹配:基于少量目标任务示例(如MMLU的5-shot样本),计算其梯度与候选数据的相似性,选择TOP 5%数据。
    • 多任务支持:若验证集含多个子任务(如TyDiQA的9种语言),取各子任务相似性的最大值作为最终评分。
  3. 模型训练与评估

    • 目标模型训练:在选定数据上微调不同规模的模型(如LLaMA-2-13B、Mistral-7B),评估其在MMLU、TyDiQA和BBH等基准的表现。
3.2 关键技术
  • Adam兼容性:首次将梯度影响力公式(Pruthi et al., 2020)适配至Adam优化器,解决LLMs调优的实践需求。
  • 高效低维投影:结合LoRA与随机投影(Johnson-Lindenstrauss引理),将梯度特征维度从亿级降至8192维,存储成本仅17.7GB。

4. 主要结果

4.1 性能对比
  • 5%数据 vs 全数据:在Mistral-7B上,LESS选出的5%数据训练模型在MMLU(61.8 vs 60.4)、TyDiQA(60.3 vs 57.7)和BBH(56.0 vs 53.0)均超越全数据训练。
  • 跨模型迁移性:使用LLaMA-2-7B选择的训练数据,对LLaMA-2-13B和Mistral-7B仍有效(如TyDiQA上57.5 vs 54.3)。
4.2 基线对比

LESS显著优于传统方法(表3):
- BM25(基于词频):仅依赖表面语言匹配,性能接近随机选择。
- RDS(基于表征相似性):因忽略梯度信息,效果最差(BBH仅36.7)。

4.3 定性分析

LESS能识别推理逻辑相似的数据(如为TyDiQA选择开放域问答样本),而基线方法偏向语言或主题匹配(如选择同语言但无关任务的数据)。

5. 结论与价值

  • 科学价值
    • 提出首个面向Adam优化器的数据影响力理论框架,为LLMs数据选择提供理论基础。
    • 证明低维梯度特征可高效捕捉数据与目标任务的深层关联。
  • 应用价值
    • 仅需5%数据即可超越全数据训练,大幅降低计算成本。
    • 支持“小模型选数据,大模型训练”的实用范式,推动LLMs定制化发展。

6. 研究亮点

  • 方法创新:结合LoRA、随机投影与余弦相似度,解决Adam优化器与变长指令的适配难题。
  • 跨模型泛化:数据选择能力可迁移至不同规模与架构的模型(如LLaMA→Mistral)。
  • 可解释性:LESS的选择逻辑与人类对“技能相关性”的认知一致,超越表面特征。

7. 其他价值

  • 开源资源:作者公开了代码与数据(Princeton-NLP/LESS),助力后续研究。
  • 潜在方向:LESS框架可扩展至测试时自适应(test-time adaptation)或毒性控制等场景。

此报告完整呈现了LESS算法的设计逻辑、实验验证与学术贡献,为NLP研究者提供了高效数据选择的新范式。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com