分享自:

什么成就了对齐的好数据?指令调优中自动数据选择的综合研究

期刊:ICLR

ICLR 2024论文《What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning》研究报告

一、 主要作者与机构及发表信息 本研究的主要作者包括:Wei Liu(上海科技大学), Weihao Zeng(北京邮电大学), Keqing He(美团), Yong Jiang(阿里巴巴集团),以及 Junxian He(香港科技大学)。该项研究工作以会议论文形式发表于2024年的国际学习表征会议(International Conference on Learning Representations, ICLR)。这表明该研究属于机器学习,特别是大语言模型对齐领域的高水平前沿工作。

二、 学术背景与研究目标 本研究所在的科学领域是大语言模型(Large Language Models, LLMs)的指令对齐(Alignment)。指令调优(Instruction Tuning)或称监督式微调(Supervised Fine-Tuning, SFT)是将预训练后的大模型与人类任务和偏好对齐的关键技术。近期研究表明,数据工程在指令调优中扮演着至关重要的角色——如果数据选择得当,仅需少量数据即可实现卓越的性能。然而,学界对于“什么构成了好的指令调优数据”以及“如何自动有效地选择数据”仍缺乏系统性的理解。

基于此背景,本研究旨在深入探索面向对齐任务的自动数据选择策略。具体目标为:第一,系统性地研究和定义“好数据”的特性,从复杂性(Complexity)、质量(Quality)和多样性(Diversity)三个维度对数据进行量化评估。第二,基于上述量化评估,提出一种简单而有效的自动数据选择策略。第三,利用该策略筛选出的数据,训练一系列高效数据指令调优对齐模型,命名为DEITA(Data-Efficient Instruction Tuning for Alignment),以实证验证所提方法的有效性,并大幅提升对齐任务的数据效率。

三、 详细研究流程与方法 本研究采用了系统性、分阶段的研究流程,包含大规模对照实验和模型训练验证。

流程一:构建研究框架与数据池 研究首先定义了数据选择问题的形式化框架:给定一个大规模指令调优数据池X(包含n个指令-响应对样本),目标是选择大小为m的子集S,通过选择策略π最大化指令调优后的模型对齐性能Q。在此框架下,研究者构建了两个具有不同特性的数据池,以模拟现实场景: 1. XSOTA:由当时最先进的开源对齐模型的训练数据集合而成,包含约30万样本。代表数据池本身质量较高、复杂且多样的理想情况。 2. XBase:由多个公开指令数据集混合而成,包含约10万样本。代表数据池整体质量较低、冗余较多的常见现实情况。

流程二:三维度数据度量的对照研究(核心实验环节) 此流程是研究的核心,旨在从三个独立维度(复杂性、质量、多样性)分别探究何种度量方式最能有效识别“好数据”。研究者采用了严格的对照实验设计:每次仅基于单一维度的某个度量指标,从数据池中选出固定预算(m=6k)的数据子集;然后,使用该子集对统一的预训练模型(Llama-1-13B)进行指令调优;最后,在MT-Bench基准上评估调优后模型的性能。性能高低直接反映了该度量指标的有效性。

(A) 复杂性视角的度量研究: 研究者系统地对比了多种现有复杂度度量基线方法,包括:随机选择、指令长度、困惑度、直接评分(Direct Scoring)、指令节点(Instruction Node)、Instag复杂性(Instag Complexity)以及IFD。同时,他们创新性地提出了 “Evol Complexity” 方法。该方法流程如下: 1. 进化与收集:从种子数据集(如Alpaca中随机抽取2k样本)出发,针对每个原始指令,使用基于ChatGPT的“深入进化提示”(如添加约束、深化、具体化、增加推理步骤等),迭代生成5个复杂度逐步提升的新指令变体,形成每个原始指令的6个不同复杂度层级变体集合。 2. 排序与评分:将同一原始指令的6个变体一次性提交给ChatGPT,要求其根据难度和复杂性进行排序和评分。这种“批量比较”的方法有助于ChatGPT捕捉变体间的细微差异,获得更精细的复杂度分数。 3. 训练评分器:利用上述在种子集上获得的ChatGPT评分数据,训练一个基于Llama-1-7B的复杂度评分模型。该模型能够为任意新指令预测其复杂度分数。

(B) 质量视角的度量研究: 类似地,研究者对比了随机选择、回答长度、直接评分等基线。并提出了对应的 “Evol Quality” 方法: 1. 进化与收集:对种子数据中的每个指令-响应对,保持指令不变,使用ChatGPT对原始回答进行进化(如提升帮助性、相关性、深度、创造性、增加细节等),生成5个质量逐步提升的回答变体。 2. 排序与评分:将同一指令下的多个回答变体提交给ChatGPT进行质量排序和评分。 3. 训练评分器:基于ChatGPT的评分,训练一个基于Llama-1-7B的质量评分模型,用于预测新指令-响应对的质量分数。

(C) 多样性视角的度量研究: 研究者探索了数据多样性对对齐的影响,并提出了一种基于嵌入表示的过滤方法 “Repr Filter” 。该方法是一种迭代选择策略:首先,根据复杂度或质量分数对数据池进行排序;然后,依次考察每个样本,仅当该样本与已选子集S中与其最相似样本的嵌入向量余弦距离大于预设阈值τ(例如0.9)时,才将其加入S。此处的嵌入向量由预训练的LLaMA-1-13B模型编码得到。该方法确保了所选样本集合内部的语义差异性。

流程三:提出综合数据选择策略并训练DEITA模型 基于流程二的发现,研究者提出了一种简单有效的综合数据选择策略——“分数优先,多样性感知”方法(Score-first, Diversity-aware Data Selection)。 1. 计算综合分数:为每个数据样本计算“Evol Score”,定义为复杂度评分(C)与质量评分(Q)的乘积(S = C * Q)。对于多轮对话,对每一轮分别计算并求和。 2. 排序与筛选:首先,根据Evol Score对整个数据池进行降序排序。然后,按照排序顺序,应用Repr Filter方法进行迭代筛选,直至达到预设的数据预算m。 该策略Algorithm 1形式化地描述,它同时兼顾了高复杂高质量(通过分数排序优先)和高多样性(通过嵌入距离过滤冗余)。

流程四:DEITA模型训练与评估 利用上述策略从XSOTA池中自动筛选出6k和10k规模的数据集,研究者以此分别训练了基于Llama-1-13B、Llama-2-13B和Mistral-7B的DEITA模型。此外,还在最优的SFT模型基础上,进一步使用Direct Preference Optimization (DPO)进行了偏好优化训练。模型在多个权威基准上进行评估,包括:衡量聊天和指令跟随能力的MT-Bench和AlpacaEval,以及衡量基础知识和推理能力的Open LLM Leaderboard(包含ARC, HellaSwag, MMLU, TruthfulQA)。

四、 主要研究结果与分析 (A) 三维度对照研究结果: * 复杂性:如表2所示,在XSOTA和XBase两个数据池上,Evol Complexity方法选出的数据训练出的模型,在MT-Bench上均取得了最佳性能(6.27和5.57),显著优于其他基线方法。这表明其复杂度度量方式最有效、最鲁棒。研究还发现,指令长度并非良好指标,而困惑度指标甚至表现远差于随机选择,因其往往对应着极短的响应。 * 质量:如表3所示,Evol Quality方法同样在两个数据池上取得了最优结果(6.19和5.67)。特别值得注意的是,在质量差异较大的XBase池上,质量筛选带来的提升更为显著,凸显了在低质量数据池中筛选高质量样本的必要性。 * 多样性:如表4所示,确保多样性的方法(Instag Diversity和Repr Filter)均显著优于随机选择。而研究者提出的Repr Filter方法在两个数据池上都取得了更好的结果,证明了基于模型嵌入的距离度量在保持数据多样性方面的有效性。

(B) 综合策略与DEITA模型性能结果: * 与其他数据选择方法比较:如表5所示,在相同Llama-1-13B基座上,使用6k数据训练的DEITA模型在MT-Bench和AlpacaEval上均大幅超越了Alpagasus、LIMA、TagLM等其他数据选择方法。 * 与最先进开源模型比较:如表6所示,DEITA模型取得了卓越的性能。具体而言: * 数据效率惊人:DEITA模型仅使用6k至10k的SFT数据,性能即可媲美甚至超越使用数十倍数据(如Vicuna用125k, WizardLM用70k)训练的开源SFT模型。 * 具体性能指标:基于Mistral-7B的DEITA-10K模型在MT-Bench上达到7.32分,成为当时同规模开源SFT模型的最佳结果。基于Llama-2-13B的DEITA模型性能超过了经过RLHF训练的官方Llama2-13B-Chat模型。 * 结合DPO的更强表现:DEITA-Mistral-7B (6k SFT + 10k DPO) 取得了7.55 MT-Bench和90.06% AlpacaEval的分数,与使用了30倍以上数据的Zephyr-beta模型相当。 * Open LLM Leaderboard结果:如表7所示,DEITA SFT模型在仅使用少量数据的情况下,在不同基座模型上的平均得分均领先于其他SFT对齐模型。经过DPO训练后,DEITA-Mistral-7B实现了平均69.86分,超越了Zephyr-beta。 * 数据缩放效应分析:如图2所示,随着数据预算m从1k增加到300k(全部数据),DEITA策略选出的数据训练出的模型性能首先快速提升,在约6k-12k处达到接近全部数据性能的峰值,之后继续增加数据反而导致性能略有下降。这一关键发现表明,即使在高质量数据池中,真正对对齐有效的“好数据”比例也是有限的,盲目增加数据量和计算量未必能提升性能,从而强有力地论证了数据选择的核心价值。 * 能力分析:图3的雷达图显示,DEITA模型(尤其是基于Mistral的版本)在MT-Bench的编码、数学、推理等高级能力子项上表现尤为突出,这解释了其为何在MT-Bench上总分高,而在偏重日常指令的AlpacaEval上优势相对不那么显著。

五、 研究结论与价值 本研究得出以下核心结论:第一,成功的指令调优数据应具备高复杂性、高质量和高多样性三个关键特征。第二,本研究提出的Evol Complexity和Evol Quality度量方法,以及Repr Filter多样性保持策略,能够有效且自动化地识别和筛选出符合上述特征的数据。第三,基于此形成的 “分数优先,多样性感知”综合选择策略,能够从大规模数据池中高效萃取出小规模的高价值数据子集。

该研究的科学价值在于,首次对指令调优数据的“好”与“坏”进行了系统性、量化的实证研究,提出了可解释、可复现的自动化数据评估与选择框架,深化了社区对对齐数据工程的理解。其应用价值极为显著:通过该方法,研究者和开发者能够以极低的数据成本(减少10倍以上)训练出性能强大的对齐模型,大幅降低了模型对齐的门槛和计算开销。研究发布的DEITA模型权重及筛选出的高质量小规模数据集,为后续的高效对齐研究提供了宝贵的工具和资源。

六、 研究亮点 1. 系统性研究框架:首次从三个正交维度(复杂性、质量、多样性)对指令调优数据进行了全面、可控的实证研究,设计严谨,结论可靠。 2. 创新的进化评分法:提出的Evol Complexity和Evol Quality方法,通过“进化生成变体 -> 批量对比评分 -> 训练预测模型”的流程,巧妙地解决了对数据进行细粒度、可扩展评分的关键难题。 3. 卓越的数据效率:实证结果极其有力,DEITA模型仅用数千数据即可达到或超越使用数十万数据训练的主流模型性能,将数据效率提升了一个数量级。 4. 关键的数据缩放发现:揭示了“更多数据未必更好”的现象,指出对齐性能存在数据饱和点甚至下降点,这挑战了“数据越多越好”的惯性思维,凸显了数据质量筛选的极端重要性。 5. 简单有效的最终方案:最终的策略(分数乘积排序 + 嵌入过滤)原理清晰、实现简单,具有良好的实用性和可推广性。

七、 其他有价值内容 本研究还包含了详细的附录,提供了训练超参数、人类评估结果(显示DEITA模型与人类评估者偏好一致)、不同阈值和句子编码方法对Repr Filter的影响分析、以及所有提示模板的完整内容,确保了研究的可复现性和透明度。人类评估结果进一步证实了自动评估的可靠性,DEITA-6K在人类评判中与使用125k数据训练的Vicuna-13B-v1.3表现相当。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com