Qurating：为大语言模型训练选择高质量数据

分享自：
Qurating：为大语言模型训练选择高质量数据

期刊:Proceedings of the 41st International Conference on Machine Learning
论文《Qurating: Selecting High-Quality Data for Training Language Models》研究报告
本报告旨在介绍一篇发表于第41届国际机器学习大会（ICML 2024）的原创性研究论文。该论文由来自普林斯顿大学计算机科学系及普林斯顿语言与智能中心（PLI）的研究者Alexander Wettig、Aatmik Gupta、Saumya Malik和Danqi Chen共同完成。
一、 研究背景与目标
该研究的核心领域是大语言模型的数据工程。近年来，研究者们日益认识到，训练数据的质量对于构建性能卓越的大语言模型至关重要。然而，当前的主流数据选择方法，如基于启发式规则的过滤、领域重采样（如模仿维基百科风格）或基于困惑度的筛选，都存在明显局限性：它们要么过于简单粗糙，无法捕捉人类对文本质量的细腻感知；要么依赖于对高质量领域的模糊代理（例如将整个维基百科领域等同于高质量），不够精确。
因此，本研究的目标是开发一种能够直接捕获人类对文本质量直观理解的数据选择方法。研究者希望超越简单的表面特征，从更抽象的维度来衡量文本的“质量”，并利用这些信号来高效地筛选海量预训练数据，以期在有限的计算资源下训练出能力更强的语言模型。
二、 研究方法与流程
本研究提出了一套名为“Qurating”（Quality Rating）的完整方法论和工作流程，主要包括以下关键步骤：
定义质量准则与收集成对判断：
准则选择：研究首先定义了四个主观但重要的文本质量维度作为筛选标准： 写作风格：文本是否具有优美、精炼的文笔。
事实与琐事：文本是否包含具体的事实和生僻的知识点。
教育价值：文本是否具有教育意义，例如包含清晰的解释、逐步推理或问答。
所需专业知识：理解文本内容需要多少背景知识和专业门槛。
成对比较策略：与让大型语言模型直接给单篇文本打分不同，本研究采用“成对比较”策略。研究者从大规模语料库中抽取文本对，针对每个质量准则设计专门的提示词，询问GPT-3.5-Turbo模型“哪篇文本在某一准则上表现更优”，并记录模型选择的置信度。作者通过验证实验证明，这种成对比较的方式比直接评分更为稳定和精确，能够更好地区分文本质量的细微差别。
数据规模：研究最终为每个质量准则收集了25万对文本的判断数据，总计100万对。这些文本对从SlimPajama语料库的50万份独特文档中采样得到，采样策略兼顾了全局随机和特定专业领域（如维基百科、书籍、StackExchange、GitHub、arXiv）内部。
训练Qurater评分模型：
研究者利用收集到的大量成对判断数据，训练一个名为“Qurater”的模型，其核心任务是将成对的、相对的偏好判断转化为每篇文档的绝对标量质量评分。
理论基础：这项工作在数学上类似于基于人类反馈的强化学习中奖励模型的训练，但没有用户输入作为条件。具体采用布拉德利-特里模型，通过最大似然估计来推断隐含的评分。损失函数为二元交叉熵损失。
模型实现：Qurater模型基于一个1.3B参数的Sheared-LLaMA模型进行微调，为其添加了四个独立的线性输出头，分别对应四个质量准则。实验表明，该模型在留出的判断数据上准确率超过93%。
标注大规模语料库并构建数据集：
使用训练好的Qurater模型，对一个包含2600亿令牌的SlimPajama语料库子集进行批量评分，为其中每份文档在四个质量维度上都打上分数。
由此构建了名为QuratedPajama的带质量标注的数据集，并向研究社区开源。
基于质量评分的数据选择与模型训练实验：
采样策略：研究提出一种基于softmax概率、按文档质量评分进行非重复采样的方法。具体公式为：采样概率正比于 exp(评分 / 温度参数τ)。温度参数τ用于权衡“质量”与“多样性”：τ趋近于0时，变为纯粹选取最高分的Top-K选择；τ趋近于无穷大时，退化为均匀随机采样。
实验设置：从QuratedPajama的2600亿令牌中，使用不同策略选取300亿令牌作为训练数据，从头开始训练1.3B参数的语言模型。对比的基线方法包括：均匀采样、基于领域（维基百科/书籍）的重要性重采样、基于困惑度（最高/最低）的过滤，以及使用Qurating方法在不同τ值（0， 1， 2）下按四个准则分别采样。此外，还探索了混合多个准则采样数据以及使用质量评分构建训练课程（Curriculum）的方法。
评估指标：模型训练完成后，通过以下方式进行全面评估： 困惑度：在SlimPajama的留出验证集上计算。
上下文学习能力：使用LM-Evaluation-Harness在10个多样化任务上评估，涵盖阅读理解、常识推理和世界知识。
指令遵循能力：对模型进行指令微调后，使用GPT-4来评判模型回复的优劣。
质量评分的深入分析：
研究者对生成的数亿个质量评分进行了广泛分析，包括： 分析不同领域（如维基百科、图书、GitHub）和通过无监督聚类发现的主题簇中，质量评分的分布情况。
人工检查高分和低分文档的具体内容，以定性地理解评分模型的行为。
将质量评分与基于LLaMA-2-7B的困惑度分数进行对比，分析其差异。
社会偏见审计：将数据选择流程应用于AboutMe数据集（该数据集包含网页的社会角色、主题和地理元数据），分析基于不同质量准则采样时，哪些社会、地理属性被放大或抑制，以探讨数据选择方法可能带来的代表性影响。
三、 主要研究结果
数据选择有效性：
Qurating方法显著提升模型性能：当使用温度τ=2.0进行采样时，基于“教育价值”和“事实与琐事”准则选择的训练数据，能够训练出在上下文学习任务上平均表现最优的模型。特别是基于“教育价值”准则的模型，在10个评测任务上的性能全部优于均匀采样基线，其平均性能提升相当于基线模型增加50%训练步数（即更多计算资源）才能达到的效果。这证明了Qurating在有限计算预算下提升模型能力的巨大潜力。
采样优于简单Top-K：直接选择最高分文档（Top-K， τ=0）会导致训练数据分布覆盖不全，模型验证困惑度显著变差，且在不同任务上表现不稳定（某些任务极好，某些任务极差）。而引入温度参数进行采样，在保证质量的同时维持了多样性，获得了更均衡且整体更优的性能。
传统基线方法表现不佳：在本次实验设置中，重要性重采样（模仿维基百科或书籍风格）和困惑度过滤方法，其模型性能均不如简单的均匀采样。这表明，将整个领域作为质量代理或仅凭文本的易预测性（低困惑度）来筛选，可能引入不受欢迎的偏见，无法有效提升模型的下游能力。
不同质量准则的影响：
教育价值：被证明是最有效的准则，能全面提升模型在各种任务上的能力。
写作风格：虽然能带来最低的验证困惑度，但对下游任务性能的提升微乎其微。这表明优化文本的表面流畅性（困惑度与之相关）并不直接等同于提升模型的理解和推理能力。
事实与琐事和所需专业知识：也能带来平均性能提升，尤其在阅读理解和世界知识任务上表现突出，但在常识推理任务上略有下降。
课程学习的应用：
即使不改变训练数据的总集，仅根据“所需专业知识”评分对训练样本进行排序（从易到难或从难到易），构建训练课程，也能比随机顺序训练带来平均上下文学习性能的提升。这展示了质量评分除了用于子集选择外的另一重要用途。
质量评分分析发现：
质量评分在不同领域内部也呈现广泛分布，表明简单地选择整个领域远不如根据细粒度评分进行选择精准。
质量评分与大型语言模型计算的困惑度相关性较弱（Spearman相关系数在-0.02到0.50之间），证实了Qurating捕捉的是不同于文本表面统计特征的信息。
社会偏见分析显示，基于不同准则的数据选择会系统性地放大或抑制网络数据中存在的某些社会角色、主题和地理区域。例如，“教育价值”和“所需专业知识”会放大与“研究”、“大学”相关的角色和主题，同时抑制与“时尚”、“购物”相关的内容。这强调了在应用数据选择技术时，必须意识并审视其可能带来的代表性影响。
四、 研究结论与价值
本研究成功提出并验证了Qurating这一新颖的数据选择框架。其核心结论是：利用大型语言模型进行成对比较，可以量化人类对文本质量的某些抽象直觉，并以此为依据进行高效的数据筛选。这种方法能够在不增加（甚至减少）训练数据量的情况下，显著提升所训练语言模型的能力，尤其是在资源受限的场景下具有重要应用价值。
研究的科学价值在于： 1. 为理解“什么样的数据对训练大语言模型有益”这一问题提供了新的、基于人类质量感知的实证视角。 2. 展示了成对比较在大规模自动化标注中的优越性。 3. 建立了从主观质量判断到可扩展数据选择实践的完整技术路径。
研究的应用价值在于： 1. 提供了一套降低大模型训练计算成本、提升训练效率的可行方案。 2. 开源的QuratedPajama数据集和Qurater模型，为社区进一步探索数据质量、课程学习、数据偏见等议题提供了宝贵资源。
五、 研究亮点
方法创新性：首创了“利用LLM进行成对质量比较 → 训练评分模型 → 基于评分进行概率采样”的完整数据选择范式。将主观质量判断与可扩展的算法流程相结合。
深入的实证分析：不仅验证了方法的有效性，还通过大量分析揭示了不同质量准则的特性、评分分布规律以及方法潜在的社会偏见，体现了研究的全面性和反思性。
丰富的资源贡献：公开发布了大规模的质量标注数据集、评分模型和训练好的语言模型检查点，极大促进了该领域的可复现性和后续研究。
对传统观念的挑战：研究结果明确显示，追求最低困惑度或模仿特定领域风格并不总是最佳策略，而“教育价值”这类更抽象、更贴近学习过程的质量维度反而更有效，这对当前的数据工程实践具有启示意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问