大型语言模型作为训练数据生成器：多样性与偏差的探讨

分享自：
大型语言模型作为训练数据生成器：多样性与偏差的探讨

期刊:37th conference on neural information processing systems (neurips 2023) track on datasets and benchmarks
这篇文档属于类型a，即报告了一项原创性研究。以下是对该研究的学术报告：
主要作者及研究机构本研究的主要作者包括Yue Yu、Yuchen Zhuang、Jieyu Zhang、Yu Meng、Alexander Ratner、Ranjay Krishna、Jiaming Shen和Chao Zhang。他们分别来自Georgia Tech、University of Washington、UIUC和Google Research。该研究于2023年发表在37th Conference on Neural Information Processing Systems (NeurIPS 2023)的Datasets and Benchmarks track上。
学术背景本研究的科学领域是自然语言处理（Natural Language Processing, NLP）。随着大语言模型（Large Language Models, LLMs）在多种NLP任务中展现出卓越性能，研究者们开始探索将LLMs用作训练数据生成器，以缓解任务特定数据和标注的需求。然而，以往的研究主要依赖于简单的类条件提示（class-conditional prompts），这可能限制生成数据的多样性，并继承LLMs的系统性偏见。因此，本研究旨在通过多样化的属性提示（attributed prompts）生成训练数据，以增强生成数据的多样性和减少偏见。
研究流程本研究包括以下几个主要步骤：
数据集选择与预处理：研究者选择了四个具有高基数（high cardinality）和多样领域的数据集，包括NYT、Amazon、Reddit和StackExchange。这些数据集分别涵盖新闻、产品评论、社交媒体内容和知识共享平台的内容。每个数据集的类别数量从23到50不等，且具有较高的类别不平衡比例。
属性定义与生成：研究者通过与ChatGPT的交互，确定了每个数据集的关键属性维度（如子主题、长度、风格、地理位置等）及其对应的属性值。这些属性维度包括类独立属性和类依赖属性。研究者还开发了一个类依赖属性值过滤（Class-dependent Attribute Value Filtering, CAF）方法，以确保每个类依赖属性值仅与特定类别相关，避免歧义。
数据生成：研究者使用ChatGPT生成具有多样化属性配置的训练数据。每个数据样本的生成都基于随机组合的属性配置，并通过预定义的提示模板（prompt template）进行生成。研究者比较了使用简单类条件提示（SimPrompt）和多样化属性提示（AttrPrompt）生成的数据集。
模型训练与评估：研究者使用生成的训练数据训练了多个分类模型，并在原始训练集（Gold）和生成数据集的合并数据集上进行了评估。研究者还进行了全面的实证研究，涵盖偏见、多样性和效率等方面。
主要结果生成数据的多样性：与SimPrompt相比，AttrPrompt生成的样本在词汇多样性、样本间相似性和属性分布上表现出更高的多样性。例如，在NYT数据集中，AttrPrompt生成的新闻样本涵盖了更多的地理位置，而SimPrompt生成的新闻样本主要集中在北美。
属性偏见分析：研究者发现，使用SimPrompt生成的数据集存在显著的区域偏见，例如在NYT数据集中，68.01%的生成数据与北美相关，而非洲相关的数据仅占0.69%。相比之下，AttrPrompt生成的数据集在属性分布上更加均衡。
模型性能提升：在四个分类任务中，使用AttrPrompt生成的数据集显著优于使用SimPrompt生成的数据集。例如，在NYT数据集中，AttrPrompt的准确率和F1分数分别比SimPrompt高出6-10个百分点。此外，AttrPrompt在数据/预算效率上也表现出色，仅需SimPrompt 5%的查询成本即可达到相同或更好的性能。
多标签分类任务：研究者首次将LLMs作为训练数据生成器的范式扩展到更具挑战性的多标签分类任务，并在arXiv数据集上进行了实验。结果表明，AttrPrompt在所有评估指标上均优于SimPrompt。
结论与意义本研究通过引入多样化属性提示，显著提升了LLMs生成训练数据的多样性和质量，并减少了系统性偏见。研究结果表明，多样化属性提示在多个分类任务中均表现出色，且在数据/预算效率上具有显著优势。此外，本研究还首次将LLMs作为训练数据生成器的范式扩展到多标签分类任务，为未来的研究提供了新的方向。
研究亮点多样化属性提示：本研究提出了多样化属性提示（AttrPrompt），通过引入多个属性维度和随机组合的属性配置，显著提升了生成数据的多样性和质量。
类依赖属性值过滤：研究者开发了类依赖属性值过滤（CAF）方法，有效避免了类依赖属性值的歧义，提高了生成数据的准确性。
多标签分类任务扩展：本研究首次将LLMs作为训练数据生成器的范式扩展到多标签分类任务，为未来的研究提供了新的思路。
其他有价值的内容本研究还探讨了生成数据在不同模型大小和不同LLMs作为生成器时的兼容性，并展示了AttrPrompt在不同设置下的优越性。此外，研究者还提供了详细的数据和代码，便于其他研究者复现和扩展本研究的工作。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问