大型语言模型作为人类级别的提示工程师

分享自：
大型语言模型作为人类级别的提示工程师

期刊:ICLR
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
大型语言模型达到人类水平的提示工程能力：自动提示工程师（APE）的研究
作者及机构
 本研究由Yongchao Zhou（多伦多大学、Vector Institute）、Andrei Ioan Muresanu（多伦多大学、滑铁卢大学、Vector Institute）、Ziwen Han（多伦多大学、Vector Institute）等共同完成，通讯作者为Jimmy Ba（多伦多大学、Vector Institute）。论文以会议论文形式发表于ICLR 2023。
学术背景
 研究领域属于自然语言处理（NLP）与人工智能的交叉领域，聚焦于大型语言模型（Large Language Models, LLMs）的提示工程（Prompt Engineering）优化。随着LLMs在零样本（zero-shot）和少样本（few-shot）任务中展现出强大能力，如何通过自然语言指令精准控制模型行为成为关键挑战。传统提示工程依赖人工设计，效率低且效果不稳定。本研究提出“自动提示工程师”（Automatic Prompt Engineer, APE），将提示生成转化为自然语言程序合成问题，通过黑盒优化和LLMs自身能力实现指令的自动生成与筛选。
研究流程与方法
 1. 问题建模
 - 目标：给定输入-输出示例数据集 ( D{\text{train}} = {(q, a)} )，寻找最优指令 ( \rho ) 使得模型 ( M ) 在输入 ( [\rho; q] ) 时生成正确输出 ( a )。 - 形式化为黑盒优化问题：( \rho^* = \arg\max{\rho} \mathbb{E}_{(q,a)}[f(\rho, q, a)] )，其中 ( f ) 为评分函数。
指令生成与优化流程
初始提案生成：
 正向生成模式：基于模板（如“我向朋友提供指令和输入，其输出为…”）要求LLMs生成候选指令。
 
反向生成模式：利用填充型模型（如T5、GLM）根据输入-输出对反推缺失的指令（如“教授收到指令后生成以下响应…”）。
 
评分函数设计：
 执行准确率（Execution Accuracy）：直接评估模型输出与标准答案的匹配度。
 
对数概率（Log Probability）：计算目标答案的生成概率，提供细粒度优化信号。
 
迭代蒙特卡洛搜索：
 通过语义相似性生成指令变体，保留高分候选，逐步优化指令质量（见图1a）。
 
实验验证
任务设计：
 指令归纳任务（24项）：涵盖拼写、语义、逻辑推理等多维度任务（如反义词生成、被动语态转换）。
 
Big-Bench指令归纳子集（21项）：选自Big-Bench的复杂任务（如因果判断、语言谜题）。
 
零样本思维链（Zero-shot-CoT）优化：针对数学推理任务（如MultiArith、GSM8K）优化提示前缀。
 
模型选择：
 使用OpenAI的InstructGPT（text-davinci-002）作为主要模型，对比其他LLMs（如GPT-3、Codex）的生成能力。
 
主要结果
 1. 指令归纳任务：
 - APE生成的指令在24项任务中全部达到或超越人类设计的提示（见图4），平均准确率提升6.1%（IQM 0.810 vs. 人类0.749）。
 - 例如，在“反义词生成”任务中，APE指令“写出给定单词的反义词”准确率达92%，优于人工设计的多样化表述。
Big-Bench任务：
在17/21项任务中表现优于人类基线（见表6）。例如，“德语性别包容句子改写”任务中，APE指令将准确率从13%提升至22%。
 
零样本思维链优化：
发现更优提示“让我们一步步解决以确保答案正确”，在MultiArith任务中准确率从78.7%提升至82.0%（见表7）。
 
真实性-信息性权衡：
在TruthfulQA任务中，APE指令可平衡真实性与信息量。例如，指令“拒绝回答涉及宗教或政治的问题”实现95%真实性，但信息量仅22%（见图5）。
 
结论与价值
 1. 科学意义：
 - 首次系统性证明LLMs可通过自我优化生成高质量提示，减少对人工工程的依赖。
 - 提出“自然语言程序合成”框架，为控制生成模型提供了新范式。
应用价值：
 提升少样本学习效率：将APE指令与上下文示例结合，21/24任务性能提升（见图8）。
 
低成本适配新任务：自动生成的通用指令可迁移至未训练领域（如跨语言翻译）。
 
研究亮点
 1. 方法创新：
 - 结合正向/反向生成与迭代搜索，首次实现端到端提示优化。
 - 提出“指令作为程序”的隐喻，扩展了程序合成的应用范围。
性能突破：
 在多项基准测试中实现人类水平，验证了LLMs自我改进的潜力。
 
发现指令与模型对齐的重要性（如GPT-3生成指令更适配自身，见表16）。
 
其他发现
 - 模型规模与成本效率：大型对齐模型（如InstructGPT）生成指令更简洁，降低评分成本（见图11-12）。
 - 指令长度优化：APE指令平均比少样本提示节省5倍token量（见图13），适合大规模部署。
此研究为自动化提示工程奠定了基础，未来可扩展至图像生成等多模态任务，进一步推动通用人工智能的实用化进程。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问