这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
大型语言模型达到人类水平的提示工程能力:自动提示工程师(APE)的研究
作者及机构
本研究由Yongchao Zhou(多伦多大学、Vector Institute)、Andrei Ioan Muresanu(多伦多大学、滑铁卢大学、Vector Institute)、Ziwen Han(多伦多大学、Vector Institute)等共同完成,通讯作者为Jimmy Ba(多伦多大学、Vector Institute)。论文以会议论文形式发表于ICLR 2023。
学术背景
研究领域属于自然语言处理(NLP)与人工智能的交叉领域,聚焦于大型语言模型(Large Language Models, LLMs)的提示工程(Prompt Engineering)优化。随着LLMs在零样本(zero-shot)和少样本(few-shot)任务中展现出强大能力,如何通过自然语言指令精准控制模型行为成为关键挑战。传统提示工程依赖人工设计,效率低且效果不稳定。本研究提出“自动提示工程师”(Automatic Prompt Engineer, APE),将提示生成转化为自然语言程序合成问题,通过黑盒优化和LLMs自身能力实现指令的自动生成与筛选。
研究流程与方法
1. 问题建模
- 目标:给定输入-输出示例数据集 ( D{\text{train}} = {(q, a)} ),寻找最优指令 ( \rho ) 使得模型 ( M ) 在输入 ( [\rho; q] ) 时生成正确输出 ( a )。 - 形式化为黑盒优化问题:( \rho^* = \arg\max{\rho} \mathbb{E}_{(q,a)}[f(\rho, q, a)] ),其中 ( f ) 为评分函数。
指令生成与优化流程
实验验证
主要结果
1. 指令归纳任务:
- APE生成的指令在24项任务中全部达到或超越人类设计的提示(见图4),平均准确率提升6.1%(IQM 0.810 vs. 人类0.749)。
- 例如,在“反义词生成”任务中,APE指令“写出给定单词的反义词”准确率达92%,优于人工设计的多样化表述。
Big-Bench任务:
零样本思维链优化:
真实性-信息性权衡:
结论与价值
1. 科学意义:
- 首次系统性证明LLMs可通过自我优化生成高质量提示,减少对人工工程的依赖。
- 提出“自然语言程序合成”框架,为控制生成模型提供了新范式。
研究亮点
1. 方法创新:
- 结合正向/反向生成与迭代搜索,首次实现端到端提示优化。
- 提出“指令作为程序”的隐喻,扩展了程序合成的应用范围。
其他发现
- 模型规模与成本效率:大型对齐模型(如InstructGPT)生成指令更简洁,降低评分成本(见图11-12)。
- 指令长度优化:APE指令平均比少样本提示节省5倍token量(见图13),适合大规模部署。
此研究为自动化提示工程奠定了基础,未来可扩展至图像生成等多模态任务,进一步推动通用人工智能的实用化进程。