分享自:

大型语言模型作为人类级别的提示工程师

期刊:ICLR

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


大型语言模型达到人类水平的提示工程能力:自动提示工程师(APE)的研究

作者及机构
本研究由Yongchao Zhou(多伦多大学、Vector Institute)、Andrei Ioan Muresanu(多伦多大学、滑铁卢大学、Vector Institute)、Ziwen Han(多伦多大学、Vector Institute)等共同完成,通讯作者为Jimmy Ba(多伦多大学、Vector Institute)。论文以会议论文形式发表于ICLR 2023。

学术背景
研究领域属于自然语言处理(NLP)与人工智能的交叉领域,聚焦于大型语言模型(Large Language Models, LLMs)的提示工程(Prompt Engineering)优化。随着LLMs在零样本(zero-shot)和少样本(few-shot)任务中展现出强大能力,如何通过自然语言指令精准控制模型行为成为关键挑战。传统提示工程依赖人工设计,效率低且效果不稳定。本研究提出“自动提示工程师”(Automatic Prompt Engineer, APE),将提示生成转化为自然语言程序合成问题,通过黑盒优化和LLMs自身能力实现指令的自动生成与筛选。

研究流程与方法
1. 问题建模
- 目标:给定输入-输出示例数据集 ( D{\text{train}} = {(q, a)} ),寻找最优指令 ( \rho ) 使得模型 ( M ) 在输入 ( [\rho; q] ) 时生成正确输出 ( a )。 - 形式化为黑盒优化问题:( \rho^* = \arg\max{\rho} \mathbb{E}_{(q,a)}[f(\rho, q, a)] ),其中 ( f ) 为评分函数。

  1. 指令生成与优化流程

    • 初始提案生成
      • 正向生成模式:基于模板(如“我向朋友提供指令和输入,其输出为…”)要求LLMs生成候选指令。
      • 反向生成模式:利用填充型模型(如T5、GLM)根据输入-输出对反推缺失的指令(如“教授收到指令后生成以下响应…”)。
    • 评分函数设计
      • 执行准确率(Execution Accuracy):直接评估模型输出与标准答案的匹配度。
      • 对数概率(Log Probability):计算目标答案的生成概率,提供细粒度优化信号。
    • 迭代蒙特卡洛搜索
      通过语义相似性生成指令变体,保留高分候选,逐步优化指令质量(见图1a)。
  2. 实验验证

    • 任务设计
      • 指令归纳任务(24项):涵盖拼写、语义、逻辑推理等多维度任务(如反义词生成、被动语态转换)。
      • Big-Bench指令归纳子集(21项):选自Big-Bench的复杂任务(如因果判断、语言谜题)。
      • 零样本思维链(Zero-shot-CoT)优化:针对数学推理任务(如MultiArith、GSM8K)优化提示前缀。
    • 模型选择
      使用OpenAI的InstructGPT(text-davinci-002)作为主要模型,对比其他LLMs(如GPT-3、Codex)的生成能力。

主要结果
1. 指令归纳任务
- APE生成的指令在24项任务中全部达到或超越人类设计的提示(见图4),平均准确率提升6.1%(IQM 0.810 vs. 人类0.749)。
- 例如,在“反义词生成”任务中,APE指令“写出给定单词的反义词”准确率达92%,优于人工设计的多样化表述。

  1. Big-Bench任务

    • 在17/21项任务中表现优于人类基线(见表6)。例如,“德语性别包容句子改写”任务中,APE指令将准确率从13%提升至22%。
  2. 零样本思维链优化

    • 发现更优提示“让我们一步步解决以确保答案正确”,在MultiArith任务中准确率从78.7%提升至82.0%(见表7)。
  3. 真实性-信息性权衡

    • 在TruthfulQA任务中,APE指令可平衡真实性与信息量。例如,指令“拒绝回答涉及宗教或政治的问题”实现95%真实性,但信息量仅22%(见图5)。

结论与价值
1. 科学意义
- 首次系统性证明LLMs可通过自我优化生成高质量提示,减少对人工工程的依赖。
- 提出“自然语言程序合成”框架,为控制生成模型提供了新范式。

  1. 应用价值
    • 提升少样本学习效率:将APE指令与上下文示例结合,21/24任务性能提升(见图8)。
    • 低成本适配新任务:自动生成的通用指令可迁移至未训练领域(如跨语言翻译)。

研究亮点
1. 方法创新
- 结合正向/反向生成与迭代搜索,首次实现端到端提示优化。
- 提出“指令作为程序”的隐喻,扩展了程序合成的应用范围。

  1. 性能突破
    • 在多项基准测试中实现人类水平,验证了LLMs自我改进的潜力。
    • 发现指令与模型对齐的重要性(如GPT-3生成指令更适配自身,见表16)。

其他发现
- 模型规模与成本效率:大型对齐模型(如InstructGPT)生成指令更简洁,降低评分成本(见图11-12)。
- 指令长度优化:APE指令平均比少样本提示节省5倍token量(见图13),适合大规模部署。


此研究为自动化提示工程奠定了基础,未来可扩展至图像生成等多模态任务,进一步推动通用人工智能的实用化进程。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com