这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:
本研究由Noah Shinn(东北大学)、Federico Cassano(东北大学)、Ashwin Gopinath(麻省理工学院)、Karthik Narasimhan(普林斯顿大学)和Shunyu Yao(普林斯顿大学)合作完成,发表于第37届NeurIPS会议(2023年)。
研究领域:本研究属于自然语言处理(NLP)与强化学习(Reinforcement Learning, RL)的交叉领域,聚焦于语言智能体(Language Agents)的优化问题。
研究动机:尽管大语言模型(Large Language Models, LLMs)已被广泛用于与环境交互的智能体构建(如游戏、API调用等),但其通过试错学习的能力仍受限于传统强化学习方法的不足——需大量训练样本和高昂的模型微调成本。
研究目标:提出Reflexion框架,通过语言反馈(verbal feedback)而非权重更新来强化语言智能体,使其能够像人类一样通过反思经验快速改进决策。
Reflexion由三个核心模块组成:
- Actor(行动者):基于LLM生成文本和动作(如API调用)。
- Evaluator(评估者):对Actor的输出进行评分(如二进制成功/失败信号或自然语言反馈)。
- Self-Reflection(自我反思):将稀疏奖励信号转化为可操作的文本反馈,存储于情景记忆缓冲区(episodic memory buffer),供后续任务参考。
研究在以下三类任务中验证Reflexion的效果:
- 序列决策(AlfWorld):134个多步家庭环境任务(如寻找隐藏物品)。
- 编程(HumanEval、MBPP、LeetCodeHardGym):生成Python和Rust代码,通过自生成单元测试验证。
- 语言推理(HotpotQA):基于维基百科的多跳问答任务。
数据支持:
- 表1显示Reflexion在多项基准测试中的SOTA结果(如LeetCodeHardGym的15% pass@1,较GPT-4的7.5%翻倍)。
- 图3展示AlfWorld中Reflexion通过反思快速收敛,而基线模型因无法回溯错误而停滞。
此研究为语言智能体的高效学习开辟了新路径,其框架设计及实证结果对NLP与RL领域均具有深远意义。