分享自:

大型语言模型可以通过工具交互式自我修正

期刊:iclr 2024

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的学术报告:


CRITIC框架:基于工具交互式批判的大语言模型自我修正能力研究

一、作者及发表信息
本研究由Zhibin Gou(清华大学)、Zhihong Shao(清华大学)、Yeyun Gong(Microsoft Research Asia)、Yelong Shen(Microsoft Azure AI)、Yujiu Yang(清华大学†)、Nan Du(Microsoft Research Asia)和Weizhu Chen(Microsoft Azure AI)共同完成,发表于ICLR 2024会议。

二、学术背景
科学领域:自然语言处理(NLP)与大语言模型(LLM)的可靠性优化。
研究动机:尽管LLM(如ChatGPT)在多项任务中表现优异,但其存在“幻觉”(hallucination,即生成不真实内容)、代码错误或毒性内容等问题,限制了实际应用。传统方法(如强化学习或额外训练)依赖大规模人工标注,成本高昂。
目标:提出无需额外训练的通用框架CRITIC,通过工具交互实现LLM的自我验证与修正,模拟人类利用外部工具(如搜索引擎、代码解释器)的批判性思维过程。

三、研究流程与方法
1. 框架设计
- 核心思想:CRITIC包含“验证-修正”迭代循环(见图1):
- 验证阶段:LLM生成初始输出后,调用外部工具(如Google搜索、Python解释器)评估输出的真实性、逻辑性或安全性,生成结构化批判(critiques)。
- 修正阶段:LLM基于批判内容修正输出,循环直至满足停止条件(如批判通过或达到最大迭代次数)。
- 算法实现(Algorithm 1):采用上下文学习(in-context learning)与思维链(chain-of-thought)提示,支持黑盒模型(如ChatGPT、LLaMA-2)的即插即用。

  1. 实验设计

    • 任务与数据集
      • 开放域问答(Free-form QA):测试真实性,使用AmbignQ(500样本)、TriviaQA、HotpotQA数据集。
      • 数学程序合成(Program Synthesis):测试代码正确性,使用GSM8K、SVAMP、TabMWP数据集。
      • 毒性降低(Toxicity Reduction):测试安全性,使用RealToxicityPrompts的1k非毒性提示。
    • 基线方法:包括Chain-of-Thought(CoT)、Self-Consistency、ReAct及监督学习SOTA模型。
    • 评估指标:EM(精确匹配)、F1、毒性概率(Perspective API)、代码执行准确率等。
  2. 工具集成

    • 搜索工具:Google API抓取Top-1网页并提取400字符摘要。
    • 代码解释器:执行Python程序并返回错误或结果。
    • 毒性检测:Perspective API提供细粒度毒性评分。

四、主要结果
1. 开放域问答
- CRITIC显著提升模型性能(ChatGPT +7.7 F1)。例如,在HotpotQA上,CRITIC的EM比CoT提高6.6%(40.3 vs. 33.7)。
- 关键发现:仅依赖LLM自我批判(无工具)时性能提升有限(+2.33 F1),甚至劣于初始结果,证实外部反馈的必要性。

  1. 数学程序合成

    • LLaMA-2-70B + CRITIC在TabMWP上准确率提升16%(75.0 vs. 59.0)。
    • 失败分析:LLM自我验证不可靠,如无执行反馈时,Text-Davinci-003准确率下降1.8%。
  2. 毒性降低

    • CRITIC将ChatGPT的毒性概率降低79.2%(0.173 vs. 0.325),媲美监督方法(如Quark)。
    • 局限性:过度修正可能导致文本多样性下降(Dist-3从0.76降至0.77)。

五、结论与价值
1. 科学价值
- 揭示了LLM自我验证的不可靠性,提出工具交互是提升可靠性的关键路径。
- 首次统一了多任务(问答、代码、安全)的自我修正框架,推动LLM“白盒化”研究。
2. 应用价值
- 为LLM部署提供低成本优化方案,无需额外训练或数据标注。
- 开源代码(GitHub)及工具API促进工业界落地。

六、研究亮点
1. 方法创新
- 首创“验证-修正”迭代框架,结合工具交互与上下文学习,突破传统微调范式。
- 设计多任务批判模板(如“合理性”与“真实性”评估),增强可解释性。
2. 实证发现
- 证明外部反馈对LLM持续改进的不可替代性(如搜索证据纠正幻觉)。
- 发现模型规模与CRITIC效益正相关(LLaMA-2-70B增益显著高于7B)。

七、其他贡献
- 错误分析(附录E):定性展示修正案例,如纠正“2016年俄罗斯花滑亚军”错误答案(原输出为Bukin,修正后为Katsalapov)。
- 迭代效应(图3-5):2-3轮修正即可获得大部分收益,平衡效率与效果。


这篇报告综合了原文的实验细节与理论贡献,为研究者提供了CRITIC框架的全面解读。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com