自洽性提升语言模型中的思维链推理

分享自：
自洽性提升语言模型中的思维链推理

期刊:ICLR 2023
学术报告：自洽性提升语言模型思维链推理能力的研究作者及发表信息本研究报告由Xuezhi Wang†‡、Jason Wei†、Dale Schuurmans†、Quoc Le†、Ed H. Chi†、Sharan Narang†、Aakanksha Chowdhery†和Denny Zhou†§共同完成，作者团队主要来自Google Research的Brain Team。该研究以《Self-Consistency Improves Chain of Thought Reasoning in Language Models》为题，作为会议论文发表于ICLR 2023。
学术背景本研究属于自然语言处理（NLP）与人工智能领域，聚焦于提升大型语言模型在复杂推理任务中的表现。近年来，尽管预训练语言模型在各类NLP任务中取得了显著成功，但其推理能力仍被视为主要瓶颈。Wei等人（2022）提出的思维链（Chain-of-Thought，CoT）提示方法通过让语言模型生成类似人类推理过程的中间步骤，显著提升了多步推理任务的性能。然而，传统的贪婪解码（greedy decoding）策略限制了模型潜力的充分发挥。
本研究的核心目标是开发一种新的解码策略——自洽性（Self-Consistency），以取代CoT提示中使用的贪婪解码。研究基于一个关键直觉：复杂的推理问题通常允许多种不同的思考路径通向唯一正确答案。通过利用这一特性，研究团队希望进一步提升语言模型在算术和常识推理任务中的表现。
研究方法与流程1. 自洽性方法设计自洽性方法包含三个主要步骤： 1) 使用CoT提示语言模型 2) 通过从语言模型解码器中采样生成多样化的推理路径集合，取代单一贪婪解码 3) 通过边缘化（marginalizing out）采样的推理路径，从最终答案集合中选择最一致的答案
该方法的核心创新在于”采样-边缘化”解码过程。研究假设正确的推理过程即使多样化，其最终答案的一致性也会高于错误过程。具体而言，给定提示和问题，研究引入了一个潜在变量ri表示第i个输出中的推理路径，将(ri,ai)的生成耦合起来，其中ri→ai。
2. 实验设计研究在多个推理基准上进行了广泛实验评估：
任务与数据集： - 算术推理：GSM8K、SVAMP、AQUA、MultiArith等数学应用题数据集 - 常识推理：CommonsenseQA、StrategyQA、ARC挑战赛 - 符号推理：字母连接、硬币翻转等任务
语言模型： 研究评估了四种不同规模的基于Transformer的语言模型： 1) 公开模型UL2-20B（200亿参数） 2) GPT-3-175B（1750亿参数） 3) LaMDA-137B（1370亿参数） 4) PaLM-540B（5400亿参数）
实验设置： - 采用少样本（few-shot）设置，不对语言模型进行训练或微调 - 使用与Wei等人（2022）相同的提示模板 - 采样策略：对UL2-20B和LaMDA-137B使用温度采样（t=0.5）和top-k截断（k=40）；对PaLM-540B使用t=0.7，k=40；对GPT-3使用t=0.7无top-k截断
3. 对比方法研究将自洽性与多种现有方法进行比较： 1) 样本排序（Sample-and-Rank） 2) 束搜索（Beam Search） 3) 基于集成的方法： - 提示顺序排列集成 - 多组提示集成 4) 贪婪解码的CoT提示（基线方法）
主要研究结果1. 性能提升自洽性在所有四个语言模型上均显著提升了CoT提示的性能： - 算术推理任务：在GSM8K上绝对准确率提升达+17.9%，SVAMP +11.0%，AQUA +12.2% - 常识推理任务：StrategyQA +6.4%，ARC挑战赛 +3.9% - 当与PaLM-540B或GPT-3结合使用时，自洽性在算术推理任务上达到了新的最先进水平
2. 方法比较自洽性显著优于样本排序方法（图3）
自洽性在相同路径数量下明显优于束搜索解码（表6）
相比提示顺序排列和多组提示集成等集成方法，自洽性提升幅度更大（表7）
3. 鲁棒性分析对采样策略和参数具有鲁棒性（图4左）
在不同规模的模型上均能提升性能（图4右）
能够提高对不完美提示的鲁棒性（表8）
适用于非自然语言推理路径和零样本CoT设置
4. 结果分析表1展示了不同答案聚合策略在PaLM-540B上的准确性比较。研究发现： - 直接对ai进行多数投票（”未加权求和”）与使用”归一化加权求和”聚合的结果非常相似 - “归一化”加权求和比非归一化版本准确率高得多 - “加权平均”方法表现最差
结论与价值本研究提出了一种简单而有效的自洽性方法，通过利用多样化推理路径的一致性来显著提升语言模型在复杂推理任务中的表现。该方法具有以下重要价值：
科学价值：
揭示了语言模型在多样化推理路径中表现出的自洽性特征
证明了引入推理过程多样性对提升最终答案准确性的重要性
为理解大型语言模型的推理机制提供了新视角
应用价值：
无需额外训练、微调或人工标注即可显著提升模型性能
适用于各种规模的预训练语言模型
可广泛应用于算术、常识和符号推理任务
为语言模型提供了不确定性估计能力
方法论创新：
提出”采样-边缘化”解码新范式
开发了基于一致性的答案聚合策略
实现了在单一语言模型上的”自集成”效果
研究亮点重要发现：
正确推理过程在最终答案上表现出更高一致性
模型规模越大，自洽性带来的增益越显著
一致性程度与模型准确性高度相关（图5）
方法新颖性：
首个将开放式生成多样性应用于固定答案推理任务的方法
完全无监督，无需额外组件或训练
兼容多种现有采样算法
研究对象的特殊性：
覆盖从200亿到5400亿参数的不同规模语言模型
在算术、常识和符号推理等多样化任务上验证方法有效性
包含对模型规模、采样策略、提示质量等多维度分析
其他有价值内容研究还发现了一些有价值的额外发现： 1. 自洽性能够修复CoT提示可能损害性能的情况（表5） 2. 语言模型生成的规范化条件概率p(ri,ai|prompt,question)彼此接近，说明模型认为这些生成为”相似可能” 3. 语言模型的校准性不佳，难以区分正确解和错误解 4. 自洽性可用于收集语言模型执行推理任务时的理论依据 5. 低一致性可作为模型对其生成解决方案低置信度的指标
局限性与未来方向研究者也指出了该方法的局限性： 1. 计算成本增加（实践中可使用较少路径如5或10条来平衡） 2. 仅适用于最终答案来自固定集合的问题 3. 语言模型有时会生成不正确或无意义的推理路径
未来工作可探索： 1. 使用自洽性生成更好的监督数据来微调模型 2. 将方法扩展到开放文本生成问题 3. 改进模型理论依据生成的真实性 4. 开发更好的指标来衡量多代之间的一致性
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问