利用混合思维表示的大型语言模型级联以实现成本高效推理

分享自：
利用混合思维表示的大型语言模型级联以实现成本高效推理

期刊:ICLR
本文属于类型a：报告一项原创性研究的学术论文。以下是根据要求撰写的学术报告。
关于大型语言模型级联与混合思维表示用于高效成本推理的研究报告
一、 作者、机构及发表信息
本研究由Murong Yue (乔治梅森大学)， Jie Zhao (微软)， Min Zhang (弗吉尼亚理工大学)， Liang Du (微软) 和 Ziyu Yao (乔治梅森大学) 共同完成。该研究以会议论文的形式发表于ICLR 2024，论文标题为“Large Language Model Cascades with Mixture of Thought Representations for Cost-efficient Reasoning”。
二、 学术背景与研究目标
本研究属于自然语言处理（NLP）与人工智能领域，具体聚焦于大型语言模型（LLMs）的高效应用与推理任务优化。
研究背景：以GPT-4为代表的大型语言模型在各类推理任务（如数学、符号、因果推理）上展现出卓越性能。然而，这些高性能模型通常通过付费API服务提供，使用成本高昂。例如，GPT-4的输出令牌成本是GPT-3.5-turbo的30倍。因此，如何在保持任务性能的同时，显著降低使用LLMs的经济成本，成为一个重要的实际问题。
先前工作与动机：现有研究（如Chen et al., 2023a）提出了“LLM级联”的概念，即先使用较弱的廉价LLM回答问题，若其答案不可靠，则再调用更强的昂贵LLM。其核心挑战在于如何设计一个高效的“级联决策器”来准确判断何时需要路由到强模型。先前方法通常基于问题及其弱模型答案的文本描述来训练一个外部验证器（Verifier），但作者发现，对于复杂的推理任务，仅凭文本描述来评估答案正确性或问题难度极具挑战性，因为推理过程中的错误可能非常微妙。
研究目标：本研究旨在构建一个高效、无需训练的LLM级联系统，以节约推理任务中的LLM使用成本。其核心创新在于提出基于弱模型自身“答案一致性”的决策机制，并首次探索了结合不同思维表示（如链式思维和程序化思维）来增强这种一致性判断的可靠性。
三、 研究流程与方法细节
本研究的工作流程主要包括三个核心部分：1）基于弱LLM的答案采样；2）基于一致性的级联决策；3）必要时调用强LLM。研究在六个推理基准数据集上进行了系统性评估。
1. 研究对象与实验设置： * 研究模型：选定GPT-3.5-turbo作为“弱LLM”，GPT-4作为“强LLM”。在附加研究中，也探讨了以LLaMA-2-13B作为弱LLM的情况。 * 评估数据集：覆盖三类推理任务，共六个数据集： * 数学推理：GSM8K (小学水平数学题)， ASDiv， TabMWP (表格数学题)。 * 符号推理 (来自Big-Bench Hard)：Date (日期推理)， Navigate (导航指令)。 * 因果推理：Crepe。 * 基准方法：为了对比，设置了多个基线，包括单独使用弱LLM（GPT-3.5-CoT-SC， GPT-3.5-PoT-SC）、单独使用强LLM的不同方式（GPT-4-CoT-Greedy， GPT-4-PoT-Greedy， GPT-4-CoT-SC， GPT-4-PoT-SC），以及基于外部验证器的级联方法（Finetuned-Q, Finetuned-QA, LLM-Q, LLM-QA）。 * 核心参数：默认使用8样本（8-shot）上下文学习，弱模型采样路径数k=20，强模型k=3，采样温度t=0.4。
2. 核心方法：LLM级联与基于一致性的决策 研究提出的LLM级联流程如图1所示：对于一个查询问题，首先由弱LLM生成初始答案；然后，级联决策器根据弱LLM输出的元数据（主要是多次采样的答案）决定是否接受该答案；若拒绝，则调用强LLM生成最终答案。总成本取决于弱、强LLM的调用成本以及决策过程成本。
创新点在于决策器的设计。本研究摒弃了训练外部文本验证器的思路，转而利用弱LLM自身的“答案一致性”作为问题难度的信号。其假设是：对于简单问题，弱LLM在多次采样中倾向于给出一致的答案；对于难题，其答案则不一致。因此，高一致性意味着弱LLM“有信心”，其答案很可能正确，无需调用强LLM。
3. 答案采样与一致性检查的具体方法： 为了获取“答案一致性”，研究提出了多种答案采样策略和两种一致性检查方法，共衍生出10种具体实现方案（见图2）。
答案采样来源：
同分布采样：使用相同的提示（Prompt），通过设置非零温度，从弱LLM中采样多个答案。
不同上下文示例采样：使用相同思维表示（如CoT），但采用两套不同的任务演示（Demonstration）示例集来构建提示，分别采样。
不同思维表示采样：本研究提出的核心创新——混合思维表示。即从两种不同的思维表示提示中采样答案：链式思维（Chain-of-Thought, CoT）和程序化思维（Program-of-Thought, PoT）。这模拟了专家从不同视角审视同一问题，能提供更丰富的意见多样性。
一致性检查方法：
基于投票的决策：计算所有采样答案与多数投票得出的答案之间的一致率（公式2）。设定一个置信度阈值τ，当一致率s ≥ τ时，接受弱LLM的答案，否则拒绝并路由至强LLM。该方法适用于有预设成本约束的场景，可通过调整τ来平衡成本与精度。
基于验证的决策：当从两个不同提示（如两套演示集或两种思维表示）采样时，分别计算每个提示下采样答案的多数投票结果，然后检查这两个多数投票答案是否一致（公式3）。仅当两者一致时才接受弱LLM的答案。该方法无需调参，但灵活性较低。
具体实现方案：结合采样来源和检查方法，形成了6种投票方案（如CoT-1D-Vote, PoT-2D-Vote, MoT-1D-Vote等）和4种验证方案（如CoT-2D-Verify, MoT-1D-Verify等）。其中“1D”代表使用一套演示集，“2D”代表使用两套演示集。
4. 成本可比性配置：为确保不同方法在成本上可比，研究者根据输入/输出令牌成本，对不同方案的采样数量k进行了配置，使得调用弱LLM的成本C_w大致相当。具体配置详见论文附录A。
5. 数据分析流程：实验主要评估两个指标：任务准确率和相对成本（相对于全程使用GPT-4-CoT-SC的成本）。通过绘制不同阈值τ下投票方法的“准确率-相对成本”曲线，以及计算验证方法的固定点，来全面评估各方法的性能。此外，还进行了深入的案例分析、鲁棒性测试（改变温度t和样本量k）以及与外部验证器基线的对比。
四、 主要研究结果
1. 整体性能与成本效益： 实验结果表明，本研究提出的所有级联变体（投票或验证）均能实现显著的成本节约。平均而言，基于混合思维表示（MoT）的四种变体能够达到与全程使用GPT-4-CoT-SC（准确率0.931）相媲美的性能（约0.929准确率），而仅需后者约40%的成本。在Crepe数据集上，MoT变体甚至以47%的成本取得了优于GPT-4-CoT-SC的准确率（0.885 vs. 0.871）。基于单一CoT或PoT的方法也能在保持整体性能的同时节约成本，例如CoT-2D-Vote平均达到0.924准确率，成本仅为57%。这充分证明了基于答案一致性的级联决策机制的有效性。
2. 多样化提示采样的优势： 结果表明，从多样化提示设置中采样有助于更精确地区分简单和困难问题。例如，涉及多样采样源的变体（如CoT/PoT-2D-Vote和MoT-1D/2D-Vote）比其单一来源的对应变体（如CoT/PoT-1D-Vote）表现更好。在相同相对成本0.4下，CoT-2D-Vote比CoT-1D-Vote的绝对准确率平均高出1.4%。这说明多样性有助于更可靠地评估模型置信度。
3. 混合思维表示（MoT）的卓越效果： 混合两种思维表示（MoT）的方法在大多数数据集上 consistently 优于仅使用单一思维表示（CoT或PoT）的方法。如图4（上）的案例分析所示，对于弱LLM回答错误的“困难”问题，即使更换演示集，CoT仍可能犯相同类型的错误（如逻辑生成错误），导致一致性分数虚高；而PoT则倾向于犯不同类型的错误（如数值落地错误）。MoT通过整合这两种迥异的“意见”，能够更敏锐地捕捉到模型的不确定性，从而在简单和困难问题的一致性分数之间产生更大的“差距”，使得决策器能更准确地进行路由。图4（下）的案例具体展示了这一现象。
4. 阈值与样本量的影响分析（鲁棒性评估）： * 温度（t）：将采样温度从0.4提高到0.8，由于答案多样性增加，性能相当或略有提升。MoT方法在不同温度下均稳健地优于CoT方法。 * 样本量（k）：将样本量从20增加到40，会导致成本-准确率曲线向右移动，意味着达到相同准确率需要更高成本。这是因为增加样本量提高了C_w，但并未显著提升对问题难度的区分能力。
5. 与外部验证器基线的对比： 如图6所示，基于外部验证器（无论是微调的小模型还是Prompt的LLM）的级联方法无法达到GPT-4-CoT-SC的准确率水平。例如在GSM8K上，外部验证器的最佳准确率为0.892，远低于GPT-4-CoT-SC的0.958和本研究方法的0.951。这表明，对于复杂推理任务，仅基于问题和答案的文本描述来判断难度和正确性具有内在挑战性，而基于模型自身答案一致性的方法更具优势。
6. 附加研究结果： * 弱LLM的能力边界：当使用LLaMA-2-13B作为弱LLM时，在相对简单的Date数据集上方法仍有效，但在复杂的GSM8K和Crepe上效果不理想，因为多数问题对LLaMA-2-13B过于困难，导致其答案一致性普遍很低。这表明弱LLM的选择需与任务难度相匹配。 * 弱LLM的提示是否有助于强LLM：实验发现，将弱LLM产生的不一致答案作为“提示”传递给强LLM，仅在Date数据集上有轻微提升，在GSM8K和Crepe上反而损害性能。因此，当弱LLM对问题不确定时，其产生的提示对强LLM并无帮助。
五、 研究结论与价值
本研究提出了一种新颖、高效且通用的经济型LLM推理管道，通过动态决策在弱LLM和强LLM之间进行路由，以显著节约令牌使用成本。
科学价值： 1. 方法论创新：首次提出并系统验证了基于弱LLM“答案一致性”的级联决策机制，这是一种无需训练、即插即用的高效方法。 2. 表示融合创新：首次将混合思维表示（MoT）应用于LLM级联的成本节约场景，证明了通过结合不同思维表示（CoT和PoT）引入答案多样性，可以最有效地评估LLM的不确定性，从而实现最优的成本-性能权衡。 3. 深入洞察：研究揭示了在评估LLM答案置信度时，调整思维表示比调整任务演示示例更为有效，这为理解LLM的不确定性提供了新视角。
应用价值： 1. 显著降本：所提方法能以约40%的成本达到与顶级商用LLM（GPT-4）相当的性能，为资源有限的机构（如中小企业、教育机构、非营利组织）使用先进AI推理能力提供了可能，促进了技术普惠。 2. 通用性与实用性：方法简单易实现，无需额外训练数据或模型，适用于各种类型的推理任务（数学、符号、因果），具有良好的通用性和实用价值。 3. 环保意义：对于拥有大规模吞吐需求的巨头公司，成本节约也意味着计算资源消耗的降低，有助于减少碳足迹，符合可持续发展目标。
六、 研究亮点
核心创新点突出：提出了基于“答案一致性”而非外部文本验证的LLM级联决策新范式，跳出了传统思路，简单而有效。
混合思维表示（MoT）的关键作用：首次系统性地将CoT与PoT协同用于成本节约，并通过实验证明其能产生最有效的答案多样性，是提升级联决策精度的关键。
详实全面的评估：在六大跨领域推理数据集上进行了充分实验，不仅证明了方法的有效性，还通过鲁棒性分析、消融研究、与多种基线的对比以及深入的案例分析，全面支撑了研究结论。
重要的发现：明确指出对于复杂推理任务，基于问题/答案文本描述的外部验证器效果有限；而弱LLM的不确定答案作为提示，通常无助于强LLM的性能提升。
七、 其他有价值内容
论文包含了详细的伦理声明和可复现性声明。作者强调了本研究在促进AI公平访问（使资源有限组织也能受益）和环境保护方面的潜在积极影响。所有实验细节、提示示例和代码均已公开，确保了研究的透明度和可复现性。此外，附录中提供了详细的成本分析、各数据集的完整数值结果、基线方法细节以及校准分析等补充材料，为后续研究提供了坚实的基础和丰富的参考信息。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问