变色龙：基于大型语言模型的即插即用组合推理方法

分享自：
变色龙：基于大型语言模型的即插即用组合推理方法

期刊:37th conference on neural information processing systems (NeurIPS 2023)
《Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models》学术报告作者与机构这篇文章的主要作者包括 Pan Lu（University of California, Los Angeles）、Baolin Peng（Microsoft Research, Redmond）、Hao Cheng（Microsoft Research, Redmond）、Michel Galley（Microsoft Research, Redmond）、Kai-Wei Chang（University of California, Los Angeles）、Ying Nian Wu（University of California, Los Angeles）、Song-Chun Zhu（University of California, Los Angeles）以及 Jianfeng Gao（Microsoft Research, Redmond）。这项研究发表于“37th Conference on Neural Information Processing Systems (NeurIPS 2023)”。文章同时提供了项目官网（https://chameleon-llm.github.io），以便进一步研究和访问。
学术背景与研究目的近年来，大型语言模型（Large Language Models, 简称 LLMs），如 GPT-3、GPT-4、PaLM、LLaMA、ChatGPT 等，在自然语言处理领域展示了巨大潜力。它们的”零样本学习”（Zero-Shot Learning）和“链式思维推理”（Chain-of-Thought, 简称 CoT）能力，使其能够解决多种复杂任务。然而，LLMs 也存在明显的局限性，比如无法获取最新的网络信息、无法完成高精度的数学和逻辑推理任务、以及无法专业使用外部工具。
为了克服这些限制，作者提出了一种新的框架“Chameleon”，它通过扩展现有 LLMs 的功能，引入一种“模块化推理”（Compositional Reasoning）的方法。这一框架旨在通过“即插即用”（Plug-and-Play）的方式，将语言模型与多种外部工具结合，从而提升对跨领域复杂任务的适应性与准确性。其核心目标是开发出一个能够综合运用 LLM、计算机视觉模型（Vision Models）、网页搜索引擎（Web Search Engines）、Python 函数以及启发式模块等多种组件的系统。
研究流程1. 系统架构设计“Chameleon”的框架可以分为以下几部分： - 模块清单（Module Inventory）：包含了一系列可复用的工具模块，如知识检索（Knowledge Retrieval）、图像描述生成（Image Captioner）、文本检测（Text Detector）、程序生成器（Program Generator）等。 - 基于 LLM 的计划器（LLM-based Planner）：规划器的职责是根据输入问题生成一系列工具的调用顺序（程序），确保对输入问题进行最优解析。 - 执行与缓存机制：在程序执行过程中，每一阶段生成的中间信息会被缓存（Cache），以便后续模块复用。
作者使用自然语言来设计程序规划，这些程序既可读也可调试，无需特殊的编程技巧。同时，Chameleon 生成的程序是“自然语言式的”，这显著降低了扩展新模块的难度。
2. 具体工具的实现与使用作者为系统内的每个模块提供详细描述和使用条件。例如： - 知识检索模块（Knowledge Retrieval）：调用现有知识库为复杂问题提供背景知识。 - 图像描述生成器（Image Captioner）：以视觉模型生成图片的语义描述，特别适用于与图像相关的问题。 - 程序生成器（Program Generator）：生成能够通过 Python 编程语言解决问题的代码，用以处理复杂运算与逻辑推理。 - 表格查询模块（Row Lookup 和 Column Lookup）：在表格数据中筛选相关行或列，以简化数据处理过程。
3. 用于具体任务的流程设计作者将框架应用于两个任务： 1. 科学问题答题（Science Question Answering, ScienceQA）： - 涉及多模态数据（如文本、图像、图表）和科学知识（如物理、生物、化学等）。 - 执行流程：如需从图像中解析文本，系统会调用“文本检测器”（Text Detector）；如需获取附加背景知识，则调用“知识检索器”。
表格数学推理（Tabular Mathematical Reasoning, TabMWP）： 涉及基于表格数据的复杂数学运算，如税单计算、时间表推理等。
执行流程：调用表格相关模块（如 Row Lookup 和 Column Lookup）以挖掘关键数据，然后通过程序生成模块生成 Python 程序解决问题。
研究结果1. 科学问题答题（ScienceQA）的实验结果在 ScienceQA 数据集上，“Chameleon”框架与 GPT-4 相结合，答案准确率达到了 86.54%，超越了先前的最佳结果（GPT-4 Cot，准确率为 83.99%）。研究证明，在科学推理任务中，模块化方法的精准性和灵活性明显优于传统语言模型。
2. 表格数学推理（TabMWP）的实验结果在 TabMWP 数据集中，“Chameleon”框架结合 GPT-4 后，准确率达到了 98.78%，不仅比 CoT 和 Program-of-Thought（POT）方法有显著提升，而且超越了人类的平均表现（90.22%）。
3. 工具调用的策略与数据分析研究发现，与 ChatGPT 相比，GPT-4 在模块调用过程中表现更为理性。例如，在 ScienceQA 的实验中： - GPT-4 更频繁且合理地选择查询生成器（Query Generator）和网页搜索（Bing Search）。 - ChatGPT 则更依赖个别固定工具，且对复杂任务的规划能力较弱。
此外，禁用特定模块后的实验表明，知识检索和程序生成器是 Chameleon 框架中提升性能的关键因素。
研究结论与价值1. 科学价值“Chameleon”框架为 LLM 的设计开创了一种新的思路——通过“工具即插即用”的方式，显著提升了复杂任务的适应性和解决能力。这不仅解决了 LLM 无法访问最新信息和复杂数学逻辑推理的痛点，还推动了多模态任务（例如科学推理和表格推理）的性能边界。
2. 应用价值Chameleon 在教育（如科学题目答题）、金融（如税务计算）、医药（复杂数据分析）等多领域具有广泛应用潜力。其模块化架构便于扩展和升级，能快速适配新任务。
研究亮点高灵活性与可扩展性：Chameleon 利用自然语言生成程序的方法，极大降低了对任务或领域的依赖性。
多样化工具集成：支持知识检索、Python 编程、图像处理、表格分析等多种能力，覆盖广泛的任务领域。
性能显著提升：在多个基准数据集上的表现远超 SOTA（State of the Art）结果，同时在人类表现之上进一步优化。
潜在改进方向与影响尽管 Chameleon 性能卓越，但也存在一些限制： 1. 扩展性挑战：当模块数量进一步增大时，如何在 LLM 的上下文窗口内合理组织模块描述，仍是一个需要解决的问题。 2. 重规划机制缺失：当前的规划机制一次性完成程序生成，未来可探索动态 re-planning 以增强任务适应能力。
在社会影响方面，Chameleon 的改进昭示了 AI 系统在多模态任务中扮演的潜在重要角色，但其自主性增加可能伴随信息误导、隐私风险等问题。因此，需要进一步完善系统的伦理设计与透明性。
总结而言，Chameleon 通过模块化的推理框架，成功增强了 LLM 的多模态推理能力，是 AI 在复杂应用场景中的一次重要突破。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问