分享自:

变色龙:基于大型语言模型的即插即用组合推理方法

期刊:37th conference on neural information processing systems (NeurIPS 2023)

《Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models》学术报告

作者与机构

这篇文章的主要作者包括 Pan Lu(University of California, Los Angeles)、Baolin Peng(Microsoft Research, Redmond)、Hao Cheng(Microsoft Research, Redmond)、Michel Galley(Microsoft Research, Redmond)、Kai-Wei Chang(University of California, Los Angeles)、Ying Nian Wu(University of California, Los Angeles)、Song-Chun Zhu(University of California, Los Angeles)以及 Jianfeng Gao(Microsoft Research, Redmond)。这项研究发表于“37th Conference on Neural Information Processing Systems (NeurIPS 2023)”。文章同时提供了项目官网(https://chameleon-llm.github.io),以便进一步研究和访问。


学术背景与研究目的

近年来,大型语言模型(Large Language Models, 简称 LLMs),如 GPT-3、GPT-4、PaLM、LLaMA、ChatGPT 等,在自然语言处理领域展示了巨大潜力。它们的”零样本学习”(Zero-Shot Learning)和“链式思维推理”(Chain-of-Thought, 简称 CoT)能力,使其能够解决多种复杂任务。然而,LLMs 也存在明显的局限性,比如无法获取最新的网络信息、无法完成高精度的数学和逻辑推理任务、以及无法专业使用外部工具。

为了克服这些限制,作者提出了一种新的框架“Chameleon”,它通过扩展现有 LLMs 的功能,引入一种“模块化推理”(Compositional Reasoning)的方法。这一框架旨在通过“即插即用”(Plug-and-Play)的方式,将语言模型与多种外部工具结合,从而提升对跨领域复杂任务的适应性与准确性。其核心目标是开发出一个能够综合运用 LLM、计算机视觉模型(Vision Models)、网页搜索引擎(Web Search Engines)、Python 函数以及启发式模块等多种组件的系统。


研究流程

1. 系统架构设计

“Chameleon”的框架可以分为以下几部分: - 模块清单(Module Inventory):包含了一系列可复用的工具模块,如知识检索(Knowledge Retrieval)、图像描述生成(Image Captioner)、文本检测(Text Detector)、程序生成器(Program Generator)等。 - 基于 LLM 的计划器(LLM-based Planner):规划器的职责是根据输入问题生成一系列工具的调用顺序(程序),确保对输入问题进行最优解析。 - 执行与缓存机制:在程序执行过程中,每一阶段生成的中间信息会被缓存(Cache),以便后续模块复用。

作者使用自然语言来设计程序规划,这些程序既可读也可调试,无需特殊的编程技巧。同时,Chameleon 生成的程序是“自然语言式的”,这显著降低了扩展新模块的难度。

2. 具体工具的实现与使用

作者为系统内的每个模块提供详细描述和使用条件。例如: - 知识检索模块(Knowledge Retrieval):调用现有知识库为复杂问题提供背景知识。 - 图像描述生成器(Image Captioner):以视觉模型生成图片的语义描述,特别适用于与图像相关的问题。 - 程序生成器(Program Generator):生成能够通过 Python 编程语言解决问题的代码,用以处理复杂运算与逻辑推理。 - 表格查询模块(Row Lookup 和 Column Lookup):在表格数据中筛选相关行或列,以简化数据处理过程。

3. 用于具体任务的流程设计

作者将框架应用于两个任务: 1. 科学问题答题(Science Question Answering, ScienceQA): - 涉及多模态数据(如文本、图像、图表)和科学知识(如物理、生物、化学等)。 - 执行流程:如需从图像中解析文本,系统会调用“文本检测器”(Text Detector);如需获取附加背景知识,则调用“知识检索器”。

  1. 表格数学推理(Tabular Mathematical Reasoning, TabMWP)
    • 涉及基于表格数据的复杂数学运算,如税单计算、时间表推理等。
    • 执行流程:调用表格相关模块(如 Row Lookup 和 Column Lookup)以挖掘关键数据,然后通过程序生成模块生成 Python 程序解决问题。

研究结果

1. 科学问题答题(ScienceQA)的实验结果

在 ScienceQA 数据集上,“Chameleon”框架与 GPT-4 相结合,答案准确率达到了 86.54%,超越了先前的最佳结果(GPT-4 Cot,准确率为 83.99%)。研究证明,在科学推理任务中,模块化方法的精准性和灵活性明显优于传统语言模型。

2. 表格数学推理(TabMWP)的实验结果

在 TabMWP 数据集中,“Chameleon”框架结合 GPT-4 后,准确率达到了 98.78%,不仅比 CoT 和 Program-of-Thought(POT)方法有显著提升,而且超越了人类的平均表现(90.22%)。

3. 工具调用的策略与数据分析

研究发现,与 ChatGPT 相比,GPT-4 在模块调用过程中表现更为理性。例如,在 ScienceQA 的实验中: - GPT-4 更频繁且合理地选择查询生成器(Query Generator)和网页搜索(Bing Search)。 - ChatGPT 则更依赖个别固定工具,且对复杂任务的规划能力较弱。

此外,禁用特定模块后的实验表明,知识检索和程序生成器是 Chameleon 框架中提升性能的关键因素。


研究结论与价值

1. 科学价值

“Chameleon”框架为 LLM 的设计开创了一种新的思路——通过“工具即插即用”的方式,显著提升了复杂任务的适应性和解决能力。这不仅解决了 LLM 无法访问最新信息和复杂数学逻辑推理的痛点,还推动了多模态任务(例如科学推理和表格推理)的性能边界。

2. 应用价值

Chameleon 在教育(如科学题目答题)、金融(如税务计算)、医药(复杂数据分析)等多领域具有广泛应用潜力。其模块化架构便于扩展和升级,能快速适配新任务。


研究亮点

  1. 高灵活性与可扩展性:Chameleon 利用自然语言生成程序的方法,极大降低了对任务或领域的依赖性。
  2. 多样化工具集成:支持知识检索、Python 编程、图像处理、表格分析等多种能力,覆盖广泛的任务领域。
  3. 性能显著提升:在多个基准数据集上的表现远超 SOTA(State of the Art)结果,同时在人类表现之上进一步优化。

潜在改进方向与影响

尽管 Chameleon 性能卓越,但也存在一些限制: 1. 扩展性挑战:当模块数量进一步增大时,如何在 LLM 的上下文窗口内合理组织模块描述,仍是一个需要解决的问题。 2. 重规划机制缺失:当前的规划机制一次性完成程序生成,未来可探索动态 re-planning 以增强任务适应能力。

在社会影响方面,Chameleon 的改进昭示了 AI 系统在多模态任务中扮演的潜在重要角色,但其自主性增加可能伴随信息误导、隐私风险等问题。因此,需要进一步完善系统的伦理设计与透明性。

总结而言,Chameleon 通过模块化的推理框架,成功增强了 LLM 的多模态推理能力,是 AI 在复杂应用场景中的一次重要突破。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com