分享自:

通过预训练语言模型实现互动式决策框架的泛化研究

期刊:Neural Information Processing Systems (NeurIPS 2022)

学术报告:基于预训练语言模型的交互式决策方法研究

一、研究概述

本文是一篇报告单个原创研究的学术论文,题为《Pre-trained language models for interactive decision-making》,发表于2022年的第36届神经信息处理系统会议(NeurIPS 2022)。该研究的主要作者为 Shuang Li(MIT)、Xavier Puig(MIT)、Chris Paxton (NVIDIA)、Yilun Du(MIT)等人,分别来自MIT、NVIDIA、Google Brain等机构。研究主要探讨将预训练语言模型应用于广义交互式决策问题,为决策政策学习提供通用的框架。

二、研究背景

自然语言处理领域的语言模型(Language Models, LMs)近年来取得了显著的进展,不仅能够处理传统的语言生成与理解任务,还被应用于需要复杂推理与规划能力的任务,例如指令跟随、视觉导航和视觉问答。然而,这些任务通常仍然与语言有关。研究者由此提出一个关键问题:能否将这些预训练语言模型推广应用到与语言无关的广义决策问题中?该研究的目标是回答这一关键问题,并进一步探讨预训练语言模型的潜力,以及其是否具有泛化能力来应对新环境和新任务。

三、研究流程

1. 研究框架与环境设计

研究提出了一个名为“LID”的框架,即“Language-model-based Interactive Decision-making”(预训练语言模型驱动的互动式决策)。在这个框架中,目标、历史交互记录以及部分环境观察都被转换为嵌入序列。接着,这些序列输入到一个基于预训练语言模型的政策网络中,网络参数初始来源于GPT-2语言模型。随后,通过监督学习的方式对这些政策网络进行微调,以预测下一步行动。

实验中选择了两个复杂的环境作为研究对象: - VirtualHome:一个3D模拟环境,提供家居活动场景,涉及复杂任务目标、多样化的状态观察和长时间决策规划。 - BabyAI:一个2D平面网格世界环境,任务包含自然语言的导航与操作指令(如移动物体到目标位置等)。

研究框架强调将所有的输入统一编码为序列数据,无论是语言、视觉输入还是场景图,并以此作为政策网络的输入。


2. 数据收集与模型训练方式

  • 监督学习(专家数据场景) 在VirtualHome环境中,研究者利用一个基于回归规划(regression planning)的策略生成器,自动生成专家级任务轨迹(20,000条用于训练,3,000条用于验证)。任务目标以逻辑谓词的形式表达,这些逻辑谓词再统一转换为英语自然语言序列,供模型训练。训练目标是最大化专家演示数据的决策准确性。

  • 主动数据收集(无专家数据场景) 对于没有专家演示数据的场景,研究者设计了一种主动数据收集(Active Data Gathering, ADG)策略。该策略采用三个步骤反复进行:

    1. 探索(Exploration):在环境中随机探索,同时采集来自当前政策生成的轨迹以及随机执行的轨迹。
    2. 后验重标(Hindsight Relabeling):从失败轨迹中提取分解子任务,并为其重新生成目标,使得这些轨迹数据可以被重新利用。
    3. 政策更新(Policy Update):利用重新标注的目标以及采集到的轨迹更新当前政策。

这种方法特别设计了一套目标重标函数(Goal Relabel Function),通过对轨迹中的动作和观测进行细粒度分析,提取出失败轨迹中的关键子任务。


3. 分析与实验步骤 研究通过以下实验验证: - 实验设置 使用VirtualHome和BabyAI平台以及两种任务场景(专家轨迹/主动数据收集),评估模型在训练分布任务、场景外泛化(新布局环境)、任务外泛化(组合目标新任务)中的表现。

  • 对比基线 实验对比了一系列基线方法,包括传统深度强化学习算法(如PPO、DQN+HER),以及未使用语言模型或未初始化预训练权重的模型。

四、实验结果

  1. 专家数据场景的实验结果

    • 在VirtualHome中,LID在学习专家数据政策时,表现显著优于基线模型。在新任务场景(任务外泛化,即目标和状态组合从未出现在训练中),LID比最佳基线开创实现了43.6%的成功率提升。
    • 在BabyAI中,对于训练数据较少的情况(如100次操作示例),LID在采样效率与目标完成率上明显优于原始BabyAI模型。
  2. 主动数据收集场景的实验结果

    • 在VirtualHome无专家数据的决策任务中,传统强化学习方法(如PPO、DQN+HER)在稀疏奖励设置下几乎完全失败,成功率为0。而LID-ADG框架能够实现非零成功率甚至达到46.7%(在训练分布内任务),再次表明了强大的泛化能力。
  3. 探究LID泛化能力的原因

    • 输入序列的重要性:研究分析了替代输入编码方式。即使输入非自然语言形式(如离散索引编码或随机字符串编码),LID依然能取得相近的性能,说明泛化不仅依赖于语言语义。
    • 序列化处理与Transformer的能力:去掉输入的序列化结构,会显著降低模型在新任务上的性能,表明Transformer优秀的序列处理能力是其泛化能力的关键。
    • 权重初始化的贡献:未使用语言模型预训练权重的模型,其泛化能力显著下降11.2%。此外,冻结预训练语言模型权重而不进行微调,则会显著降低效果,表明微调非常关键。

五、研究结论

本研究展现了预训练语言模型在非语言任务中的惊人潜力及广泛适用性,证明其不仅能有效学习专家演示数据,还能通过主动数据收集方法完成复杂的决策任务。研究得出的主要结论包括: - 预训练语言模型能够为序列化的广义决策任务提供结构化的泛化能力。 - 主动数据收集策略大幅减少对人工专家标注的依赖,在稀疏奖励的高维环境中实现了稳定的学习过程。 - 语言模型强大的组合泛化能力源于其输入序列化特性与初始化预训练权重的归纳偏差。


六、研究亮点与意义

  • 亮点

    1. 提出了一个统一的交互式决策框架,能够将多模态输入(如图像、文本、场景图)转化为序列化表述。
    2. 展示了预训练语言模型在超出自然语言处理任务的广泛适用性。
    3. 设计了一种新型的主动数据收集与重标策略,能够从失败轨迹中挖掘信号学习。
  • 意义: 本研究不仅证明了预训练语言模型在复杂环境任务中的数据效率和泛化能力,也进一步推动了机器学习领域中强化学习与语言模型的交叉研究。其潜在应用包括机器人操作系统、自动化规划工具和虚拟辅助系统等。这项研究为预训练模型的跨领域应用提供了重要理论依据与实验支持。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com