本文是一篇报告单个原创研究的学术论文,题为《Pre-trained language models for interactive decision-making》,发表于2022年的第36届神经信息处理系统会议(NeurIPS 2022)。该研究的主要作者为 Shuang Li(MIT)、Xavier Puig(MIT)、Chris Paxton (NVIDIA)、Yilun Du(MIT)等人,分别来自MIT、NVIDIA、Google Brain等机构。研究主要探讨将预训练语言模型应用于广义交互式决策问题,为决策政策学习提供通用的框架。
自然语言处理领域的语言模型(Language Models, LMs)近年来取得了显著的进展,不仅能够处理传统的语言生成与理解任务,还被应用于需要复杂推理与规划能力的任务,例如指令跟随、视觉导航和视觉问答。然而,这些任务通常仍然与语言有关。研究者由此提出一个关键问题:能否将这些预训练语言模型推广应用到与语言无关的广义决策问题中?该研究的目标是回答这一关键问题,并进一步探讨预训练语言模型的潜力,以及其是否具有泛化能力来应对新环境和新任务。
1. 研究框架与环境设计
研究提出了一个名为“LID”的框架,即“Language-model-based Interactive Decision-making”(预训练语言模型驱动的互动式决策)。在这个框架中,目标、历史交互记录以及部分环境观察都被转换为嵌入序列。接着,这些序列输入到一个基于预训练语言模型的政策网络中,网络参数初始来源于GPT-2语言模型。随后,通过监督学习的方式对这些政策网络进行微调,以预测下一步行动。
实验中选择了两个复杂的环境作为研究对象: - VirtualHome:一个3D模拟环境,提供家居活动场景,涉及复杂任务目标、多样化的状态观察和长时间决策规划。 - BabyAI:一个2D平面网格世界环境,任务包含自然语言的导航与操作指令(如移动物体到目标位置等)。
研究框架强调将所有的输入统一编码为序列数据,无论是语言、视觉输入还是场景图,并以此作为政策网络的输入。
2. 数据收集与模型训练方式
监督学习(专家数据场景) 在VirtualHome环境中,研究者利用一个基于回归规划(regression planning)的策略生成器,自动生成专家级任务轨迹(20,000条用于训练,3,000条用于验证)。任务目标以逻辑谓词的形式表达,这些逻辑谓词再统一转换为英语自然语言序列,供模型训练。训练目标是最大化专家演示数据的决策准确性。
主动数据收集(无专家数据场景) 对于没有专家演示数据的场景,研究者设计了一种主动数据收集(Active Data Gathering, ADG)策略。该策略采用三个步骤反复进行:
这种方法特别设计了一套目标重标函数(Goal Relabel Function),通过对轨迹中的动作和观测进行细粒度分析,提取出失败轨迹中的关键子任务。
3. 分析与实验步骤 研究通过以下实验验证: - 实验设置 使用VirtualHome和BabyAI平台以及两种任务场景(专家轨迹/主动数据收集),评估模型在训练分布任务、场景外泛化(新布局环境)、任务外泛化(组合目标新任务)中的表现。
专家数据场景的实验结果
主动数据收集场景的实验结果
探究LID泛化能力的原因
本研究展现了预训练语言模型在非语言任务中的惊人潜力及广泛适用性,证明其不仅能有效学习专家演示数据,还能通过主动数据收集方法完成复杂的决策任务。研究得出的主要结论包括: - 预训练语言模型能够为序列化的广义决策任务提供结构化的泛化能力。 - 主动数据收集策略大幅减少对人工专家标注的依赖,在稀疏奖励的高维环境中实现了稳定的学习过程。 - 语言模型强大的组合泛化能力源于其输入序列化特性与初始化预训练权重的归纳偏差。
亮点:
意义: 本研究不仅证明了预训练语言模型在复杂环境任务中的数据效率和泛化能力,也进一步推动了机器学习领域中强化学习与语言模型的交叉研究。其潜在应用包括机器人操作系统、自动化规划工具和虚拟辅助系统等。这项研究为预训练模型的跨领域应用提供了重要理论依据与实验支持。