基于预训练语言模型的可执行世界模型在文本游戏中的应用研究
一、 研究作者、机构与发表信息
本研究由来自首尔国立大学(Seoul National University)和延世大学(Yonsei University)的研究团队完成。主要作者包括 Minsoo Kim(首尔国立大学人工智能交叉项目)、Yeonjoon Jung(延世大学人工智能系)、Dohyeon Lee 以及通讯作者 Seung-Wong Hwang(均来自首尔国立大学计算机科学与工程系)。该研究论文以《PLM-based World Models for Text-based Games》为题,发表于 2022 年 12 月 7 日至 11 日举行的自然语言处理实证方法会议(Empirical Methods in Natural Language Processing, EMNLP 2022)的会议论文集中,属于计算语言学领域的顶级会议论文。
二、 学术背景与研究目标
本研究的核心科学领域是人工智能,特别是强化学习、自然语言处理与文本交互式环境的交叉领域。具体而言,它聚焦于基于文本的游戏(Text-Based Games, TBGs) 中的世界模型(World Model)构建问题。文本游戏是一种完全通过自然语言文本来感知和交互的模拟环境,对智能体提出了独特的挑战:巨大的组合动作空间、对丰富知识表示的需求以及复杂的常识推理能力(例如理解物体功能、动作的因果后果)。
在基于模型的强化学习中,世界模型通过预测环境状态的变化,能够帮助智能体以更高的样本效率进行学习和决策。研究者们注意到,预训练语言模型(Pre-trained Language Models, PLMs)因其强大的未来预测和常识理解能力,是构建世界模型的理想基础。然而,直接将 PLMs 应用于文本游戏世界建模面临一个核心挑战:可执行性(Actionability)。即模型生成的动作必须符合游戏引擎解析器所定义的“受控子语言”(Controlled Sublanguage)的语法,并且需要与游戏环境的动态常识保持一致,才能被成功执行。
此前的工作,如 Worldformer,虽然部分使用了 Transformer 架构,但并未充分发挥 PLMs 的全部潜力。因此,本研究的核心目标是:1)充分挖掘 PLMs 作为文本游戏世界模型的潜力;2)通过重新构建生成过程为约束解码(Constrained Decoding),将动作分解为动词模板和对象,显著提升模型生成动作的可执行性;3)在预测未来有效动作和知识图谱变化这两个核心世界建模任务上实现性能提升;4)证明所提模型比标准 PLM 具备更好的常识理解能力。
三、 详细研究流程与方法
本研究包含多个紧密衔接的步骤,从基准模型构建、动机分析到新模型设计与实验验证。
1. 基准模型构建与动机分析(定性研究) 首先,研究者构建了一个名为 Worldformer-BART 的基准模型。该模型是对先前 Worldformer 架构的适配,但完全基于预训练的 BART 模型(编码器-解码器架构)。模型采用多任务学习,使用两个独立的 BART 编码器-解码器对分别处理未来有效动作预测和未来知识图谱(图差异)预测任务。输入是当前状态(文本观察、有效动作集、知识图谱)和转移动作,输出分别是下一状态的有效动作集或知识图谱变化。
为了深入理解现有 PLM 世界模型在可执行性方面的不足,研究者对 Worldformer-BART 在验证集上的预测错误进行了人工定性分析。他们定义了三种主要的可执行性错误类型: * 对象定位与推理错误(Object Localization and Inference, OLI):模型未能正确追踪物体位置(如在物品栏、环境中或不存在),导致生成无效动作(例如尝试放下从未捡起的物品)。 * 物体可供性错误(Object Affordance Errors):模型对物体功能理解错误,生成不合逻辑的动作(例如试图“喝空桶”)。 * 交互覆盖不足(Insufficient Interaction Coverage):尽管环境中存在物体,模型未能枚举出所有可能的交互动作,导致漏报。
对 50 个随机样本的分析显示,这三种错误普遍存在(分别约占样本的 33%、48% 和 88%),这为后续模型改进提供了明确方向。
2. 可执行世界模型(Actionable World Model, AWM)的设计与开发 基于上述分析,研究者提出了 AWM-BART 模型。其核心创新在于将动作生成重新定义为模板检索与填充的两阶段过程,旨在通过模板约束提升生成动作的语法合规性(可解析性),并通过模板提供的归纳偏置来改善常识理解。
3. 实验设计与数据 * 研究平台与数据:实验在 JerichoWorld 数据集上进行,这是首个专门用于学习文本游戏世界模型的数据集。该数据集基于人类编写的攻略和随机探索,在 Jericho 文本游戏套件中模拟生成。每个数据实例包含前一个状态、转移动作、下一个状态和奖励。研究使用了更新版本的 JerichoWorld 2.0,包含来自 27 个游戏的 24,198 个训练实例和来自 9 个未见过的“分布外”游戏的 7,505 个测试实例,以评估模型的零样本泛化能力。 * 评估任务与指标: * 未来有效动作预测:给定当前状态和转移动作,预测下一时刻所有可能执行的有效动作集合。 * 未来图差异预测:预测由转移动作引起的知识图谱中三元组(主体,关系,客体)的增加部分。 * 评估指标:采用元组级 F1 分数和精确匹配(Exact Match, EM)。这是非常严格的指标,要求预测的动作或图谱三元组必须与真实情况完全一致,直接关系到动作在游戏中的可执行性。 * 对比基线: * Worldformer-BART(动作解码器随机初始化):复现原始 Worldformer 思路的变体。 * CALM:一个基于 GPT-2 的模型,在人类游戏记录上训练,用于跨游戏动作生成。 * Worldformer-BART:研究者构建的 BART 基础世界模型。 * Worldformer-BART + COMET Filter:在 Worldformer-BART 基础上,使用外部常识知识模型 COMET 的分数过滤掉“不合理”的动作,以测试外部常识注入的效果。
4. 自动化常识错误分析 为了将定性分析扩展到整个测试集,研究者开发了一套基于规则的自动化系统,用于检测 OLI 错误和可供性错误。该系统利用数据集中的状态转移信息,通过字符串匹配和启发式规则(如检查动作中的物体是否存在于当前环境或物品栏)来识别错误。在人工标注的样本上验证,该系统能恢复约 91% 的人工标注错误。
四、 主要研究结果与分析
实验结果有力地支持了 AWM-BART 模型的有效性。
1. 世界建模任务性能 在 JerichoWorld 2.0 测试集上的实验结果表明(见表 2): * AWM-BART 在两项任务上均取得了最佳性能。在动作预测任务上,其整体 F1 分数(55.16)和 EM(40.67)显著优于所有基线模型,包括 Worldformer-BART(F1: 37.51, EM: 25.56)。统计检验表明,这一提升具有高度显著性(p < 0.001)。 * Worldformer-BART 优于其解码器随机初始化的版本,证明了直接利用预训练 BART 参数的有效性。 * 使用 COMET 过滤器对 Worldformer-BART 的改进微乎其微,这表明将通用的外部常识模型零样本适配到文本游戏的特定需求是具有挑战性的。 * CALM 模型的表现远逊于其他专门为 JerichoWorld 任务设计的模型,突显了在文本游戏环境中考虑动作可执行性的重要性。
2. 消融实验分析 消融实验(见表 3)验证了各个组件的贡献: * 模板约束架构的有效性:即使不使用困难负例,AWM-BART 也显著优于基础的 Worldformer-BART,证明了模板检索与填充架构本身的价值。 * 困难负例挖掘的作用:加入困难负例后,动作生成性能得到进一步提升,同时保持了图预测性能。这表明困难负例使检索头更加鲁棒,减少了假阳性动作。 * 检索模块的性能:与使用“Oracle”(完美)模板检索器的理想情况相比,AWM-BART 训练出的检索器性能已接近上限,说明性能瓶颈主要在于解码器的生成能力,而非检索。
3. 常识理解能力分析 通过自动化错误分析系统对测试集进行全面评估(见表 4),结果清晰地显示了 AWM-BART 在常识推理方面的优势: * 与 Worldformer-BART 相比,AWM-BART 将 OLI 错误减少了约 47%,将物体可供性错误减少了约 33%。 * 同时,模型生成的交互覆盖不足错误(即假阴性)也减少了约 24%。 * COMET 过滤器对减少常识错误的效果非常有限(仅减少约 2.6% 的 OLI 错误和 0.4% 的可供性错误),且伴随假阴性的轻微增加。
这些结果强有力地支持了研究者的假设:通过模板约束生成,AWM-BART 不仅提升了生成动作在目标受控子语言中的可解析性,更重要的是,它通过模板提供的归纳偏置,显著增强了 PLM 作为世界模型的常识理解能力。模型学会了更准确地追踪物体位置,并更好地理解特定动词与对象之间的合理搭配关系。
五、 研究结论与价值
本研究成功构建并验证了 AWM-BART,一个基于预训练语言模型的可执行世界模型,专门用于文本游戏环境。研究的主要结论是:通过将动作生成重新构建为模板检索与约束填充的两阶段过程,可以显著提升 PLM 世界模型在文本游戏中的可执行性。这不仅体现在更高的动作预测准确率(F1/EM)上,更体现在模型对游戏世界常识(物体定位、物体功能)理解能力的实质性增强。
该研究的科学价值在于: 1. 为 PLM 应用于结构化、交互式环境提供了新思路:它展示了如何通过结构化的输出约束(模板)来桥接 PLM 的开放生成能力与特定领域(如游戏解析器)的严格语法要求。 2. 深化了对“常识”在交互环境中作用的理解:研究区分并量化了不同类型的常识错误(OLI、可供性),并证明通过任务和模型架构的巧妙设计,可以在不依赖外部知识库的情况下,从数据中更有效地学习领域特定的常识。 3. 推动了文本游戏作为 AI 测试平台的发展:提供了一个更强大、更可靠的世界模型基准,可用于后续的规划、推理和基于模型的强化学习智能体研究。
其应用价值在于为构建更样本高效、更可靠的文本游戏 AI 智能体奠定了基础。一个准确预测未来状态和有效动作的世界模型,可以极大地辅助智能体进行规划、探索和决策。
六、 研究亮点
七、 其他有价值的内容
研究者在讨论中也指出了工作的局限性:1)由于计算资源限制,未能在更大规模的 PLM(如 BART-large 或更大模型)上进行实验,以探索缩放定律的影响;2)实验仅限于 Jericho 游戏套件,未来需要扩展到更多样化的文本游戏环境以验证泛化能力。这些为未来的研究指明了方向。
此外,论文附录提供了丰富的定性示例(见表 10-14),直观对比了 Worldformer-BART 和 AWM-BART 的预测结果,展示了后者在生成更合理、更完整动作集方面的优势。附录还详细描述了自动化错误检测系统的启发式规则,增加了研究的可复现性。