本文发表于《自然》(Nature) 期刊,是一项由Anssi Kanervisto, Dave Bignell, Linda Yilin Wen, Martin Grayson, Raluca Georgescu, Sergio Valcarcel Macua, Shan Zheng Tan, Tabish Rashid, Tim Pearce, Yuhan Cao(以上为主要作者,贡献等同)以及Abdelhak Lemkhenter, Chentian Jiang, Gavin Costello, Gunshi Gupta, Marko Tot, Shu Ishida, Tarun Gupta, Udit Arora, Ryen W. White, Sam Devlin, Cecily Morrison, Katja Hofmann(通讯作者)共同完成的研究。作者团队主要来自英国剑桥的微软研究院,并联合了爱丁堡大学、牛津大学、伦敦玛丽女王大学以及游戏工作室Ninja Theory等机构的学者。该研究旨在探索生成式人工智能如何更好地赋能创意产业,特别是游戏开发领域的构思过程。
研究的学术背景 本研究属于人工智能与计算创意学的交叉领域。当前,生成式人工智能(Generative AI)在文本、图像、音视频等内容的生成方面取得了显著进展,并已广泛应用于创意产业。然而,现有模型在支持人类创造性构思方面仍存在明显不足。文献指出,迭代调整和发散性思维是技术赋能创造力的关键。但最先进的生成式AI模型对这些实践活动的支持尚不充分。本研究选择游戏开发作为切入点,因为游戏产业规模庞大、创意过程复杂且涉及多模态数据(如3D世界、角色交互等),为探索AI如何支持创意实践提供了理想场景。因此,本研究的目标在于,基于对用户需求的深刻理解,来引导生成式AI模型的开发与评估,使其更好地与游戏创作者的实践(迭代与发散)相契合。
详细研究流程 本研究包含三个主要且逻辑递进的环节:用户需求研究、新模型(WHAM)的构建与训练、针对创意需求的模型能力评估。
第一环节:用户需求研究。 为了理解游戏开发者的真实需求,研究团队对8家游戏工作室的27名创意人员进行了半结构化访谈。研究设计了一个“设计探针”(design probe),向参与者展示了一系列虚构但具体的生成式AI能力原型,以激发讨论。访谈采用主题分析法对转录文本进行分析。核心发现聚焦于创意实践的两大主题:1. 发散性思维:创作者需要AI生成的多样性构思,必须被置于一个一致的游戏世界背景中,以确保新想法具有意义。2. 迭代实践:为了保持创意自主性,创作者需要能够控制迭代过程,特别是他们的直接修改能够被模型采纳并持续影响后续生成。基于这些洞察,研究团队提炼出对支持创意构思至关重要的三项生成模型能力:一致性(生成序列在时间和游戏机制上保持连贯)、多样性(能产生多种不同的、合理的后续序列)和持久性(能吸收并保持用户对生成内容的修改)。
第二环节:WHAM模型构建与训练。 基于上述三项能力要求,研究团队开发了“世界与人类行动模型”(World and Human Action Model, WHAM)。WHAM旨在从人类游戏数据中学习,预测游戏画面(帧)和玩家控制器动作序列。其架构设计如下:首先,使用VQGAN图像编码器将游戏画面(观测值Ot)编码为离散标记序列(zt)。同时,将游戏手柄的按钮和摇杆动作(at)也进行离散化处理。然后,将这些交错的图像和动作标记序列输入到一个基于Transformer架构的解码器模型中,训练其以自回归方式进行下一个标记的预测。这种将数据转化为离散标记序列并用Transformer建模的方法,使得模型能够捕捉复杂的时空依赖关系,并允许通过修改输入标记(如图像编辑或指定动作)来“提示”或控制生成过程,为实现“持久性”奠定了基础。模型训练使用了来自游戏《Bleeding Edge》的大量真实人类游戏数据,包括两个数据集:包含所有7张地图、总计约500,000个玩家轨迹的“7地图数据集”,以及专注于单张地图“Skygarden”的过滤数据集。最大的WHAM模型拥有16亿参数,使用更高分辨率的图像(300×180)和540个图像标记进行训练。
第三环节:模型能力评估。 研究团队设计了一套专门的方法来量化评估WHAM在一致性、多样性和持久性这三项能力上的表现。 * 一致性评估:采用改进的弗雷歇视频距离(Fréchet Video Distance, FVD)作为指标。该方法让WHAM在给定1秒真实游戏画面和动作作为条件后,继续根据随后10秒内玩家的真实动作序列来生成画面。计算生成视频与真实人类游戏视频(作为地面真值)的FVD。较低的FVD分数表明生成内容在动态和视觉质量上与真实游戏高度一致,即模型准确捕捉了游戏世界的结构和物理规则。研究还通过人工标注(评估结构、动作、交互的连贯性)验证了FVD分数与人类感知的一致性呈正相关。结果显示,更大规模和计算预算的模型(如16亿参数的WHAM)能够生成长达2分钟的高度一致的游戏序列。 * 多样性评估:采用瓦瑟斯坦距离(Wasserstein Distance)来衡量模型生成的动作分布与真实人类玩家动作分布的接近程度。较低的瓦瑟斯坦距离意味着模型能够捕捉人类行为的全范围多样性,而不仅仅是生成单一或几种常见模式。同时,研究还进行了定性分析,展示模型在相同起始条件下能生成行为上(如角色选择不同路径)和视觉上(如角色滑板皮肤不同)多样化的未来序列。定量结果显示,随着训练进行,模型的瓦瑟斯坦距离不断下降,接近“人类-人类”基线水平。通过对动作损失进行加权,可以进一步改善多样性表现。 * 持久性评估:为了测试模型对用户修改的吸纳能力,研究进行了手动编辑实验。研究人员在游戏画面的合理新位置插入了三种游戏元素:游戏内物体(“能量细胞”)、其他玩家角色(盟友或对手)、地图元素(“垂直跳跃板”)。然后,使用WHAM模型,以包含1个或5个编辑后图像的序列作为条件,生成后续1秒的视频(共生成600个视频)。随后,由多位评估者对生成视频进行人工标注,判断插入的元素是否在生成的10帧内被成功“持久化”(即保持可见且合理存在)。结果显示,当仅用1个编辑图像作为条件时,各元素的持久化成功率低于60%;但当使用5个编辑图像作为条件时,持久化成功率显著提升至85%以上,最高可达98%。这证明了WHAM能够有效地将用户的创意修改融入其生成的世界中。
主要研究结果 本研究的主要结果系统地验证了其核心假设:通过面向用户需求(迭代实践和发散性思维)的模型能力设计,可以引导生成式AI的开发,使其更好地支持创意构思。 1. 用户研究结果:明确了游戏开发者对生成式AI的关键需求——不仅需要新奇多样的想法,更需要这些想法被置于一个一致、可信的世界框架内;同时,他们要求对生成过程拥有控制权,能够通过直接修改进行迭代精修。这直接导向了一致性、多样性、持久性这三项模型能力指标。 2. WHAM模型构建结果:成功开发并训练了基于Transformer和VQGAN的WHAM模型。该模型能够处理复杂的3D游戏环境,将游戏动态编码为离散标记序列进行学习,为生成可控、一致的序列提供了技术基础。 3. 评估结果: * 一致性:定量(FVD)和定性(长序列生成)证据均表明,WHAM能够生成在时间和游戏物理规则上高度一致的 gameplay 序列。模型规模的扩大和训练计算的增加直接带来了更好的一致性。 * 多样性:瓦瑟斯坦距离的降低表明WHAM生成的动作分布覆盖了真实人类行为的多样性。定性案例展示了模型能从同一出发点生成行为与视觉各异的多种合理未来,为发散性思维提供了素材。 * 持久性:编辑实验的数据(成功率从条件1帧时的~58%提升至条件5帧时的~86%-98%)强有力地证明,WHAM能够吸收用户的视觉修改,并将其作为生成上下文的一部分持续下去,从而支持了创意迭代中的“微调”需求。 这些结果之间逻辑紧密:用户需求定义了能力目标;WHAM的架构为达成这些目标提供了可能;而专门设计的评估体系则证实了WHAM在这些能力上取得了实质性进展。结果共同指向一个结论:生成式AI模型能够通过学习数据中的复杂结构,来实现对创意实践至关重要的特定能力。
研究结论与意义 本研究得出结论:生成式AI在创意产业中的应用,其发展路径应受到对用户需求理解的指引。通过优先发展一致性、多样性和持久性这三项能力,生成式AI模型可以更有效地支持人类的创造性构思过程,促进迭代实践和发散性思维,从而在合作中增强而非削弱人类的创造力和自主性。 该研究的价值体现在多个层面: * 科学价值:为评估和开发面向创意支持的生成式AI模型提出了一个以用户为中心、能力导向的新方法论框架。它将机器学习的模型评估从传统的任务完成效率指标,转向了与人类创意实践本质相关的内在能力指标。 * 应用价值:所开发的WHAM模型及其概念原型“WHAM演示器”(WHAM Demonstrator)展示了生成式AI支持游戏构思乃至更广泛创意领域(如音乐、视频制作)的潜力。模型无需针对特定领域进行繁重的手工规则设计,仅从数据中学习复杂结构的能力,预示着其广泛的适用性。 * 领域交叉贡献:该研究成功地将计算创意学、创造力支持工具领域的研究洞见与前沿的生成式AI机器学习技术相结合,为两个领域的交叉创新提供了范例。
研究亮点 1. 以用户需求驱动研究:研究始于深入的质性用户研究,从创意工作者的真实痛点出发定义问题,确保了技术开发与真实应用场景的高度相关。 2. 提出并验证核心模型能力三元组:明确提出了一致性、多样性、持久性这一组对于创意支持至关重要的、可评估的生成模型能力,并设计了相应的量化与定性评估方法。 3. WHAM模型的创新性:成功构建了能够对复杂3D游戏进行长时程、一致性序列生成的模型,并在无需先验领域知识的情况下,实现了对用户修改的持久化吸收,展示了生成式AI学习复杂世界动态的潜力。 4. 系统性的工作流:整个研究从需求分析、模型设计、训练到能力评估,构成了一个完整、闭环的研究范式,为未来相关领域的研究提供了可借鉴的蓝图。
其他有价值内容 研究团队公开发布了训练好的WHAM模型权重、评估数据集以及WHAM演示器概念原型,以促进进一步的探索和研究。此外,研究在“模型规模”部分进行了扩展定律分析,探讨了模型性能随参数规模、数据量和计算量变化的规律,为未来更大规模模型的开发提供了参考。研究还包含了详细的伦理声明,说明了数据使用的合规性以及对研究中包容性问题的考量。