面向游戏创意构思的世界与人类行动模型

分享自：
面向游戏创意构思的世界与人类行动模型

期刊:Nature
这篇文档是一篇发表于 Nature 期刊的原创性研究论文，旨在通过理解用户需求来指导生成式人工智能模型的发展，以更好地支持创意构思。本研究聚焦于游戏开发领域，引入了一个名为“世界与人类行为模型”的新型生成模型，并围绕一致性、多样性和持久性三个关键能力进行了系统性开发与评估。
一、 研究作者、机构与发表信息
本项研究由来自微软研究院、微软游戏部门、剑桥大学以及产业界合作伙伴的多个团队合作完成。通讯作者及主要贡献者包括 Anssi Kanervisto, Dave Bignell, Linda Yilin Wen, Martin Grayson, Raluca Georgescu, Sergio Valcarcel Macua, Shan Zheng Tan, Tabish Rashid, Tim Pearce, Yuhan Cao, Abdelhak Lemkhenter, Chentian Jiang, Gavin Costello, Gunshi Gupta, Marko Tot, Shu Ishida, Tarun Gupta, Udit Arora, Ryen W. White, Sam Devlin, Cecily Morrison & Katja Hofmann。
该研究成果以 “World and human action models towards gameplay ideation” 为题，于2025年2月19日在国际顶级学术期刊 Nature 上发表。
二、 学术背景与研究目标
本研究的核心科学领域是人工智能，特别是生成式人工智能在创意产业中的应用，以及人机协作的创意支持工具。生成式AI在文本、图像、音频、视频乃至游戏序列生成方面取得了快速进展，并被广泛应用于创意产业。然而，现有模型的能力与创意从业者的期望之间仍存在差距，限制了这些技术在创意实践中的深度整合。
研究团队指出，迭代调整和发散性思维是技术赋能创造力的关键，但现有最先进的生成式AI模型对这些实践的支持不足。为了解决这一挑战，本研究提出了一个以用户为中心的模型开发与评估新范式。具体而言，研究团队选择游戏开发作为研究视角，因为它需要多种创意技能，能提供丰富的多模态数据，并且是娱乐产业中最大的领域，拥有超过30亿的受众。
本研究的主要目标是： 1. 通过对游戏开发创意人员进行用户研究，深刻理解其在创意构思过程中的核心需求。 2. 基于用户需求，提炼出一套对支持创意实践至关重要的生成模型能力评估标准。 3. 开发一个先进的生成模型（WHAM），并证明其在所提能力上的有效性。 4. 构建一个概念原型，以探索这些模型能力如何支持具体的创意实践。
三、 详细研究流程
本研究采用了一个从用户研究出发，到模型需求定义、模型开发、模型评估，最终构建概念原型的完整闭环工作流程。
流程一：用户需求调研
为了解游戏开发创意人员的需求，研究团队进行了一项半结构化的访谈研究。研究对象为来自8个游戏工作室的27名创意人员，包括独立工作室、3A工作室和游戏无障碍开发团队，确保学科背景和地理分布的多样性。研究获得了微软研究伦理审查委员会的批准，并获得了所有参与者的知情同意。
研究人员使用了设计探针这一工具来激发参与者的思考。该探针模拟了一套虚构但具象化的生成式AI能力，允许参与者通过自然语言、图像修改或示例引导等方式影响生成结果。在一个90分钟的线上会议中，参与者被引导探索设计探针，并讨论这些能力如何融入其个人或集体的创意流程。
访谈数据被转录后，采用主题分析法进行分析。分析聚焦于AI与创意实践的讨论，最终识别出两个核心主题，它们对AI模型开发具有重要启示： * 发散性思维：创意人员需要将多样化的新想法置于一个一致的游戏世界背景中，以实现有意义的创新。 * 迭代实践：为了体验创意自主权，创意人员需要能够控制迭代过程，例如他们做出的直接修改应被模型采纳并引导后续生成。
基于这两个主题，并结合现有文献，研究团队推导出三个关键的生成模型能力：一致性（生成的序列应与游戏机制保持一致并在时间上连贯）、多样性（模型应能产生多种反映不同潜在结果的序列以支持发散思维）、持久性（模型应能持久化用户的修改，将其融入生成的游戏序列中）。
流程二：模型开发
基于对关键能力的理解，研究团队提出了“世界与人类行为模型”。WHAM的核心任务是建模现代3D视频游戏随时间变化的动态，包括预测游戏视觉画面（“帧”）和玩家控制器动作。
建模对象与数据：为了展示该框架在建模复杂游戏动态方面的潜力，研究团队与游戏工作室 Ninja Theory 合作，使用其游戏 Bleeding Edge 的真实人类游戏数据训练WHAM。使用了两个数据集：包含所有七个地图约50万场匿名游戏会话的“7地图数据集”，以及过滤后仅包含Skygarden地图约1年游戏数据的“Skygarden数据集”。总计利用了超过7年的连续游戏数据。
模型架构与算法：WHAM的设计体现了三项关键能力。它是一个基于Transformer架构的自回归序列预测模型。为了将图像编码为离散令牌序列，使用了VQGAN图像编码器。对于游戏手柄动作，将操纵杆坐标离散化为多个桶。模型的核心创新在于将数据框架化为交替的图像和控制器动作的离散令牌序列。一个仅解码器的Transformer被训练来预测这个交错序列中的下一个令牌。这样的设计实现了：1）通过序列建模满足一致性要求；2）通过学习数据的序列条件分布实现多样性；3）通过在生成过程中修改令牌（如图像编辑或动作指定）来实现持久性。
研究团队训练了多个规模的WHAM模型，其中最大的模型是一个拥有16亿参数的Transformer，上下文长度为1秒（10帧），每张图像编码为540个令牌，在7地图数据集上进行训练。
流程三：模型评估
研究团队提出了一套专门的方法论来评估模型在一致性、多样性和持久性方面的表现，并以此评估WHAM。
一致性评估：
方法：采用Fréchet视频距离作为衡量指标。具体方法是，使用WHAM生成游戏视觉序列，条件输入为1秒的真实游戏片段（包括视频和动作），以及后续10秒人类玩家所采取的真实控制器动作。将生成的10秒视频与真实的人类游戏视频进行比较，FVD分数越低，表明模型越准确地捕捉了底层游戏的结构。
对象与样本：使用了1,024个未参与训练的人类游戏视频（每个10秒长）作为真实基准。每个视频用于生成相应的WHAM视频。
验证：通过人工标注（评估结构、动作、交互的一致性）验证了低FVD分数与高人类感知一致性之间的相关性。
多样性评估：
方法：使用Wasserstein距离来衡量模型生成的动作分布与真实人类动作分布的接近程度。距离越接近人类-人类基线（从人类动作序列中随机抽取两个子集计算的平均距离），说明模型生成的动作多样性越好。
对象与样本：同样使用1,024个视频序列。从每个序列中，利用初始帧和动作为条件，生成100个时间步（包含图像和动作）。通过比较人类动作集和WHAM预测动作集的边际分布来计算距离。
补充：还通过定性分析检查了行为多样性（例如玩家角色的不同导航路径）和视觉多样性（例如角色滑板的不同皮肤）。
持久性评估：
方法：设计了一个人工编辑实验来评估模型对用户修改的持久化能力。
对象与处理：手动编辑游戏图像，在8个合理但新的游戏位置插入三种元素：游戏内物体（能量电池）、其他玩家角色（盟友或对手）、地图元素（垂直跳板）。
实验设计：对于每个元素和位置，使用16亿参数的WHAM，在两种条件下（条件输入为1张或5张编辑后的图像）生成10张图像（即1秒视频）。为了考虑模型输出的多样性，对每张编辑图像重复生成10次。
结果分析：由7名研究者（非编辑者）对生成的视频进行盲法标注，判断插入的元素是否在生成视频中持续存在。类别包括：“持续存在”、“在合理移动前持续存在”、“不可用”、“未持续存在”。
流程四：概念原型构建
为了展示WHAM如何支持用户研究中识别的迭代实践和发散性思维，研究团队构建了一个名为“WHAM演示器”的概念原型。这不是一个完整的用户体验，而是对特定设计模式的探索。该演示器提供了一个与WHAM模型交互的可视化界面，支持多种提示方式，允许用户通过视觉（而非文本）提示、生成多个可能的分支、选择并修改任何帧（如添加对手角色）或提供控制器输入来引导生成，从而在创意实践中保持控制权。
四、 主要研究结果
一致性结果： 量化结果显示，随着模型规模和计算预算的增加，FVD分数得到改善，表明模型一致性不断提高。最大的16亿参数WHAM在使用更高分辨率图像后，FVD进一步降低。定性结果显示，16亿参数的WHAM能够生成长达2分钟且高度一致的游戏序列，角色遵循游戏物理规则，不会穿墙而过。人工分析证实，FVD的降低与人类感知的结构、动作和交互一致性的提高密切相关。
多样性结果： Wasserstein距离的量化结果显示，所有模型的训练过程中，该距离均不断下降，并接近人类-人类基线。一个有趣的发现是，尽管使用了更多计算资源，16亿模型的多样性略差于8.94亿模型。研究团队假设，这可能是因为图像令牌更多、词汇表更大，导致模型对动作令牌损失的关注相对较少。为了验证，他们训练了一个对动作损失进行10倍加权（up-weighted）的16亿模型，结果显示其Wasserstein距离相比原16亿模型有所改善。定性评估展示了模型从相同的起始上下文生成的行为和视觉多样性，例如玩家角色可以采取不同的移动路径，角色外观也有变化。
持久性结果： 手动编辑实验的定量结果（汇总于表1）显示，当条件输入为5张编辑图像时，WHAM的持久性相比仅输入1张图像有显著提升，对所有元素类型的持久成功率均达到85%或更高。例如，能量电池在生成序列中稳定存在；插入的对手角色会开始攻击玩家角色并造成伤害；即使垂直跳板被插入到真实游戏中从未出现过的地图区域，它也能在生成中被持久化。深入分析表明，在5张和10张输入图像条件下，持久性表现相当，但都显著优于1张图像条件。同时，持久性的成功率受编辑元素的大小、与背景的对比度以及位置的合理性影响。
五、 结论与研究价值
本研究的结论是，可以通过理解用户需求来引导生成式AI的发展，确保其在创意过程中支持而非削弱人类的主体性。具体而言： 1. 模型开发新范式：研究提出并实践了一种以用户为中心的生成式AI模型开发与评估方法论。优先考虑一致性、多样性和持久性这三项能力，可以将机器学习研究导向支持人机协作、赋能人类创造力和自主权的创新方向。 2. 模型能力验证：研究证明了现代AI方法能够通过在大规模人类游戏数据上训练，实现这些关键能力。WHAM模型能够生成与3D游戏世界和物理机制一致的序列，同时保持多样性和对用户修改的持久化。 3. 广泛适用潜力：由于WHAM完全从游戏数据中学习，无需先验领域知识，这一方法有望复制到广泛的现有游戏中，并最终泛化到新的游戏和类型。更重要的是，这类生成式AI模型消除了为特定领域手工构建或学习领域特定模型的需要，有望将创意支持扩展到音乐、视频等其他领域。
本研究的科学价值在于，为生成式AI在创意支持领域的研究提供了清晰的理论框架（三项关键能力）和系统的评估方法。其应用价值在于，为游戏开发乃至更广泛的创意产业提供了下一代AI辅助工具的潜在技术路径和设计原则，强调了技术在赋能而非取代人类创造力方面的角色。
六、 研究亮点
以用户为中心的AI研究路径：本研究最突出的亮点是其研究范式——从深入的、基于设计探针的用户研究出发，提炼出抽象的模型能力需求，并以此驱动具体的模型技术开发和评估，形成了一个完整且逻辑严谨的研究闭环。这在AI技术导向的研究中颇具创新性。
三项核心能力框架的提炼：一致性、多样性和持久性这三个概念的提炼精准地抓住了当前生成式AI在支持创意构思时的核心短板，并提供了可量化评估的维度，对后续研究具有重要的指导意义。
WHAM模型的技术实现：将复杂的3D游戏动态建模为交错的多模态离散令牌序列，并利用大规模Transformer进行自回归预测，展示了现代生成式AI方法学习复杂世界结构的能力。模型在保持长时一致性的同时，还能实现多样化和可引导的生成，技术上有显著进展。
系统性的评估体系：研究不仅提出了新模型，更构建了一套与之匹配的、从量化指标（FVD, Wasserstein距离）到人工编辑实验的综合性评估体系，确保了研究结论的可靠性和说服力。
从模型到概念的完整呈现：研究不仅停留在模型层面，还通过“WHAM演示器”这一概念原型，生动地展示了如何将模型能力转化为支持创意实践的具体交互模式，连接了技术可能与用户体验。
七、 其他有价值的内容
研究团队秉持包容性和伦理原则，在用户研究招募中特别考虑了全球南方和由残障人士领导的工作室。模型训练所使用的数据均经过匿名化处理，并获得了相应的伦理和合作协议批准。此外，研究团队承诺开源，将在论文发表时公开WHAM的模型权重、评估数据集样本以及WHAM演示器，为后续研究和探索提供基础，这极大提升了研究的可重复性和社区贡献价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问