本文档的核心是一项关于人类战略决策的原创性实证研究,因此,报告将遵循类型a的结构生成。
学术研究报告
本研究由普林斯顿大学计算机科学系的Jian-Qiao Zhu、波士顿大学计算与数据科学学院的Joshua C. Peterson、哈佛大学经济系及美国国家经济研究局的Benjamin Enke,以及普林斯顿大学心理学系和计算机科学系的Thomas L. Griffiths共同合作完成。研究成果于2025年6月25日在线发表于学术期刊《nature human behaviour》(第9卷,第2114-2120页),论文标题为“Capturing the complexity of human strategic decision-making with machine learning”。
研究背景 本研究的科学领域横跨行为经济学、行为博弈论和计算认知科学。在战略互动中,经典的纳什均衡(Nash equilibrium)模型基于两个关键假设:个体对他人策略的信念具有一致性,以及个体能基于此信念做出最佳反应。然而,大量实验证据表明,人类在真实决策中经常违反这两个假设。因此,行为博弈论发展出了多种扩展模型来更贴合人类行为,例如引入有限战略思维深度(如level-k模型)、决策噪音(如量化反应均衡,quantal-response equilibrium)以及风险规避(risk aversion)等因素。
尽管模型繁多,但以往研究的评估主要依赖于基于少量特定游戏(如囚徒困境、协调博弈等)构建的相对较小的数据集。这使得我们对这些主流模型在更广泛战略情境下的普适性表现知之甚少。同时,即便在看似“简单”的2x2矩阵游戏中,不同游戏的认知难度也可能存在巨大差异,但我们对于游戏复杂性如何塑造行为的理解仍然有限。为此,本研究旨在通过对广阔的2x2矩阵游戏空间进行大规模、密集抽样,结合机器学习方法,系统地评估现有行为模型的解释力,并探索被现有模型忽略的系统性行为模式,从而更深入地理解人类战略决策的复杂性。
研究流程 本研究包含一个主要实验和一个预先注册的后续验证实验,具体流程如下:
流程一:构建大规模游戏数据集与收集人类决策数据 1. 游戏生成:研究团队采用程序化方法生成了一个包含2,416个2x2矩阵游戏的庞大集合。所有游戏的收益值均为1-50之间的整数。生成算法的核心是基于Robinson和Goforth提出的2x2博弈拓扑结构。该拓扑将每个玩家的收益矩阵视为一个收益排序图(ordinal order graph),每位玩家有12种独特的排序图。因此,理论上存在12 x 12 = 144种不同的博弈类型。研究者为其中至少存在一个纯策略纳什均衡的所有博弈类型生成了具体的收益矩阵。相比于文献中最大规模的元分析数据集,本研究的游戏数量扩大了17倍,极大拓展了研究场景的多样性。 2. 参与者与流程:通过Prolific学术平台招募了4,900名美国参与者,最终4,673人完成了实验。每位参与者需连续参与20个不同的游戏,这些游戏是从上述生成的游戏池中随机抽取且不重复的。总计记录了93,460个战略决策。 3. 实验设计:实验为一次性博弈,参与者始终扮演“行玩家”的角色,在行A和行B之间做出选择。每次游戏后均不提供反馈,且每次游戏都会为参与者随机重新匹配对手。这种设计旨在捕捉参与者的初始博弈策略,避免学习效应和声誉建立的影响。参与者的报酬包括固定酬金和基于随机抽取的一局游戏结果计算的奖金。
流程二:模型评估与对比 1. 基准设定:研究设定了两个性能基准。下限基准为随机模型(均匀随机预测)。上限基准为一个深度神经网络模型(多层感知机,MLP),该模型以整个游戏收益矩阵作为输入,直接输出预测的行玩家选择行A的概率。该MLP模型被视为数据预测能力的理论上限,但其本身是一个无法提供理论解释的“黑箱”。 2. 评估指标:核心评估指标是“完备性”(completeness)。它衡量一个行为模型在预测准确性上(以均方误差和R²衡量)相比于随机模型的改进程度,占MLP模型相比随机模型改进程度的百分比。例如,50%的完备性意味着该模型达到了MLP模型预测能力提升幅度的一半。 3. 对比模型:评估了一系列基于行为博弈论经典洞见的模型,这些模型均为“风险规避的level-k QR模型”的变体。该基线模型整合了三个关键行为参数:战略思维深度(k,代表迭代最佳反应的次数)、自身决策噪音(ηself,逆参数)以及对他人决策噪音的信念(ηsother)。所有模型均在训练集上通过最小化模型预测与游戏层面经验选择频率之间的均方误差进行拟合,并在验证集上评估性能。 4. 初步结果:标准纳什均衡的完备性仅为22%。而结合了level-1思维、QR噪音和风险规避的模型的完备性达到82%。这证实了行为博弈论的成功可以推广到更广阔的游戏空间,但也揭示了与MLP上限(100%)相比仍有显著差距。
流程三:开发情境依赖的行为模型 为了弥合上述差距,研究者质疑了现有行为模型的一个根本特性——情境不变性(context invariance),即无论游戏特征如何,模型参数(如k, ηself, ηsother)都被假设为固定不变。然而,来自其他决策领域(如风险彩票选择)的证据表明,模型参数可能高度依赖于具体问题的复杂性和认知难度。 研究团队采用了一种创新方法:将神经网络系统地整合到结构化的决策模型中,从而引入“情境依赖性”(context dependence)。具体而言,他们用神经网络(MLP)替代了原始模型中的一个或多个固定参数,这些神经网络以游戏矩阵为输入,输出与该游戏相适应的参数值。他们聚焦于三个关键行为参数: 1. 战略思维深度:通过神经网络建模玩家思维深度k的分布p(k)。 2. 自身决策噪音:神经网络学习映射函数 ηself = f_mlp(游戏矩阵),即“神经QR模型”。 3. 对他人的噪音信念:神经网络学习映射函数 ηsother = f_mlp(游戏矩阵),即“神经信念噪音模型”。
流程四:情境依赖模型的结果分析 将神经网络组件引入level-k QR模型后,模型的预测完备性大幅提升。 * 当仅让ηself随游戏变化时(Level-k神经QR模型),模型完备性提升至86%-91%。 * 当进一步让ηsother也随游戏变化时(Level-k神经QR + 神经信念噪音模型),模型完备性进一步提升至96%-97%。 * 表现最佳的模型(97%完备性)是“神经level-k混合 + 神经QR + 神经信念噪音 + 风险规避”模型,它允许所有三个关键行为参数随游戏情境变化。
分析发现,ηself的变化(自身噪音的情境依赖性)比ηsother的变化(对他人噪音信念的情境依赖性)对提升预测准确性的作用更大。具体而言,ηself的均值较高(9.28),表明玩家在大多数游戏中试图做出精确的最佳反应;而ηsother的均值较低(1.09),表明玩家普遍认为对手的决策噪音很高。这暗示了情境依赖性主要影响的是玩家自身优化反应的能力,而非推断他人行动的能力。 这一系列结果表明,玩家优化自身反应的能力以及推断他人行为的能力,都强烈依赖于所进行的特定游戏。研究者将这种敏感性归因于游戏复杂性,即(1)形成关于他人策略的信念,以及(2)基于这些信念做出最佳反应的认知难度。
流程五:构建并验证可解释的游戏复杂性指数 为了定量定义和验证游戏复杂性,研究者基于上述情境依赖模型(特别是Level-2神经QR + 神经信念噪音模型)的预测结果,开发了一个可解释的复杂性指数。 1. 指数构建:他们对模型预测的ηself值(高ηself表示低噪音、高决策精确度;低ηself表示高噪音、决策困难)与一系列游戏结构特征进行了最小绝对收缩和选择算子(LASSO)回归分析。分析筛选出了一组简洁但具有影响力的游戏特征,包括: * 文献中已有的特征:如达到均衡选择所需的迭代推理步数(levels of iterative rationality)。 * 新颖的特征:如衡量在不同策略间权衡的认知难度的指标(“超额相异性”,excess dissimilarity)、收益的方差与规模、以及玩家间收益的不平等性和不对称性。 将这些特征聚合,构成了一个“复杂性指数”。该指数在结构上可被解释为游戏特征所预测的(负向)ηself的大小。由于其基于客观的游戏特征,其他研究者可以在任何标准数据集中轻松计算。 2. 在主实验中的验证:该复杂性指数与参与者的决策反应时间呈显著正相关(皮尔逊r=0.21, p<0.01),表明在指数定义为更复杂的游戏中,参与者倾向于花费更多时间思考。 3. 后续验证实验:为了强化验证,研究团队进行了一个预先注册的后续实验。他们使用相同的算法生成了500个新游戏,并在1,008名新参与者中重复了主实验流程,但增加了一项:每次决策后,参与者需报告对自己所做选择是否为最佳决策的“认知不确定性”(cognitive uncertainty)百分比。 * 结果验证:复杂性指数成功预测了样本外的行为。它再次与反应时间正相关(r=0.23, p<0.01),并且首次与参与者自我报告的认知不确定性正相关(r=0.24, p<0.01)。这表明,面对更复杂的游戏,参与者不仅决策更慢,而且对自己的选择更不确定。 * 行为模式验证:如图3c所示,在后续实验中,策略选择频率与预期效用差异之间的关联,在高度复杂的游戏中再次出现了明显的“压缩”或“衰减”现象,即玩家的选择对效用差异变得不那么敏感,这与高噪音(高复杂性)的理论预测一致。
研究结论 本研究的核心结论是,人类战略行为(包括战略选择、决策时间和决策不确定性)可以通过一个“含噪音的最佳反应模型”来有效捕捉,但关键在于,模型中的“噪音”水平(即决策精确度)并非固定不变,而是高度依赖于具体游戏的复杂性。这种复杂性是可量化的,它由一系列客观的游戏结构特征决定,主要包括:(1)效率特征(如纳什均衡收益优势,Nash equilibrium payoff dominance);(2)识别最佳反应策略的认知难度(如超额相异性、迭代理性水平等)。 研究的心理学洞见在于,揭示了人类战略决策能力具有深刻的情境依赖特性,挑战了传统行为模型参数普适的假设。玩家的决策精确度会随着游戏矩阵呈现的认知挑战不同而系统性地变化。
研究意义与价值 1. 科学价值:本研究通过大规模实验与机器学习相结合的新范式,为行为博弈论提供了新的理论见解。它不仅系统评估了现有模型在广阔游戏空间的表现边界,更重要的是,它催生了一个新的、可解释的“游戏复杂性”构念,并提供了量化工具(复杂性指数)。这为未来研究人类如何应对不同认知难度的战略情境奠定了基础。 2. 方法论价值:研究展示了如何利用神经网络作为“发现工具”,来增强和启发传统的结构化行为模型,而非简单地替代它们。这种“神经增强行为模型”的方法,在保持模型可解释性的同时,显著提升了其描述和预测能力,为其他复杂人类行为的研究提供了方法论范例。 3. 应用潜力:研究开发的复杂性指数可用于预测新游戏的决策难度、反应时间和决策信心,在实验设计、人机交互界面设计、以及需要预测人类战略行为的应用领域(如经济学、政治学、商业竞争分析)具有潜在应用价值。
研究亮点 1. 数据规模与广度创新:构建了迄今为止规模最大、游戏类型覆盖最广的战略决策实验数据集(93,460个决策,2,416个游戏),实现了对2x2博弈空间的系统性密集抽样。 2. 方法融合创新:开创性地将深度神经网络作为“上限基准”和“参数化工具”,与经典行为博弈模型进行对比和融合,形成了“神经增强行为模型”的新研究路径。 3. 核心理论发现:首次通过大规模数据揭示了人类战略决策参数(尤其是决策精确度)具有深刻的情境依赖性,并成功将其归因于可量化、可解释的“游戏复杂性”。 4. 提出可推广的新构念:开发并跨样本验证了一个基于客观游戏特征的“复杂性指数”,该指数具有可计算、可推广的特点,为后续研究提供了新的分析工具和理论维度。 5. 多维度验证:不仅使用传统的选择数据,还结合了反应时间和新颖的“认知不确定性”自我报告,从多个行为维度交叉验证了复杂性指数的有效性,增强了结论的稳健性。
其他有价值的补充 研究也指出了自身局限,例如现实世界中的战略互动比实验室的矩阵游戏更加复杂和模糊,涉及意图、信誉、长期关系等未在模型中体现的因素。然而,研究提出的方法(尤其是能处理视觉或自然语言数据的神经网络模型)为未来建模更复杂、更贴近现实的战略行为指明了有前景的方向。此外,研究的所有数据集和代码均已公开,确保了研究的可重复性和可扩展性。