生成式人工智能与战略决策评估:人工智能如何扮演“战略家”角色
由Anil R. Doshi(伦敦大学学院管理学院)、J. Jason Bell(牛津大学赛德商学院)、Emil Mirzayev和Bart S. Vanneste(均来自伦敦大学学院管理学院)共同完成的研究《Generative artificial intelligence and evaluating strategic decisions》(生成式人工智能与战略决策评估)发表于2024年10月13日在线接收,并于2025年正式刊载于《Strategic Management Journal》第46卷。这项研究深入探讨了在战略决策这一充满不确定性的复杂领域,以大型语言模型(LLMs)为代表的生成式人工智能(Generative AI)如何发挥其作为“人工评估者”的潜力,以及如何通过聚合其评估来提升预测的可靠性。
学术背景与目标 战略决策以其重要性、不确定性和不可逆性(或高昂逆转成本)为核心特征,因此,对备选方案的价值进行准确预测是战略决策制定的核心。传统的战略远见研究聚焦于人类评估者——他们的认知、经验、偏见——以及如何通过组织结构聚合个体预测来获取“群体的智慧”。随着生成式人工智能的迅猛发展,尤其是大型语言模型的崛起,为我们提供了一种全新的、可能的人工评估者。LLMs经过海量文本数据训练,具备强大的模式识别和内容生成能力,且无需针对特定任务进行额外的监督学习(supervised learning),仅通过指令(“提示”,prompt)即可应对新情境,这使其在数据往往有限且情境独特的战略决策领域展现出应用前景。然而,LLMs是否适合评估战略决策尚不明确。一方面,它们可能因缺乏对具体企业独特环境的深入理解而给出无用的建议;另一方面,其预测能力也可能通过聚合而得到提升。
基于此,本研究旨在扩展关于人类评估者及其预测聚合的研究,探索一个平行议题:人工评估者及其预测的聚合如何影响战略决策的评估。具体而言,研究聚焦于选择商业模型这一典型的战略决策,通过两项研究系统检验生成式AI评估的一致性、偏见,并探究通过聚合来自不同LLM、角色(role)和提示的评估,能否产生与人类专家判断相符的、更具价值的预测。本研究分解了聚合人工智能预测的收益,区分了“多样性效应”(diversity effect,即在给定规模下聚合来自不同来源的预测)和“规模效应”(scaling effect,即在给定多样性水平下聚合更多数量的预测)。
研究设计与流程详解 研究设计包含两个独立但相互印证的研究,均采用成对比较法评估商业模型的成功可能性,并对比人工智能与人类评估者的排名一致性。
研究一:人工智能生成的商业模型 本研究采用AI生成的商业模型,以控制商业模型的呈现风格、长度等无关变量,确保内部效度。
- 商业模型生成: 研究者使用GPT-4(gpt-4-0613版本)生成了60个初创企业商业模型。生成过程采用因子设计:从全球行业分类标准(GICS)中选取了10个不同行业(如商业印刷、客运、教育服务等);使用两种提示方法——基础提示(base prompt)和思维链提示(chain-of-thought prompting);并指定生成具有“低”、“中”、“高”成功概率的商业模型。最终从每个组合中随机选取一个符合字数要求的模型,确保模型在75至125词之间,风格一致。
- 评估过程: 评估在行业内进行所有可能的成对比较。评估者分为三类:
- 生成式人工智能评估者: 研究者构建了一个复杂的评估矩阵,涵盖7个不同的LLM(包括Claude2、PaLM2、Gemini Pro、Llama2、GPT-3.5、GPT-4、GPT-4 Turbo)、10种不同角色(如创始人、投资者、员工、客户、供应商、战略教授、行业专家等)以及2种提示(基础提示和思维链提示)。每个(LLM, 角色, 提示)组合都对所有成对商业模型进行评估。为了分析聚合效应,研究者创建了三种类型的“AI评估者”:
- 统一AI评估者(Uniform AI evaluator): 聚合来自单个(LLM, 角色, 提示)组合的所有评估(最多300个成对评估)。共创建了130个这样的评估者。
- 混合AI评估者(Mixed AI evaluator): 在保持评估数量(最多300个)不变的前提下,随机从多个LLM、角色和提示中分层抽样评估进行聚合,以考察“多样性效应”。同样创建了130个。
- 综合AI评估者(Comprehensive AI evaluator): 聚合所有37,878个有效成对评估,代表最大程度的多样性和规模。
- 人类专家评估者: 通过邮件邀请了100位知名商学院的战略教授参与,最终51位完成评估,每人评估10个随机分配的成对商业模型,共获得510个评估。
- 人类非专家评估者: 通过在线平台Prolific招募了136名美国参与者,每人评估3个来自不同行业的成对商业模型,共获得408个评估。
- 数据分析与结果变量: 研究通过计算每个商业模型的“胜率”(在成对比较中获胜的比例)来生成排名。通过四个指标衡量AI评估者与人类专家评估的一致性:
- 皮尔逊相关系数(Pearson correlation): 基于60个商业模型胜率的相关性。
- 斯皮尔曼秩相关系数(Spearman correlation): 基于各行业内商业模型排名的相关性。
- 最佳选择一致性(Top choice): AI与人类专家在每个行业中选择的最佳商业模型一致的比例。
- 最差选择一致性(Bottom choice): AI与人类专家在每个行业中选择的最差商业模型一致的比例。
研究二:商业模型竞赛的真实案例 为检验研究一结论的外部效度,研究二使用了来自2016年美国某大学举办的、总奖金达100万美元的商业模型竞赛的真实数据。
- 商业模型: 从71份参赛作品中随机抽取了60份初创企业的详细商业模型计划书(平均字数超过2200词),内容结构化程度高。
- 评估过程:
- 生成式人工智能评估者: 方法与研究一类似,但根据模型输入容量和成本更新了LLM组合(使用Gemini Pro 1.0/1.5、Llama 3、Mistral Large、GPT-3.5、GPT-4o这6个模型),并对角色和提示的措辞进行了微调以适应真实商业模型的评估。商业模型被随机分为10组,成对比较在组内进行。最终获得了35,975个有效AI评估,并类似地构建了统一、混合和综合AI评估者。
- 人类专家评估者: 即竞赛的70名评委(包括企业家、投资者和学者)。他们使用预定义的标准(如创新性、可扩展性)对商业模型进行1-5分打分。每个商业模型由5名评委独立评分,其总得分作为人类专家评估的排名依据。
- 数据分析: 采用与研究一相同的四个一致性指标进行分析,排名在组内进行。
主要研究结果 两项研究得出了高度一致且相互印证的结论。
- 单个AI评估的局限性: 在成对评估层面,大型语言模型的表现存在显著问题。评估经常表现出不一致性(即商业模型A与B的比较结果,和B与A的比较结果不同)和偏见(系统性地偏好第一个或第二个选项)。在研究一中,一致性最高仅为80.9%(GPT-4 Turbo + 思维链提示),最低仅为42.2%;偏见表现为某些LLM严重倾向于选择第二个选项(如GPT-3.5基础提示下83.5%选后者),而另一些则严重倾向于第一个选项。研究二中也观察到了类似的高不一致性和偏见现象。这表明,依赖单一LLM、单一角色或单一提示的“一次性”询问,得到的评估可能不可靠。
- 聚合评估的有效性: 当聚合大量AI评估时,其与人类专家判断的一致性显著提高,且优于人类非专家。
- 在研究一中,综合AI评估者与人类专家的一致性最高:皮尔逊相关系数0.675,斯皮尔曼相关系数0.463,在10个行业中有5个选出了相同的最佳模型,有6个选出了相同的最差模型。混合AI评估者(体现多样性效应)的一致性高于统一AI评估者,而后者又高于人类非专家(仅在斯皮尔曼相关系数上例外)。
- 在研究二中,综合AI评估者同样表现出最高的一致性:皮尔逊相关系数0.663,斯皮尔曼相关系数0.720,在10个行业中有4个选出了相同的最佳模型,有6个选出了相同的最差模型。一致性排序同样是:综合AI评估者 > 混合AI评估者 > 统一AI评估者。
- 多样性效应与规模效应: 分解聚合收益发现,规模效应(聚合更多数量的评估)带来的提升远大于多样性效应(聚合来自不同LLM、角色、提示的评估)。在两个研究中,规模效应带来的各项指标提升幅度(8.5%至52.9%)均显著高于多样性效应(3.2%至9.5%)。这意味着,要获得可靠的AI评估,关键在于获取足够数量的预测(即使是来自相似来源),而不仅仅是追求来源的多样化。
- 研究间对比: 研究一(AI生成模型)和研究二(真实竞赛模型)的结果在定性和定量上高度相似,表明研究结论具有良好的普适性。虽然研究二中单个评估的不一致性和偏见略高于研究一(可能因为真实商业模型更复杂),但聚合后与人类专家的一致性水平相当,特别是在皮尔逊相关系数和最差选择一致性上几乎相同。
结论与意义 本研究得出核心结论:虽然生成式人工智能的单个评估可能不一致且存在偏见,但通过跨大型语言模型、角色和提示聚合大量评估,所得出的排名与人类专家的判断高度相似。 这为管理者利用生成式AI辅助战略决策提供了一条可行路径。
- 理论贡献:
- 引入“人工评估者”概念: 将战略决策评估的研究对象从人类扩展至人工智能,探讨了生成式AI作为潜在“战略家”或决策支持者的角色,为理解技术如何改变战略决策的制定主体和过程开辟了新视野。
- 探索人工评估者的聚合机制: 借鉴人类群体智慧的研究,首次系统探讨了如何通过LLM、角色和提示这三个维度来创造和聚合人工智能评估的多样性,并实证分解了多样性和规模对聚合效果的贡献。
- 实践启示: 为管理者将生成式AI整合到战略决策流程中提供了具体方法。建议管理者不应仅仅依赖对单一AI模型的一次性提问,而应有意识地聚合来自多个AI模型、不同视角(角色)和不同提问方式(提示)的评估。这种方法能以相对较低的时间和资源成本,获得对战略备选方案(如选择商业模型、评估收购目标、设计组织结构等)的多元化洞察,并可与人类专家的意见相结合,提升决策质量。
- 研究亮点:
- 方法严谨: 采用两项设计(内部效度优先的AI生成模型研究与外部效度优先的真实竞赛研究),相互验证,增强了结论的可信度。
- 设计精巧: 通过构建统一、混合、综合三种AI评估者,清晰地分离并量化了多样性效应和规模效应。
- 问题前沿: 敏锐地捕捉到生成式AI应用于战略管理这一前沿交叉领域的关键问题,即其在不确定性、复杂性任务中的可靠性和使用范式。
- 发现深刻: 指出在战略决策评估这类困难任务中,AI单个评估的缺陷与聚合评估的有效性并存,并强调规模比多样性更能驱动聚合收益,这一发现对实际应用具有直接指导意义。
未来展望 研究指出多个未来方向:比较AI评估与实际战略结果(而非仅与专家评分)的关系;探索加权聚合等更复杂的聚合方法;研究如何设计更有效的AI角色以优化评估;将研究拓展至商业模型评估之外的其它战略决策(如并购、市场进入);以及探究生成式AI在战略决策全流程(如问题界定、方案生成、实施评估)中的作用。本研究标志着理解人工智能在战略决策中潜在变革作用的重要一步。