生成式人工智能与战略决策评估

分享自：
生成式人工智能与战略决策评估

期刊:Strategic Management JournalDOI:10.1002/smj.3677
生成式人工智能与战略决策评估：人工智能如何扮演“战略家”角色
由Anil R. Doshi（伦敦大学学院管理学院）、J. Jason Bell（牛津大学赛德商学院）、Emil Mirzayev和Bart S. Vanneste（均来自伦敦大学学院管理学院）共同完成的研究《Generative artificial intelligence and evaluating strategic decisions》（生成式人工智能与战略决策评估）发表于2024年10月13日在线接收，并于2025年正式刊载于《Strategic Management Journal》第46卷。这项研究深入探讨了在战略决策这一充满不确定性的复杂领域，以大型语言模型（LLMs）为代表的生成式人工智能（Generative AI）如何发挥其作为“人工评估者”的潜力，以及如何通过聚合其评估来提升预测的可靠性。
学术背景与目标 战略决策以其重要性、不确定性和不可逆性（或高昂逆转成本）为核心特征，因此，对备选方案的价值进行准确预测是战略决策制定的核心。传统的战略远见研究聚焦于人类评估者——他们的认知、经验、偏见——以及如何通过组织结构聚合个体预测来获取“群体的智慧”。随着生成式人工智能的迅猛发展，尤其是大型语言模型的崛起，为我们提供了一种全新的、可能的人工评估者。LLMs经过海量文本数据训练，具备强大的模式识别和内容生成能力，且无需针对特定任务进行额外的监督学习（supervised learning），仅通过指令（“提示”，prompt）即可应对新情境，这使其在数据往往有限且情境独特的战略决策领域展现出应用前景。然而，LLMs是否适合评估战略决策尚不明确。一方面，它们可能因缺乏对具体企业独特环境的深入理解而给出无用的建议；另一方面，其预测能力也可能通过聚合而得到提升。
基于此，本研究旨在扩展关于人类评估者及其预测聚合的研究，探索一个平行议题：人工评估者及其预测的聚合如何影响战略决策的评估。具体而言，研究聚焦于选择商业模型这一典型的战略决策，通过两项研究系统检验生成式AI评估的一致性、偏见，并探究通过聚合来自不同LLM、角色（role）和提示的评估，能否产生与人类专家判断相符的、更具价值的预测。本研究分解了聚合人工智能预测的收益，区分了“多样性效应”（diversity effect，即在给定规模下聚合来自不同来源的预测）和“规模效应”（scaling effect，即在给定多样性水平下聚合更多数量的预测）。
研究设计与流程详解 研究设计包含两个独立但相互印证的研究，均采用成对比较法评估商业模型的成功可能性，并对比人工智能与人类评估者的排名一致性。
研究一：人工智能生成的商业模型 本研究采用AI生成的商业模型，以控制商业模型的呈现风格、长度等无关变量，确保内部效度。
商业模型生成： 研究者使用GPT-4（gpt-4-0613版本）生成了60个初创企业商业模型。生成过程采用因子设计：从全球行业分类标准（GICS）中选取了10个不同行业（如商业印刷、客运、教育服务等）；使用两种提示方法——基础提示（base prompt）和思维链提示（chain-of-thought prompting）；并指定生成具有“低”、“中”、“高”成功概率的商业模型。最终从每个组合中随机选取一个符合字数要求的模型，确保模型在75至125词之间，风格一致。
评估过程： 评估在行业内进行所有可能的成对比较。评估者分为三类： 生成式人工智能评估者： 研究者构建了一个复杂的评估矩阵，涵盖7个不同的LLM（包括Claude2、PaLM2、Gemini Pro、Llama2、GPT-3.5、GPT-4、GPT-4 Turbo）、10种不同角色（如创始人、投资者、员工、客户、供应商、战略教授、行业专家等）以及2种提示（基础提示和思维链提示）。每个（LLM, 角色, 提示）组合都对所有成对商业模型进行评估。为了分析聚合效应，研究者创建了三种类型的“AI评估者”： 统一AI评估者（Uniform AI evaluator）： 聚合来自单个（LLM, 角色, 提示）组合的所有评估（最多300个成对评估）。共创建了130个这样的评估者。
混合AI评估者（Mixed AI evaluator）： 在保持评估数量（最多300个）不变的前提下，随机从多个LLM、角色和提示中分层抽样评估进行聚合，以考察“多样性效应”。同样创建了130个。
综合AI评估者（Comprehensive AI evaluator）： 聚合所有37,878个有效成对评估，代表最大程度的多样性和规模。
人类专家评估者： 通过邮件邀请了100位知名商学院的战略教授参与，最终51位完成评估，每人评估10个随机分配的成对商业模型，共获得510个评估。
人类非专家评估者： 通过在线平台Prolific招募了136名美国参与者，每人评估3个来自不同行业的成对商业模型，共获得408个评估。
数据分析与结果变量： 研究通过计算每个商业模型的“胜率”（在成对比较中获胜的比例）来生成排名。通过四个指标衡量AI评估者与人类专家评估的一致性： 皮尔逊相关系数（Pearson correlation）： 基于60个商业模型胜率的相关性。
斯皮尔曼秩相关系数（Spearman correlation）： 基于各行业内商业模型排名的相关性。
最佳选择一致性（Top choice）： AI与人类专家在每个行业中选择的最佳商业模型一致的比例。
最差选择一致性（Bottom choice）： AI与人类专家在每个行业中选择的最差商业模型一致的比例。
研究二：商业模型竞赛的真实案例 为检验研究一结论的外部效度，研究二使用了来自2016年美国某大学举办的、总奖金达100万美元的商业模型竞赛的真实数据。
商业模型： 从71份参赛作品中随机抽取了60份初创企业的详细商业模型计划书（平均字数超过2200词），内容结构化程度高。
评估过程： 生成式人工智能评估者： 方法与研究一类似，但根据模型输入容量和成本更新了LLM组合（使用Gemini Pro 1.0/1.5、Llama 3、Mistral Large、GPT-3.5、GPT-4o这6个模型），并对角色和提示的措辞进行了微调以适应真实商业模型的评估。商业模型被随机分为10组，成对比较在组内进行。最终获得了35,975个有效AI评估，并类似地构建了统一、混合和综合AI评估者。
人类专家评估者： 即竞赛的70名评委（包括企业家、投资者和学者）。他们使用预定义的标准（如创新性、可扩展性）对商业模型进行1-5分打分。每个商业模型由5名评委独立评分，其总得分作为人类专家评估的排名依据。
数据分析： 采用与研究一相同的四个一致性指标进行分析，排名在组内进行。
主要研究结果 两项研究得出了高度一致且相互印证的结论。
单个AI评估的局限性： 在成对评估层面，大型语言模型的表现存在显著问题。评估经常表现出不一致性（即商业模型A与B的比较结果，和B与A的比较结果不同）和偏见（系统性地偏好第一个或第二个选项）。在研究一中，一致性最高仅为80.9%（GPT-4 Turbo + 思维链提示），最低仅为42.2%；偏见表现为某些LLM严重倾向于选择第二个选项（如GPT-3.5基础提示下83.5%选后者），而另一些则严重倾向于第一个选项。研究二中也观察到了类似的高不一致性和偏见现象。这表明，依赖单一LLM、单一角色或单一提示的“一次性”询问，得到的评估可能不可靠。
聚合评估的有效性： 当聚合大量AI评估时，其与人类专家判断的一致性显著提高，且优于人类非专家。 在研究一中，综合AI评估者与人类专家的一致性最高：皮尔逊相关系数0.675，斯皮尔曼相关系数0.463，在10个行业中有5个选出了相同的最佳模型，有6个选出了相同的最差模型。混合AI评估者（体现多样性效应）的一致性高于统一AI评估者，而后者又高于人类非专家（仅在斯皮尔曼相关系数上例外）。
在研究二中，综合AI评估者同样表现出最高的一致性：皮尔逊相关系数0.663，斯皮尔曼相关系数0.720，在10个行业中有4个选出了相同的最佳模型，有6个选出了相同的最差模型。一致性排序同样是：综合AI评估者 > 混合AI评估者 > 统一AI评估者。
多样性效应与规模效应： 分解聚合收益发现，规模效应（聚合更多数量的评估）带来的提升远大于多样性效应（聚合来自不同LLM、角色、提示的评估）。在两个研究中，规模效应带来的各项指标提升幅度（8.5%至52.9%）均显著高于多样性效应（3.2%至9.5%）。这意味着，要获得可靠的AI评估，关键在于获取足够数量的预测（即使是来自相似来源），而不仅仅是追求来源的多样化。
研究间对比： 研究一（AI生成模型）和研究二（真实竞赛模型）的结果在定性和定量上高度相似，表明研究结论具有良好的普适性。虽然研究二中单个评估的不一致性和偏见略高于研究一（可能因为真实商业模型更复杂），但聚合后与人类专家的一致性水平相当，特别是在皮尔逊相关系数和最差选择一致性上几乎相同。
结论与意义 本研究得出核心结论：虽然生成式人工智能的单个评估可能不一致且存在偏见，但通过跨大型语言模型、角色和提示聚合大量评估，所得出的排名与人类专家的判断高度相似。 这为管理者利用生成式AI辅助战略决策提供了一条可行路径。
理论贡献： 引入“人工评估者”概念： 将战略决策评估的研究对象从人类扩展至人工智能，探讨了生成式AI作为潜在“战略家”或决策支持者的角色，为理解技术如何改变战略决策的制定主体和过程开辟了新视野。
探索人工评估者的聚合机制： 借鉴人类群体智慧的研究，首次系统探讨了如何通过LLM、角色和提示这三个维度来创造和聚合人工智能评估的多样性，并实证分解了多样性和规模对聚合效果的贡献。
实践启示： 为管理者将生成式AI整合到战略决策流程中提供了具体方法。建议管理者不应仅仅依赖对单一AI模型的一次性提问，而应有意识地聚合来自多个AI模型、不同视角（角色）和不同提问方式（提示）的评估。这种方法能以相对较低的时间和资源成本，获得对战略备选方案（如选择商业模型、评估收购目标、设计组织结构等）的多元化洞察，并可与人类专家的意见相结合，提升决策质量。
研究亮点： 方法严谨： 采用两项设计（内部效度优先的AI生成模型研究与外部效度优先的真实竞赛研究），相互验证，增强了结论的可信度。
设计精巧： 通过构建统一、混合、综合三种AI评估者，清晰地分离并量化了多样性效应和规模效应。
问题前沿： 敏锐地捕捉到生成式AI应用于战略管理这一前沿交叉领域的关键问题，即其在不确定性、复杂性任务中的可靠性和使用范式。
发现深刻： 指出在战略决策评估这类困难任务中，AI单个评估的缺陷与聚合评估的有效性并存，并强调规模比多样性更能驱动聚合收益，这一发现对实际应用具有直接指导意义。
未来展望 研究指出多个未来方向：比较AI评估与实际战略结果（而非仅与专家评分）的关系；探索加权聚合等更复杂的聚合方法；研究如何设计更有效的AI角色以优化评估；将研究拓展至商业模型评估之外的其它战略决策（如并购、市场进入）；以及探究生成式AI在战略决策全流程（如问题界定、方案生成、实施评估）中的作用。本研究标志着理解人工智能在战略决策中潜在变革作用的重要一步。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问