分享自:

大型语言模型在创意工作中的角色:协作模式与用户专业性的影响

期刊:Management ScienceDOI:10.1287/mnsc.2023.03014

这篇文档属于类型a,是一篇关于大语言模型(LLM)在创意工作中协作模式的原创研究论文。以下是详细的学术报告:


一、作者与发表信息

本研究由Zenan Chen(德克萨斯大学达拉斯分校Naveen Jindal管理学院)和Jason Chan(明尼苏达大学Carlson管理学院)合作完成,发表于Management Science期刊2024年12月刊(第70卷第12期,页码9101-9117),标题为《Large Language Model in Creative Work: The Role of Collaboration Modality and User Expertise》。DOI号为10.1287/mnsc.2023.03014。


二、学术背景

研究领域与动机

研究聚焦于生成式人工智能(Generative AI)在商业创意任务中的应用,尤其是大语言模型(LLM)与人类协作的两种模式:
1. “代笔模式”(Ghostwriter Modality):LLM主导内容生成,人类仅作微调;
2. “顾问模式”(Sounding Board Modality):LLM提供反馈,人类主导创作。

研究背景基于以下问题:
- LLM的快速普及(如ChatGPT)使其被广泛用于广告文案等创意任务,但不同协作模式对业务成果的影响尚不明确;
- 现有研究多关注规则性任务(如分类),而LLM擅长开放性创意任务,需探索其与人类协作的优化方式;
- 用户专业水平(专家vs.非专家)可能调节协作效果,但缺乏实证证据。

研究目标

通过随机对照实验,量化两种协作模式对广告文案质量的影响,并揭示其机制(如锚定效应、语义差异)。


三、研究流程与方法

1. 实验设计

  • 参与者:355名通过Prolific平台招募的受试者(美国与英国用户),分为专家(有营销经验)和非专家(无经验),通过问卷筛选。
  • 分组:三组(代笔组、顾问组、无AI对照组),采用3×2(协作模式×专业水平)组间设计。
  • 任务:为iPhone保护壳撰写广告文案,最终文案通过Facebook/Instagram广告投放,以点击量(Ad Clicks)量化质量。

2. 关键操作

  • 代笔组:使用基于GPT-4的接口生成初稿,用户可编辑;
  • 顾问组:用户提交初稿后,LLM提供改进建议;
  • 控制组:无AI辅助。

3. 数据收集与分析

  • 广告效果:所有文案在相同预算下投放,记录点击量;
  • 文本分析
    • 语义差异(Semantic Divergence):通过OpenAI的text-embedding-ada-002模型计算文案间的余弦距离,评估创意多样性;
    • 修订程度:对比初稿与终稿的语义距离,分析锚定效应;
    • 文本特征:情感极性、可读性(Gunning Fog指数)、表情符号/标签使用量。
  • 主观评分:独立评估者对文案的创意性和质量打分。

4. 创新方法

  • 真实场景验证:首次将实验生成的广告直接投放至社交媒体,以实际点击量替代实验室评分;
  • 动态文本分析:追踪文案从初稿到终稿的演变过程,揭示协作模式对创作路径的影响。

四、主要结果

1. 协作模式与用户专业的交互效应

  • 非专家:顾问组点击量显著高于控制组(+25%),语义分析显示其文案更接近专家水平;代笔组无显著提升。
  • 专家:代笔组点击量低于控制组(-20%),因锚定效应限制其创造力;顾问组无显著差异。

2. 机制分析

  • 锚定效应:代笔组的文案语义差异最低(p<0.0001),且修订幅度小(终稿与初稿相似度高),表明LLM初稿抑制了用户创意;
  • 语义收敛:顾问组的非专家文案与专家控制组的语义距离缩短(p<0.01),LLM反馈帮助其掌握专业技巧;
  • 文本特征:代笔组文案含更多表情符号(均值6.06 vs. 顾问组0.03),而表情符号会降低点击量(β=-0.033, p<0.001)。

3. 创意性评估

  • 代笔组的文案创意性评分最低(3.97/10),显著低于控制组(4.52);顾问组未提升创意性,但优化了执行效率。

五、结论与价值

科学价值

  • 首次实证证明LLM协作模式的效果取决于用户专业水平,挑战了“AI普适增效”的假设;
  • 提出“锚定效应”是代笔模式损害专家表现的核心机制,丰富了人机协作的理论框架。

应用价值

  • 企业建议
    • 非专家应使用顾问模式,快速提升产出质量;
    • 专家需避免代笔模式,或通过训练减轻锚定效应;
    • 谨慎采用通用LLM(如GPT-4),需开发领域专用模型。
  • 劳动力市场影响:LLM可能缩小非专家与专家的绩效差距,但需警惕其对高阶创造力的抑制。

六、研究亮点

  1. 方法创新:结合随机实验与真实广告投放,突破传统实验室研究的局限性;
  2. 理论贡献:揭示协作模式、用户专业性与锚定效应的三重交互,为人机协作研究提供新范式;
  3. 实践意义:为企业部署LLM提供具体指南,避免“一刀切”式应用。

七、其他发现

  • 广告长度效应:短文案(<70词)中长度与点击量正相关,但超过阈值后无增益;
  • 时效性问题:LLM训练数据滞后可能导致策略失效(如表情符号的负面效应反映消费者偏好的演变)。

(全文完)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com