提示游戏：关于LLM评估代理在能源游戏中的试点研究

分享自：

提示游戏：关于LLM评估代理在能源游戏中的试点研究

能源工程与动力工程

工程学

期刊:extended abstracts of the chi conference on human factors in computing systems (chi ea ’24)DOI:10.1145/3613905.3650774

【点击此处】阅读全文、收藏及针对性提问

这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
作者及机构
 本研究由Andrés Isaza-Giraldo、Paulo Bala、Pedro F. Campos和Lucas Pereira合作完成。作者分别来自葡萄牙里斯本的Interactive Technologies Institute（ITI/LARSYS）、Universidade de Lisboa、Wow!Systems以及Instituto Superior Técnico（IST）。研究发表于2024年5月的*CHI EA ‘24: Extended Abstracts of the CHI Conference on Human Factors in Computing Systems*，属于人机交互（HCI）领域的会议论文。
学术背景
 研究领域为严肃游戏（serious games）与大型语言模型（LLMs）的结合应用，重点关注可持续能源教育。研究动机源于现有游戏在“意义性”（meaningfulness）设计上的不足——Nicholson提出的六大关键要素（游戏性、展示性、选择性、信息性、参与性、反思性）中，玩家自由选择与反思的缺失尤为突出。同时，能源社区（energy communities, ECs）作为新兴可持续能源模式，公众认知度低，亟需创新教育工具。因此，本研究旨在：(1) 验证LLM作为游戏评估代理的可行性；(2) 开发基于自然语言提示（natural language prompt）的快速游戏原型；(3) 探索此类游戏对能源知识传播的效果。
研究流程与方法
 1. 游戏原型设计
 - 框架：基于ChatGPT-3.5构建，通过单一自然语言提示定义游戏规则（9条）和8个渐进式关卡（从个体到大陆规模的能源挑战）。
 - 核心机制：LLM担任游戏中介，评估玩家开放性答案的“社会性”（pro-social）与“有效性”（effective），动态生成反馈（如CO₂减排量、居民满意度表情符号）。
 - 创新方法：提出“提示游戏”（prompt-gaming）概念，无需编程即可快速原型开发。
试点研究（Pilot Study）
设计：单组前后测准实验（one-group pretest-posttest），样本量13人（年龄21–40岁）。
 
流程：
 前测：填写人口统计学问卷、能源效率知识自评、能源社区定义开放性回答。
 
干预：玩家在ChatGPT-3.5中体验游戏，研究者记录交互行为。
 
后测：重复知识自评与定义回答，并收集游戏体验反馈（趣味性、LLM评估准确性等）。
 
数据分析：
 定量：Wilcoxon符号秩检验比较前后测知识水平变化。
 
定性：专家对玩家答案分类（T/P/E/F/U，即“社会性+有效性”至“无关”），并与LLM评估结果对比。
 
实验方法创新
评估标准：首次将LLM评估与专家评估（10年能源研究经验）系统对比，量化LLM作为游戏裁判的准确率（81%）。
 
动态难度：通过提示工程（prompt engineering）调整LLM评估严格度，探索渐进式挑战设计。
 
主要结果
 1. 知识获取效果
 - 自评数据：12名玩家后测报告对能源社区的认知提升（p<0.01，效应量0.59），其中8人从“无知识”变为“部分认知”。
 - 专家评估：玩家定义的准确性显著提高（p<0.01），“基本正确”比例从0%增至61.5%。
LLM评估性能
总体准确率：在117次玩家答案中，LLM与专家评估一致率为81%，但存在19%的误判（如将“无效但社会性”答案判为正确）。
 
误判模式：LLM倾向过度宽容，尤其对长文本或含合作词汇（如“协议”“共享”）的答案评分偏高。
 
游戏体验
玩家最认可“故事性”（10/13）和“自主决策”（8/13）设计，但动态计算的CO₂减排数据因LLM注意力分散导致不一致。
 
结论与价值
 1. 科学价值
 - 证实LLM可作为严肃游戏的开放性挑战评估代理，为教育游戏设计提供新范式。
 - 提出“自然语言提示开发游戏”的低门槛原型方法，助力非技术背景研究者。
应用价值
 为可持续能源科普提供高效工具，13名玩家中8人通过游戏获得能源社区新知。
 
揭示LLM评估的局限性（如对“社会性”偏见），为后续优化提供方向。
 
研究亮点
 1. 方法论创新：首次将LLM评估准确率量化为游戏设计核心指标。
 2. 跨学科融合：结合HCI、教育游戏设计与能源政策研究，推动LLM在严肃领域的应用边界。
 3. 快速原型验证：仅用自然语言提示实现功能完整的游戏，大幅降低开发成本。
其他发现
 - 伦理风险：游戏以玩家姓名启动可能引发性别/种族偏见（如LLM对不同姓名玩家的反馈差异）。
 - 长期影响：需进一步研究游戏对实际能源行为改变的持续性，当前仅验证短期知识获取效果。
此报告完整呈现了研究的学术逻辑与实证细节，可供研究者复现或拓展相关工作。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问