分享自:

基于大型语言模型的学生计划生成在游戏化学习环境中的自适应支持

期刊:int j artif intell educDOI:10.1007/s40593-024-00421-1

基于大型语言模型的学生计划生成框架在游戏化学习环境中的适应性支架研究

作者及机构
本研究由北卡罗莱纳州立大学计算机科学系的Alex Goslen、Yeo Jin Kim、Jonathan Rowe和James Lester合作完成,发表于期刊*International Journal of Artificial Intelligence in Education (2025)*,DOI:10.1007/s40593-024-00421-1。

学术背景
本研究属于人工智能教育(AIED)与游戏化学习(Game-Based Learning, GBL)交叉领域,聚焦自我调节学习(Self-Regulated Learning, SRL)中目标设定与计划制定的关键环节。传统学习环境中,学生常因缺乏实时支架而在复杂任务中受挫。尽管游戏化学习环境(如Crystal Island)能通过交互数据提供个性化支持,但传统机器学习方法受限于数值化输入输出格式的不可解释性,且需大量训练数据。大型语言模型(Large Language Models, LLMs)的出现为自然语言表征的学生行为分析提供了新机遇。本研究旨在探索如何利用LLMs(如T5和GPT-3.5)自动生成学生问题解决计划,以实时支持其SRL过程。

研究流程与方法
1. 数据收集与预处理
- 研究对象:144名中学生(平均年龄13.2岁)在Crystal Island中的游戏交互数据,包含11,610条事件序列。
- 数据特征:每条事件序列包含动作类型(如“对话”“阅读”)、动作参数(如书籍标题、角色名称)和位置信息(24个游戏场景)。
- 计划工具:学生通过拖拽界面制定计划,每个计划包含1个高层级目标(如“收集数据”)和若干低层级动作(如“使用扫描仪检测物品”)。

  1. 模型构建

    • T5模型:基于T5-small(600MB参数)进行全监督微调,输入为累积事件序列(最长30步)、已完成目标和当前目标,输出为推荐的低层级动作序列。
    • GPT-3.5模型:采用少量示例学习(Few-Shot Learning)策略,通过API调用生成计划,输入包含游戏背景描述、目标列表及示例计划。
  2. 评估方法

    • 定量分析:比较模型生成计划与学生计划的匹配度,包括低层级动作精确匹配率(PL)和高层级动作类别匹配率(PH)。
    • 定性分析:按目标类别(如“收集数据”“形成诊断”)分组,分析动作分布差异,并提取典型案例说明模型生成计划的有效性。

主要结果
1. 模型性能对比
- T5模型:生成的计划在高层级动作类别上与学生计划高度一致(PH中位数66.7%),但低层级动作匹配率较低(PL中位数0%),表明其能生成语义相似但细节不同的计划。
- GPT-3.5模型:计划更简略(平均比学生计划少1个动作),且高层级匹配率较低(PH中位数50%),但能生成超出示例范围的合理计划(52.5%计划不含示例动作)。

  1. 目标类别分析

    • “收集数据”目标:T5生成计划中55.34%动作为“收集扫描物品”,与学生行为一致;GPT-3.5则过度依赖“探索”动作(94.33%)。
    • “形成诊断”目标:学生多使用“阅读科学内容”(71.62%),而T5倾向于推荐“评估假设”(39.86%),可能更高效。
  2. 典型案例

    • 目标“测试患者接触物品”:T5生成长动作列表(如“捡起生鸡肉、奶酪”),虽可能冗余但包含关键动作“使用扫描仪”;GPT-3.5则生成更全面的物品列表。
    • 目标“报告诊断”:GPT-3.5生成计划包含“填写症状”和“与护士对话”,完全符合游戏胜利条件,而学生计划常遗漏关键动作。

结论与价值
1. 科学价值:首次验证了LLMs在开放世界游戏化学习环境中生成适应性计划的可行性,突破了传统方法需数值化转换的限制。
2. 应用价值:T5模型适合本地化部署,可实时生成个性化支架;GPT-3.5虽需API调用,但能提供更具创造性的计划建议。两者互补,可分别用于“效率优化”和“策略拓展”场景。
3. 教育意义:通过动态生成计划,系统可帮助学生避免游戏挫败感(如长期未完成目标时提供替代方案),或为高能力学生推送进阶挑战。

研究亮点
- 方法创新:首次将序列到序列(Seq2Seq)语言模型(如T5)应用于学生计划生成任务,并对比全监督微调与少量示例学习的优劣。
- 数据驱动:利用真实学生游戏日志训练模型,生成计划兼具个性化和可解释性。
- 跨模型验证:T5更贴近学生行为,GPT-3.5则展现更强的泛化能力,为不同教育场景提供技术选型参考。

其他发现
- 局限性:缺乏“最优计划”的黄金标准,未来需结合学习效果指标(如测试成绩)评估计划质量。
- 扩展方向:可探索GPT-4等更先进模型,或整合成就目标导向(Achievement Goal Orientation)以优化计划生成策略。

本研究为AIED领域提供了LLMs赋能适应性学习的新范式,其框架可扩展至其他教育游戏或在线学习平台。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com