基于大型语言模型的学生计划生成框架在游戏化学习环境中的适应性支架研究
作者及机构
本研究由北卡罗莱纳州立大学计算机科学系的Alex Goslen、Yeo Jin Kim、Jonathan Rowe和James Lester合作完成,发表于期刊*International Journal of Artificial Intelligence in Education (2025)*,DOI:10.1007/s40593-024-00421-1。
学术背景
本研究属于人工智能教育(AIED)与游戏化学习(Game-Based Learning, GBL)交叉领域,聚焦自我调节学习(Self-Regulated Learning, SRL)中目标设定与计划制定的关键环节。传统学习环境中,学生常因缺乏实时支架而在复杂任务中受挫。尽管游戏化学习环境(如Crystal Island)能通过交互数据提供个性化支持,但传统机器学习方法受限于数值化输入输出格式的不可解释性,且需大量训练数据。大型语言模型(Large Language Models, LLMs)的出现为自然语言表征的学生行为分析提供了新机遇。本研究旨在探索如何利用LLMs(如T5和GPT-3.5)自动生成学生问题解决计划,以实时支持其SRL过程。
研究流程与方法
1. 数据收集与预处理
- 研究对象:144名中学生(平均年龄13.2岁)在Crystal Island中的游戏交互数据,包含11,610条事件序列。
- 数据特征:每条事件序列包含动作类型(如“对话”“阅读”)、动作参数(如书籍标题、角色名称)和位置信息(24个游戏场景)。
- 计划工具:学生通过拖拽界面制定计划,每个计划包含1个高层级目标(如“收集数据”)和若干低层级动作(如“使用扫描仪检测物品”)。
模型构建
评估方法
主要结果
1. 模型性能对比
- T5模型:生成的计划在高层级动作类别上与学生计划高度一致(PH中位数66.7%),但低层级动作匹配率较低(PL中位数0%),表明其能生成语义相似但细节不同的计划。
- GPT-3.5模型:计划更简略(平均比学生计划少1个动作),且高层级匹配率较低(PH中位数50%),但能生成超出示例范围的合理计划(52.5%计划不含示例动作)。
目标类别分析
典型案例
结论与价值
1. 科学价值:首次验证了LLMs在开放世界游戏化学习环境中生成适应性计划的可行性,突破了传统方法需数值化转换的限制。
2. 应用价值:T5模型适合本地化部署,可实时生成个性化支架;GPT-3.5虽需API调用,但能提供更具创造性的计划建议。两者互补,可分别用于“效率优化”和“策略拓展”场景。
3. 教育意义:通过动态生成计划,系统可帮助学生避免游戏挫败感(如长期未完成目标时提供替代方案),或为高能力学生推送进阶挑战。
研究亮点
- 方法创新:首次将序列到序列(Seq2Seq)语言模型(如T5)应用于学生计划生成任务,并对比全监督微调与少量示例学习的优劣。
- 数据驱动:利用真实学生游戏日志训练模型,生成计划兼具个性化和可解释性。
- 跨模型验证:T5更贴近学生行为,GPT-3.5则展现更强的泛化能力,为不同教育场景提供技术选型参考。
其他发现
- 局限性:缺乏“最优计划”的黄金标准,未来需结合学习效果指标(如测试成绩)评估计划质量。
- 扩展方向:可探索GPT-4等更先进模型,或整合成就目标导向(Achievement Goal Orientation)以优化计划生成策略。
本研究为AIED领域提供了LLMs赋能适应性学习的新范式,其框架可扩展至其他教育游戏或在线学习平台。