混合课程场景下学生成绩预测模型可迁移性研究的学术报告
作者及机构
本研究由兰州大学高等教育研究院讲师罗杨洋(研究方向:混合教学中的学习分析)、清华大学教育研究院教授韩锡斌(研究方向:高等教育和职业教育混合教学)、中国石油大学(华东)材料科学与工程学院副教授宋玉强(研究方向:材料科学与工程教育)合作完成。论文发表于《清华大学教育研究》2024年第3期(Vol.45, No.3),DOI编号为10.14138/j.1001-4519.2024.03.015011。
学术背景
本研究属于教育数据挖掘(Educational Data Mining, EDM)与学习分析(Learning Analytics)交叉领域,聚焦混合课程(Blended Learning)中学生成绩预测模型的跨场景迁移问题。混合课程结合线上与线下教学,但其学生行为数据异质性高,导致现有预测模型难以跨课程应用。研究团队指出,模型可迁移性(Generalizability)的瓶颈在于训练数据特征、算法选择与目标课程适配性。为此,研究提出三个核心问题:
1. 如何选择混合课程样本以提升模型可迁移性?
2. 如何优化机器学习算法以增强模型泛化能力?
3. 模型迁移时需满足哪些目标课程特征条件?
研究流程与方法
研究分为模型构建与迁移验证两阶段,具体流程如下:
1. 数据收集与预处理
- 样本来源:收集A校2018年秋季至2020年春季两学期共4307门混合课程的在线行为日志及成绩数据,涵盖理工、人文、社科等多学科;B校一门课程2017-2019连续三学年数据用于迁移验证。
- 行为指标提取:从日志中提取20项在线行为指标(Online Behavior Indicator, OBI),如资源浏览、作业提交频次等,并加入学院信息,形成21维预测变量。
- 数据标准化:采用最大最小值归一化处理行为数据,成绩转换为五级分类变量(如A-E级)。
2. 混合课程分类与样本筛选
- 聚类分析:通过k-means算法按学生行为特征将课程分为五类:“不活跃型”(2244门)、“低活跃型”(345门)、“任务型”(1194门)、“阅览型”(451门)、“高活跃型”(73门)。其中,“高活跃型”课程半数以上行为指标均值和标准差达全样本最高值,且覆盖所有学科。
- 特征完整性验证:计算各类课程预测变量的对数化均值与标准差,发现仅“高活跃型”课程在所有指标上数值显著且分布均匀(无空白项),表明其数据覆盖全面、可变性强。
3. 预测模型构建与算法比较
- 算法选择:对比逻辑回归、随机森林(Random Forest, RF)、支持向量机等五种算法的批量学习方法,超参数调试后RF表现最优(准确率>70%)。
- 增量学习测试:首次在混合课程中引入增量学习方法(Incremental Learning),发现其模型迁移适应性优于批量学习,尤其在数据分布相似时准确率提升显著。
- 变量重要性分析:“高活跃型”课程的预测变量权重差异小于0.2,无单一“关键变量”,避免了传统模型因依赖特定行为指标导致的迁移失效。
4. 模型迁移验证
- 跨校应用:将A校“高活跃型”课程构建的RF模型迁移至B校课程,连续三学年预测准确率稳定在68%-72%。
- 条件分析:目标课程需满足两个条件:(1)学生在线行为分布与“高活跃型”课程相似;(2)采用增量学习算法动态更新模型参数。
主要结果与逻辑关联
1. 训练样本特征:“高活跃型”课程因样本规模大(73门)、特征完整(21项指标全覆盖)、数据可变性高(标准差对数化后分布均匀),成为理想训练集。其构建的模型在跨课程迁移时准确率下降幅度最小(%)。
2. 算法性能:增量学习通过动态整合新数据,使模型在B校迁移时准确率较批量学习提升8%。这一结果验证了算法鲁棒性对迁移效果的关键作用。
3. 迁移条件:目标课程与训练课程的行为数据分布相似性(通过欧氏距离测算)需高于阈值0.75,否则需通过增量学习重新校准模型。
结论与价值
1. 科学价值:首次系统性量化了混合课程预测模型可迁移性的三要素(样本特征、算法选择、目标适配),为教育数据挖掘提供了普适性框架。
2. 应用价值:提出“高活跃型”课程作为模型训练基准,帮助院校快速部署跨课程成绩预警系统;增量学习的应用降低了模型维护成本。
3. 方法论创新:开发了基于行为聚类的课程分类工具,解决了混合课程异质性导致的样本选择难题。
研究亮点
- 发现“高活跃型”课程的数据普适性:其广泛覆盖的学科属性和均衡的行为特征打破了传统模型对单一课程类型的依赖。
- 算法创新:在教育领域验证了增量学习在模型迁移中的优越性,为动态学习分析开辟新路径。
- 可迁移性量化标准:提出“行为分布相似性阈值”等可操作指标,推动学习分析从理论向实践转化。
其他价值
研究揭示了传统“关键变量”假设的局限性,呼吁关注多行为指标协同效应。此外,团队开源了预处理代码(含OBI提取工具),促进学术协作。