分享自:

TreeQuestion:利用LLM生成的多选题评估概念学习成果

期刊:Proc. ACM Hum.-Comput. Interact.DOI:10.1145/3686970

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


TreeQuestion:利用大语言模型生成选择题评估概念学习成果的学术报告

一、作者及发表信息
本研究由清华大学(Tsinghua University)的Zirui Cheng、威斯康星大学麦迪逊分校(University of Wisconsin Madison)的Jingfei Xu和加州大学圣地亚哥分校(University of California San Diego)的Haojian Jin合作完成,发表于2024年11月的《Proceedings of the ACM Human-Computer Interaction》(Proc. ACM Hum.-Comput. Interact.)期刊,文章编号为431,共29页。

二、学术背景与研究目标
科学领域:本研究属于教育技术与人工智能交叉领域,聚焦于生成式AI(Generative AI)在教育评估中的应用。
研究背景:随着ChatGPT等大语言模型(LLM, Large Language Model)的普及,学生可通过AI工具快速生成开放式问题的长篇答案,导致教师需耗费大量时间评估答案并推断学习效果。传统开放式问题(open-ended questions)的评估效率低下,而人工设计高质量选择题(multiple-choice questions)又面临耗时长、干扰项(distractor)设计复杂等问题。
研究目标:开发一个名为TreeQuestion的人机协同系统,通过LLM生成结构化选择题,替代传统开放式问题,以高效评估学生对概念(conceptual learning outcomes)的掌握程度,同时降低教师的工作负担。

三、研究流程与方法
1. 系统设计与开发
- 核心方法:提出“探索-验证-生成”(explore-validate-generate)编程模式,分三阶段生成选择题:
- 探索阶段:教师输入目标概念(如“哈希加密”),系统基于布鲁姆分类法(Bloom’s Taxonomy)从LLM提取背景知识,生成不同认知层级(如记忆、理解、应用)的学习目标。
- 验证阶段:将背景知识转化为知识图谱(knowledge graph),教师通过交互界面修正错误节点或冗余关系。
- 生成阶段:根据知识图谱生成选择题题干和干扰项,并按树状结构组织问题,形成分层评估矩阵。
- 技术创新
- 通过知识图谱确保干扰项的合理性和多样性。
- 结合布鲁姆分类法设计问题层级,覆盖从低阶记忆到高阶分析的认知能力。

  1. 实验验证

    • 研究对象
      • 学生组:96名来自Amazon Mechanical Turk的参与者,完成6对匹配的开放式问题与TreeQuestion生成的选择题。
      • 教师组:10名来自计算机科学领域的教师,分别设计开放式问题和使用TreeQuestion生成选择题。
    • 实验设计
      • 学生回答两类问题后,由3名教师按严格标准评分(开放式问题满分10分,选择题为二值评分)。
      • 记录教师生成和评估问题的时间成本。
  2. 数据分析

    • 采用重复测量方差分析(repeated measures ANOVA)比较学生在两类问题上的表现。
    • 通过时间效率模型估算TreeQuestion在20人班级中的评估耗时占比。

四、主要研究结果
1. 评估效果
- 学生在TreeQuestion选择题与传统开放式问题中的得分无显著差异(p=0.06),表明生成的选择题能有效评估学习成果。例如,在“哈希与加密区别”问题中,选择题平均得分4.44(标准差1.22),开放式问题为3.81(标准差1.64)。
- 分层分析显示,TreeQuestion能精准识别学生对不同概念层级的掌握情况(如“应用”层级正确率显著高于“记忆”层级)。

  1. 效率提升

    • 教师使用TreeQuestion生成选择题的时间仅为人工设计开放式问题的1/3(96.7秒 vs. 281.9秒)。
    • 在20人班级中,TreeQuestion仅需4.6%的时间即可完成评估(相比开放式问题)。
  2. 用户反馈

    • 教师认为系统提供的背景知识覆盖全面(如P9评价“未遗漏关键点”),干扰项设计灵活(如P10指出“能快速生成高质量干扰项”)。

五、研究结论与价值
1. 科学价值
- 验证了LLM生成的选择题在概念评估中的有效性,为教育评估提供了新范式。
- 提出的“探索-验证-生成”模式为LLM在复杂任务中的可控应用提供了方法论支持。

  1. 应用价值
    • 显著降低教师评估负担,适用于大规模在线教育场景。
    • 通过树状问题结构实现细粒度学习诊断,助力个性化教学。

六、研究亮点
1. 方法创新:首次将知识图谱与布鲁姆分类法结合,系统性生成分层选择题。
2. 跨学科意义:融合教育心理学(布鲁姆分类法)、自然语言处理(LLM)和人机交互(交互式验证界面)三大领域。
3. 实证严谨性:通过96名学生和10名教师的双盲实验验证系统效能。

七、其他有价值内容
- 局限性:TreeQuestion目前仅支持概念评估,无法替代开放式问题在培养创造性思维中的作用。未来可探索结合芬克分类法(Fink’s Taxonomy)扩展评估维度。
- 伦理讨论:研究指出需防范学生利用LLM直接回答选择题的风险,建议未来引入个性化问题生成技术。


此报告完整呈现了研究的学术贡献与应用潜力,为教育技术与AI交叉领域的研究者提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com