TreeQuestion：利用LLM生成的多选题评估概念学习成果

分享自：
TreeQuestion：利用LLM生成的多选题评估概念学习成果

期刊:Proc. ACM Hum.-Comput. Interact.DOI:10.1145/3686970
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
TreeQuestion：利用大语言模型生成选择题评估概念学习成果的学术报告
一、作者及发表信息
 本研究由清华大学（Tsinghua University）的Zirui Cheng、威斯康星大学麦迪逊分校（University of Wisconsin Madison）的Jingfei Xu和加州大学圣地亚哥分校（University of California San Diego）的Haojian Jin合作完成，发表于2024年11月的《Proceedings of the ACM Human-Computer Interaction》（Proc. ACM Hum.-Comput. Interact.）期刊，文章编号为431，共29页。
二、学术背景与研究目标
 科学领域：本研究属于教育技术与人工智能交叉领域，聚焦于生成式AI（Generative AI）在教育评估中的应用。
 研究背景：随着ChatGPT等大语言模型（LLM, Large Language Model）的普及，学生可通过AI工具快速生成开放式问题的长篇答案，导致教师需耗费大量时间评估答案并推断学习效果。传统开放式问题（open-ended questions）的评估效率低下，而人工设计高质量选择题（multiple-choice questions）又面临耗时长、干扰项（distractor）设计复杂等问题。
 研究目标：开发一个名为TreeQuestion的人机协同系统，通过LLM生成结构化选择题，替代传统开放式问题，以高效评估学生对概念（conceptual learning outcomes）的掌握程度，同时降低教师的工作负担。
三、研究流程与方法
 1. 系统设计与开发
 - 核心方法：提出“探索-验证-生成”（explore-validate-generate）编程模式，分三阶段生成选择题：
 - 探索阶段：教师输入目标概念（如“哈希加密”），系统基于布鲁姆分类法（Bloom’s Taxonomy）从LLM提取背景知识，生成不同认知层级（如记忆、理解、应用）的学习目标。
 - 验证阶段：将背景知识转化为知识图谱（knowledge graph），教师通过交互界面修正错误节点或冗余关系。
 - 生成阶段：根据知识图谱生成选择题题干和干扰项，并按树状结构组织问题，形成分层评估矩阵。
 - 技术创新：
 - 通过知识图谱确保干扰项的合理性和多样性。
 - 结合布鲁姆分类法设计问题层级，覆盖从低阶记忆到高阶分析的认知能力。
实验验证
研究对象：
 学生组：96名来自Amazon Mechanical Turk的参与者，完成6对匹配的开放式问题与TreeQuestion生成的选择题。
 
教师组：10名来自计算机科学领域的教师，分别设计开放式问题和使用TreeQuestion生成选择题。
 
实验设计：
 学生回答两类问题后，由3名教师按严格标准评分（开放式问题满分10分，选择题为二值评分）。
 
记录教师生成和评估问题的时间成本。
 
数据分析
采用重复测量方差分析（repeated measures ANOVA）比较学生在两类问题上的表现。
 
通过时间效率模型估算TreeQuestion在20人班级中的评估耗时占比。
 
四、主要研究结果
 1. 评估效果
 - 学生在TreeQuestion选择题与传统开放式问题中的得分无显著差异（p=0.06），表明生成的选择题能有效评估学习成果。例如，在“哈希与加密区别”问题中，选择题平均得分4.44（标准差1.22），开放式问题为3.81（标准差1.64）。
 - 分层分析显示，TreeQuestion能精准识别学生对不同概念层级的掌握情况（如“应用”层级正确率显著高于“记忆”层级）。
效率提升
教师使用TreeQuestion生成选择题的时间仅为人工设计开放式问题的1/3（96.7秒 vs. 281.9秒）。
 
在20人班级中，TreeQuestion仅需4.6%的时间即可完成评估（相比开放式问题）。
 
用户反馈
教师认为系统提供的背景知识覆盖全面（如P9评价“未遗漏关键点”），干扰项设计灵活（如P10指出“能快速生成高质量干扰项”）。
 
五、研究结论与价值
 1. 科学价值：
 - 验证了LLM生成的选择题在概念评估中的有效性，为教育评估提供了新范式。
 - 提出的“探索-验证-生成”模式为LLM在复杂任务中的可控应用提供了方法论支持。
应用价值：
 显著降低教师评估负担，适用于大规模在线教育场景。
 
通过树状问题结构实现细粒度学习诊断，助力个性化教学。
 
六、研究亮点
 1. 方法创新：首次将知识图谱与布鲁姆分类法结合，系统性生成分层选择题。
 2. 跨学科意义：融合教育心理学（布鲁姆分类法）、自然语言处理（LLM）和人机交互（交互式验证界面）三大领域。
 3. 实证严谨性：通过96名学生和10名教师的双盲实验验证系统效能。
七、其他有价值内容
 - 局限性：TreeQuestion目前仅支持概念评估，无法替代开放式问题在培养创造性思维中的作用。未来可探索结合芬克分类法（Fink’s Taxonomy）扩展评估维度。
 - 伦理讨论：研究指出需防范学生利用LLM直接回答选择题的风险，建议未来引入个性化问题生成技术。
此报告完整呈现了研究的学术贡献与应用潜力，为教育技术与AI交叉领域的研究者提供了重要参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问