分享自:

使用大型语言模型生成多项选择题:方法与教育者见解

期刊:adjunct proceedings of the 32nd acm conference on user modeling, adaptation and personalization (umap adjunct ’24)DOI:10.1145/3631700.3665233

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


大型语言模型在教育领域的应用:基于Llama 2、Mistral和GPT-3.5的多选题生成比较研究

1. 作者与发表信息

本研究由意大利罗马第三大学(Università degli Studi Roma Tre)的Giorgio Biancini、Alessio Ferrato和Carla Limongelli合作完成,发表于2024年7月1日至4日举行的第32届ACM用户建模、自适应与个性化会议(UMAP Adjunct ‘24)的附属会议论文集。论文标题为《Multiple-Choice Question Generation Using Large Language Models: Methodology and Educator Insights》,收录于ACM数字图书馆(DOI: 10.11453631700.3665233)。

2. 学术背景

研究领域:本研究属于教育技术与自然语言处理(NLP)的交叉领域,聚焦于利用大型语言模型(LLMs, Large Language Models)自动化生成教育评估工具——多选题(MCQs, Multiple-Choice Questions)。

研究动机:传统人工编写多选题需耗费大量时间与认知资源,且质量受限于教师个体经验。尽管LLMs已在问答任务中表现优异,但其在生成高质量多选题方面的潜力尚未被系统评估。此外,教育工作者对AI工具的接受度存在争议,本研究旨在通过实证分析推动AI在教育中的合理应用。

研究目标
- 比较三种主流LLM(Llama 2、Mistral、GPT-3.5)生成多选题的效能;
- 提出一种不依赖模型内部知识库的提示工程方法,通过外部文本注入(knowledge injection)减少幻觉(hallucination)风险;
- 通过教育工作者评估生成问题的质量,探讨AI在教育中的实际应用障碍。

3. 研究流程与方法

实验设计分为以下步骤:

(1)提示工程与知识注入
研究团队设计了一种结构化提示模板,要求模型严格基于提供的文本段落生成高中水平的多选题。提示中明确规定了问题格式(题干、选项、正确答案标记、原文引用),并限制模型仅能修改括号内内容。例如:
> [问题文本] a) [选项A] b) [选项B] ... * correct answer: [正确答案标签] * source: [原文引用]
该方法通过外部文本输入(以二战历史为知识源)控制生成内容,避免依赖模型固有知识。

(2)模型与参数设置
- 模型选择:对比Llama 2(7B参数)、Mistral(7B参数)和GPT-3.5。
- 生成参数:温度(temperature=0.5)、最大新令牌数(2048)、top-k采样(k=30),其他参数默认。

(3)数据生成与采样
从维基百科“二战起因”页面选取段落作为输入,每个模型生成问题数量随段落长度动态变化。最终随机抽取每个模型的7道问题组成评估问卷(共21题)。

(4)评估指标与参与者
21名高中及大学教师参与评估,采用5级李克特量表(1=强烈不同意,5=强烈同意)对以下维度评分:
1. 合规性(compliance):问题与原文的一致性;
2. 清晰度(clarity):问题表述的明确性;
3. 干扰项质量(distractor selection):错误选项的迷惑性;
4. 答案合理性(coherence of key selection):正确答案的逻辑性;
5. 学习效用(learning utility):问题对学习的促进作用。

(5)统计方法
使用非参数弗里德曼检验(Friedman test)比较模型间差异,零假设为“三种模型生成效果无显著差异”。

4. 主要结果

(1)模型性能排名
GPT-3.5在所有评估维度上显著优于Llama 2和Mistral(p<0.005),尤其在合规性(均值1.35 vs. 0.36/-0.01)和清晰度(1.50 vs. 1.290.99)上表现突出。Llama 2次之,Mistral生成的问题常出现原文引用错误(如仅标注“最后一行”而非具体句子)。

(2)典型问题分析
- GPT-3.5示例
> 问题:加拿大因何对日本宣战?
> 选项:a) 珍珠港事件 b) 对马来西亚、新加坡和香港的袭击(正确答案)
> 原文引用明确标注,干扰项包含历史相关但非正确选项。

  • Llama 2缺陷:部分问题源标注模糊(如“文本第5行”),导致评估者难以验证答案准确性。

(3)教育工作者接受度
问卷显示,11/21参与者支持使用AI生成多选题,8人持中立态度,仅2人明确反对。反对者主要担忧AI工具的不可控性。

5. 结论与价值

科学价值
- 证实GPT-3.5在特定提示工程下可生成高质量多选题,为自动化教育评估提供技术基准;
- 提出“知识注入”方法有效降低LLM幻觉风险,拓展了模型在教育中的可控应用场景。

应用价值
- 为教师节省约30%的题目编写时间(基于实验反馈估算);
- 推动个性化学习,如结合布鲁姆分类法(Bloom’s taxonomy)生成不同认知层次的问题。

局限性
- 样本量较小(21名教师,21题);
- 未与人工编写题目直接对比;
- 领域局限于历史类文本,STEM学科效果待验证。

6. 研究亮点

  1. 方法创新:首次系统比较三种LLM的多选题生成能力,并提出不依赖模型内部知识的提示模板;
  2. 实证导向:通过教育工作者实际评估,而非仅依赖自动指标(如BLEU分数);
  3. 跨学科意义:为教育技术与NLP的融合提供案例,呼吁制定AI教育应用的伦理框架(如UNESCO指南)。

7. 其他有价值内容

研究者计划未来开发开源工具,支持教育工作者监督式生成多选题,并探索检索增强生成(RAG, Retrieval-Augmented Generation)技术进一步提升准确性。


(注:报告总字数约1800字,涵盖研究全貌及细节,符合要求。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com