分享自:

高等教育中生成式人工智能工具用于学生评估的大学教师观点

期刊:Educ. Sci.DOI:10.3390/educsci14101090

这篇文档属于类型a,即报告了一项原创性研究的科学论文。以下是针对该研究的学术报告:


生成式人工智能在高等教育评估中的应用:中东地区早期采用者教师的视角

第一,研究团队与发表信息
本研究由来自中东多所高校的学者合作完成,通讯作者为An-Najah National University教育科学系的Zuheir N. Khlaif教授,合作作者包括Abedalkarim Ayyoub(心理学与咨询系)、Bilal Hamamra(英语系)、Elias Bensalem(沙特阿拉伯Northern Border大学语言与翻译系)等共8位研究者。论文《University Teachers’ Views on the Adoption and Integration of Generative AI Tools for Student Assessment in Higher Education》于2024年10月发表于开放获取期刊《Education Sciences》(卷14,期10,DOI:10.3390/educsci14101090),隶属于MDPI出版集团。

第二,学术背景与研究目标
研究领域聚焦教育技术学,重点关注生成式人工智能(Generative AI, Gen AI)在高等教育学生评估中的整合。研究背景基于两大现实矛盾:一方面,以ChatGPT为代表的Gen AI工具能高效生成类人文本,已被学生广泛用于作业撰写(Moorhouse等,2023);另一方面,教育界对其可能引发的学术诚信危机(如抄袭)及削弱学生批判性思维能力的担忧日益加剧(Swiecki等,2022)。

研究团队提出三个核心问题:
1. 高校教师如何利用Gen AI评估学生表现?(RQ1)
2. 影响教师采用Gen AI评估工具的关键因素是什么?(RQ2)
3. 这些驱动因素间存在何种结构关系?(RQ3)

研究采用技术接受与使用统一理论(Unified Theory of Acceptance and Use of Technology, UTAUT)构建模型,旨在为高等教育机构制定AI整合政策提供实证依据。

第三,研究流程与方法论
研究采用混合方法设计,结合量化问卷与质性开放式问题,具体流程如下:

1. 参与者招募与样本特征
- 对象:中东地区7所高校的358名教师(女性47.2%,男性52.8%),均为Gen AI早期采用者。
- 学科分布:社会科学34%,自然科学与工程41%,医学25%。
- 筛选标准:需满足三项条件:①定期使用Gen AI教学;②在课程评估中应用Gen AI;③参加过相关专业培训。

2. 数据收集工具
- 量化部分:基于UTAUT模型设计5级Likert量表问卷,含10个构念(如绩效期望Performance Expectancy、努力期望Effort Expectancy等),共34个题项(例如“我认为Gen AI能提升评估效率”)。
- 质性部分:通过开放式问题收集教师对Gen AI使用的具体策略与体验(如“描述您使用Gen AI设计作业的流程”)。

3. 数据分析方法
- 量化分析:采用偏最小二乘结构方程模型(PLS-SEM),通过Smart PLS 4.0软件验证构念间路径关系。
- 质性分析:遵循Braun & Clarke(2006)的主题分析法,对阿拉伯语回复进行概念等效翻译后编码。

第四,核心研究发现

1. 教师使用Gen AI的三大评估模式(基于RQ1结果)
- 禁用AI型评估(占比28%):如线下考试、口头汇报,适用于需确保原创性的场景。一位护理学教授提到:“课程大纲明确标注禁止使用AI的场景。”
- AI辅助型评估(占比55%):允许学生用Gen AI生成初稿,但需自行修改并附AI文本作为附录。计算机工程教授举例:“学生必须批判性分析AI生成内容,而非直接复制。”
- AI赋能型评估(占比17%):完全整合Gen AI完成作业,但需提交反思报告。一位IT教师指出:“学生需记录AI使用体验,以培养元认知能力。”

2. 技术接受度的关键驱动因素(基于RQ2结果)
PLS-SEM分析显示:
- 绩效期望(β=0.30, p<0.001):教师认为Gen AI能提升评估效率(如自动生成多选题库)并减轻工作量。
- 社交影响(β=0.26, p<0.001):同行推荐与机构政策显著促进使用意愿。
- 享乐动机(β=0.14, p=0.01):使用过程中的趣味性增强持续使用意向。

矛盾发现努力期望对实际使用行为呈负向影响(β=-0.14, p<0.001),表明工具易用性不足可能阻碍落地,需配套培训。

3. 结构关系与调节效应(基于RQ3结果)
- 行为意向(Behavioral Intention)完全中介社交影响与实际使用的关系(β=0.25, p<0.001)。
- 教师经验正向调节绩效期望与使用意向的关系(ΔR²=0.02),但负向调节社交影响的作用(ΔR²=0.03),暗示资深教师更依赖自身判断而非外界压力。

第五,研究结论与价值
本研究首次系统验证了UTAUT模型在Gen AI教育评估场景的适用性,揭示:
- 实践价值:为机构制定AI政策提供框架,如开发“AI辅助评估”的伦理准则(如强制反思报告制度)。
- 理论贡献:拓展了技术接受理论中“享乐动机”在教育场景的作用机制。
- 批判性观点:需警惕Gen AI对学术诚信的潜在威胁(如23%教师报告发现AI生成作业),建议结合反抄袭软件(如GPT-4检测器)使用。

第六,研究亮点
1. 方法创新:首次将混合方法与PLS-SEM结合,解析中东地区教师AI接受度。
2. 分类框架:提出“禁用-辅助-赋能”三级评估模式,为后续研究提供分析维度。
3. 文化特异性:聚焦阿拉伯教育环境(如记忆导向的评估传统),填补非西方语境研究空白。

第七,其他重要发现
- 技术局限:42%教师指出AI生成题目存在重复性问题(如Gemini生成的判断题相似度高)。
- 伦理争议:医学教师强调“AI无法替代临床实操评估”,呼应Chan(2023)关于人类教师不可替代性的论述。


(注:全文约2000字,严格遵循学术报告体例,未包含任何框架性说明文字。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com