分享自:

计算教育中生成式人工智能的早期采用:2023年学生使用案例与观点

期刊:Proceedings of the 2024 Innovation and Technology in Computer Science Education v. 1 (ITiCSE 2024)DOI:10.1145/3649217.3653575

生成式人工智能在计算机教育中的早期应用:2023年学生使用案例与观点研究

作者与发表信息

本研究由C. Estelle Smith(科罗拉多矿业学院计算机科学系)领衔,联合Kylee Shiekh(物理系)、Hayden Cooreman(计算机科学系)等10位来自不同学科的学者共同完成。论文发表于2023年7月8-10日在意大利米兰举行的ITiCSE 2024会议(《Innovation and Technology in Computer Science Education》第一卷),并获得ACM ISBN 979-8-4007-0600-4/24/07的出版编号,采用知识共享许可协议(CC BY 4.0)。

学术背景与研究动机

研究领域:本研究属于计算机教育(Computing Education)与人工智能交叉领域,重点关注生成式人工智能(Generative AI, GenAI)对高等教育的影响。随着ChatGPT等工具在2022年11月的公开推出,GenAI技术以自然语言交互、多模态内容生成等特性迅速渗透教育领域,其通用性显著区别于传统针对性教学工具(如智能辅导系统ITS)。

问题提出:现有研究存在三个关键缺口:(1)缺乏计算专业学生对GenAI使用认知的实证数据;(2)大学政策滞后于技术发展,形成监管真空期;(3)需要建立分类学框架(Taxonomy)来系统记录快速演变的学生使用行为。研究团队抓住2023春季学期这一关键时间窗口,旨在捕获ChatGPT发布初期学生自发使用模式的”历史快照”。

研究目标:通过调查R1研究型大学计算机专业学生,实现三个层次目标:(1)建立GenAI采用率的基线评估;(2)识别学生教育/职业发展中的GenAI需求与担忧;(3)探讨GenAI对计算机科学(CS)教学法、课程体系及政策的影响机制。研究提出两个核心问题: - RQ1:在缺乏明确指导的情况下,计算专业学生如何采用GenAI工具? - RQ2:学生如何看待GenAI在其教育及未来职业中的角色?

研究方法与流程

调查设计

研究采用混合方法设计,包含量化问卷与质性开放问题。经过3轮预测试(含教育创新中心专家评审)优化问卷信效度。最终工具包含: 1. 使用频率评估:对三类GenAI工具(LLM聊天机器人、代码生成器、图像生成器)的五级使用频率量表(从”每日使用”到”仅出于好奇”) 2. 政策认知测量:课程AI政策存在性的四选项量表(从”大纲明示”到”完全未提及”) 3. 效益评估:GenAI对计算机科学领域影响的1-10级Likert量表 4. 开放问题:聚焦使用场景、教育角色认知、职业准备需求三大维度

样本与数据收集

目标人群:科罗拉多矿业学院所有计算机科学专业学生(本科生+研究生),通过部门邮件列表招募。选择该样本基于三点考量:(1)CS专业学生具有工具评估的专业能力;(2)学科跨度从大一本科生到博士生的完整学习阶段;(3)小规模工程院校的集中样本便于快速响应技术变革。

最终样本:133名有效应答者(占部门总人数9.2%),其中本科生116人(87.2%)、研究生17人(12.8%),涵盖各年级段(本科生28.4%为新生,研究生29.4%在读4年以上)。为控制偏差,采用匿名调查与礼品卡抽奖机制激励真实作答。

数据分析方法

量化分析:使用Python的pandas/scikit-learn库进行描述统计、卡方检验、Pearson相关分析,重点检验使用频率与效益认知的关联性。

质性分析:采用定向内容分析法(Directed Content Analysis)处理开放问题,通过六轮迭代建立编码手册(Codebook): 1. RQ1编码体系:包含3个一级代码(学习支持、编程辅助、写作辅助)、9个二级代码(如概念探索、代码调试、提纲生成) 2. RQ2编码体系:包含3个维度(实施方法、使用程度、论证逻辑)、12个子代码(如课程整合、职业准备、学习损伤担忧) 6名编码员通过Krippendorff’s α>0.6的可靠性检验后完成全样本编码。所有编码手册与原始数据通过bit.ly/genaicodebook公开。

主要研究发现

RQ1:GenAI采纳模式

工具采用差异:LLM聊天机器人使用率最高(18%每日使用,27.1%每周使用),代码生成器次之(8.3%每日使用),图像生成器尝试率仅36.1%。政策真空明显——33.8%课程完全未讨论AI使用,仅12.8%课程大纲包含正式政策。

三大使用范式(见图1编码分布): 1. 学习支持(32例): - 概念探索(Conceptual Exploration, 19例):通过AI获取课程概念的替代解释(如”当教授讲解简略时,ChatGPT能提供’降维’解释”) - 文档摘要(Summarization, 7例):处理冗长教学资料 - 非正式辅导(Informal Tutoring, 6例):在教师无法及时响应时获得帮助 2. 编程辅助(23例): - 代码起草(Code Drafting, 14例):生成基础代码框架后人工优化(”将GPT视为编程计算器”) - 代码解释(Code Explanation, 10例):理解现有代码逻辑(”用ChatGPT解析Copilot生成的代码”) - 调试支持(Debugging, 10例):比Stack Overflow更高效的错误诊断 3. 写作支持(21例): - 创意激发(Idea Generation, 4例):克服写作障碍 - 结构优化(Outlining/Revision, 11例):从提纲到语言风格的改进

关键发现:零应答者承认完全依赖AI完成作业,所有使用均强调”辅助性”。研究生更倾向概念探索(+12%),本科生更多代码起草(+8%)。

RQ2:教育角色认知

效益评估:学生总体持积极态度(本科生均值6.78/10,研究生7.41),使用频率与效益评分显著正相关(p<0.0008)。

政策期待(见图2编码): - 实施方法:53人主张”职业应用教学”,30人建议”课程整合” - 使用程度:68人支持”条件性使用”(Conditional Use),41人倾向”鼓励使用”,仅16人主张”禁止”

核心争议点(见表2对比案例): 1. 学习效果张力: - 损伤论(43例):担心AI导致”认知惰性”(”有学生盲目跟随AI输出,连基本纠错能力都丧失”) - 促进论(39例):肯定其”平行同事”价值(”AI能像人类导师一样分解复杂问题”) 2. 职业准备焦虑: - 技能危机(41例):86%研究生认为”避免AI等同职业自杀” - 就业替代(20例):担忧”三十年内人类程序员被AI取代” 3. 伦理风险: - 错误信息(15例):LLM的”幻觉”(Hallucination)问题 - 社会公平(14例):获取机会不平等引发的数字鸿沟

研究结论与价值

教育框架建议: 1. 教学法革新:倡导基于探究的学习(Inquiry-Based Learning),培养学生对AI输出的批判性验证能力。例如在入门课程限制代码生成但允许调试辅助,高阶课程则开放提示工程(Prompt Engineering)探索。 2. 课程阶梯设计:按学习阶段差异化整合GenAI,低年级聚焦概念探索,高年级训练职业场景应用。 3. 政策三元平衡:建议构建”文化-政策-工具”协同机制,通过技术护栏(Technical Guardrail)限制特定使用场景(如禁止作业代写但允许代码解释)。

学术贡献: 1. 方法论创新:建立首个针对CS学生GenAI使用的标准化编码体系,为纵向比较提供基准。 2. 实证发现:揭示”辅助而非替代”的主流使用模式,挑战”普遍作弊”的公众认知。 3. 政策时钟理论:捕获技术扩散与制度响应间的关键滞后期(Policy Lag)学生行为。

应用价值: 1. 教育决策:为AI政策制定提供学生视角证据,反对”一刀切”禁令。 2. 产业衔接:指出CS教育需加强”人机协作”能力培养,应对职场AI普及。 3. 技术开发:反映学生对可解释性(Explainability)与错误控制的迫切需求。

研究亮点与局限

创新性: - 时间敏感性:首个在ChatGPT发布6个月内完成的系统性研究 - 分类学贡献:建立可复用的使用场景分类框架 - 多学科视角:融合CS、教育学、心理学分析方法

局限性: - 样本代表性:小规模工程院校样本可能限制结论外推 - 自我报告偏差:敏感问题可能低报不当使用 - 技术迭代影响:研究后GPT-4等升级可能改变使用模式

未来方向: 1. 跨院校比较研究(不同规模/类型高校) 2. 学习效果纵向追踪(GenAI使用与成绩关联) 3. 课程模块开发(如”负责任的AI使用”工作坊)

该研究为理解AI时代计算教育转型提供了关键基线数据,其方法论框架已被后续多个研究团队采用。随着AI技术持续演进,这项工作将成为衡量教育适应性变化的重要参照点。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com