分享自:

智能作文评价的效果研究

期刊:开放教育研究DOI:10.13966/j.cnki.kfjyyj.2021.03.008

类型a:

智能作文评价的效果研究学术报告

作者及机构
本研究由刘淑君(浙江大学教育学院)、李艳(通讯作者,浙江大学教育学院)、杨普光(郑州外国语学校)、李小丽(浙江大学教育学院附属学校)、高红芳(杭州市萧山区金惠初中)合作完成,发表于《开放教育研究》(Open Education Research)2021年第3期(总第27卷),文章编号:1007-2179(2021)03-0073-12。

学术背景
本研究属于教育技术与语文教学交叉领域,聚焦人工智能(AI)在教育中的应用,具体探讨智能作文评价系统(Automated Essay Evaluation, AEE)的有效性。随着AI技术的发展,智能作文评价系统在欧美国家已广泛应用于大规模英语测试(如TOEFL、GMAT),而国内相关研究起步较晚,且中文作文评价面临语法复杂、语义理解难度高等挑战。传统作文教学存在教师反馈滞后、主观性强等问题,智能评价系统被视为潜在解决方案,但其有效性尚未得到充分验证。本研究旨在通过实证分析,回答三个核心问题:(1)智能评分与教师评分的一致性和相关性;(2)智能与教师反馈在类型与层次上的差异;(3)智能反馈的精准度表现。

研究流程与方法
1. 研究对象与工具
- 样本:选取Z初中和W高中共149篇作文(初中记叙文81篇,高中议论文68篇),题目涵盖课间经历、社会实践等主题(见表一)。
- 工具:采用国内成熟的“IN课堂语文作文智能批改系统”(简称IN课堂),该系统由国家语委指导开发,支持评分、句段点评及学情分析。

  1. 评分有效性验证

    • 一致性分析:计算智能评分与两位教师评分的精确一致(分差=0)和相邻一致(分差分)比例,并通过K-S检验验证数据正态性。
    • 相关性分析:使用SPSS 23计算皮尔逊相关系数。
    • 文本长度影响:以作文字数为自变量,分别对智能评分和教师评分进行一元线性回归,分析预测程度(R²)。
  2. 反馈类型与层次分析

    • 数据拆分:从101篇作文中提取2911个反馈单元(智能1955个,教师956个),按威尔逊分类法编码为直接反馈、提问反馈、信息反馈、表扬四类,并区分低阶(标点、语法等)与高阶(内容、结构等)技能。
    • 编码验证:通过两次背对背编码确保一致性(反馈类型Kappa=0.98,层次Kappa=0.81)。
  3. 反馈精准度检验

    • 标准生成:由两位教师标注20篇样本的低阶错误(如错别字、句式),研究者补充修正后作为金标准。
    • 指标计算:精确度=正确识别数/系统总识别数;召回率=正确识别数/实际错误总数。

主要结果
1. 评分有效性
- 智能与教师评分的一致性达87.25%,高于教师间一致性(85.90%);两者相关系数为0.63(p<0.01),与教师间相关性强弱相当。
- 文本长度对智能评分的预测度为35%,略高于教师(29%),但均处于合理范围,未出现过度依赖。

  1. 反馈类型与层次

    • 类型差异:智能反馈中表扬占比77.70%,远高于教师(24.58%);教师直接反馈(53.14%)和提问反馈(16.11%)更突出。智能系统呈现“直接+信息”组合(如指出错误后提供修改建议),教师则倾向“直接+提问”组合(如纠错后启发思考)。
    • 层次共性:两者均侧重高阶技能反馈(智能74.37%,教师81.07%),但智能更关注写作特色(29.05%),教师聚焦内容选材(47.07%)。
  2. 反馈精准度

    • 智能反馈精确度(94.44%)与教师(95.24%)接近,但召回率较低(11.89% vs. 6.99%),即80%以上错误未被识别。智能在标点格式召回率最高(27.59%),教师则在错别字(18.75%)表现更好。

结论与价值
1. 科学价值
- 首次系统验证中文智能作文评价系统的有效性,填补了国内实证研究空白。结果表明,IN课堂在评分效度上与英语系统(如E-rater)相当,且高阶反馈占比显著提升,突破了早期系统仅关注低阶技能的局限。
- 揭示了人机反馈的互补性:智能擅长即时、标准化反馈,教师长于个性化指导和深度互动。

  1. 应用建议
    • 技术优化:需提升语义理解能力以提高召回率,并开发同伴互评等交互功能。
    • 教学整合:建议学校开展教师培训,推动人机协同模式,例如智能系统处理基础批改,教师专注高阶指导。

研究亮点
1. 方法创新:结合一致性、相关性、回归分析及精准度指标,多维度验证系统效能。
2. 发现突破:证明智能系统在高阶反馈上的潜力,挑战了“机器仅能处理低阶技能”的传统认知。
3. 跨学科意义:为AI与语文教学的深度融合提供了实证依据,推动教育技术从工具性应用向认知支持演进。

其他价值
研究受国家社科基金重大项目(19ZDA364)支持,其结论对政策制定者(如教育信息化规划)和企业(如系统迭代方向)均有参考意义。作者建议未来研究可扩大样本量,并跟踪长期使用对学生写作能力的影响。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com