本文由王勃然(东北大学外国语学院)、金檀(中山大学国际汉语学院)、赵雯(东北大学外国语学院)合作撰写,发表于《外语研究》(Foreign Languages Research)2015年第5期。文章题为《自动写作评价研究与实践五十年——从单一、合作到交互》,系统梳理了自动写作评价(Automated Essay Evaluation, AEE)领域半个世纪的发展历程,并对其技术演进、理论争议及未来趋势进行了深度探讨。
自动写作评价指“通过计算机程序对书写文章进行评估和打分的过程”(Shermis & Burstein 2003),其核心目标是通过自然语言处理技术提取文本特征,生成与人工评分相当的分数和反馈。自1965年Page提出构想以来,该领域长期存在支持与反对两派争议:支持者强调其提升评分效率、降低成本的实用性(如ETS的e-rater系统与GMAT/TOEFL考试的结合),反对者则批判其缺乏对语义深度和交际意图的解读能力(如CCCCP 2004指出其“违背写作中人与人交流的本质”)。本文旨在通过技术、信度与构念(construct)三个维度,将50年发展划分为单一评分、合作评分与人机交互三个阶段,揭示其演进逻辑与存在问题。
此阶段以Page开发的PEG(Project Essay Grader)系统为代表,采用代理量度法(proxy measures):通过多元回归分析表层文本特征(如拼写、句长)与人工评分的相关性,建立加权评分模型。尽管PEG与人工评分的相关系数高达0.78–0.88(Attali & Burstein 2006),但其仅量化形式特征(如词汇复杂度),完全忽略内容、逻辑等深层构念。Clauser等(2002)质疑其效度本质是“蛮实证”(brute-empirical)的——即依赖人工评分作为黄金标准,而人类评分本身存在主观偏差(如光环效应、趋中性)。这一阶段的争议凸显了早期AEE的技术瓶颈:计算机无法理解语义,仅能作为“简单的区分机制”。
随着自然语言处理与人工智能技术进步,第二代系统如Intellimetric、e-rater和IEA(Intelligent Essay Assessor)尝试融合语言形式与内容特征。例如:
- e-rater 通过句法模块、语篇模块和主题分析模块,实现语言质量与内容质量的联合评估(Attali & Burstein 2006),其与人工评分的真分数相关系数达0.93;
- Intellimetric 基于500余项语义、句法特征,从主题连贯性、文章结构等5类维度评分(Elliot 2003)。
然而,这些系统多为商业专利产品(如Betsy除外),其特征权重未公开,效度验证多由开发商主导(Crusan 2010),引发独立研究缺失的质疑。此时学界提出“劳动分工法”:机器负责语言特征评分,人类专注高阶写作技巧(如论证质量),二者结合用于SAT、GRE等高风险考试(Haberman 2011)。
21世纪后,AEE转向教学辅助工具,代表性系统如My Access!、Criterion和句酷批改网,特点包括:
- 即时反馈:针对语法、词汇等微观层面提供诊断性建议(如Grammarly检测250种语法规则);
- 过程写作支持:通过“构思-修改-再反馈”循环促进自主学习(Deane 2013);
- 多模态交互:整合师生、生生互评机制,弥补机器在宏观评价(如内容创新性)上的不足(Chen 2008)。
但问题依然存在:系统反馈偏重表层错误(Hutchison 2007),对“内敛性较差”等模糊评语学生难以操作(如批改网案例),且可能诱导应试策略(Patterson 2005)。
作者指出AEE的核心矛盾在于构念效度(construct validity):现有系统难以测量“逻辑、幽默、反讽”等人类写作核心要素(Anson et al. 2013)。未来需突破三方面:
1. 跨学科合作:融合写作教师、心理测量学家与计算机语言学家的视角;
2. 算法革新:通过自然语言处理技术捕捉修辞与论证强度等高阶特征;
3. 个性化评估:从“标准驱动”转向“学习者为中心”的模型(如支持协作写作互评)。
本文的价值在于:
1. 历史梳理:首次明确划分AEE三阶段,揭示技术演进与教育需求的互动关系;
2. 批判性分析:指出商业利益对独立研究的干扰,以及“人机评分相关性”效度论证的缺陷;
3. 应用指导:为教育机构平衡评分效率与写作教学本质提供框架,如建议教师结合机器反馈与人工高阶指导。
本文对语言测试、计算机辅助教学领域的研究者与政策制定者具有重要参考意义,尤其为高风险考试中AEE的合理应用提供了理论依据。