分享自:

自动写作评价研究与实践五十年——从单一、合作到交互

期刊:外语研究DOI:10.13978/j.cnki.wyyj.2015.05.010

本文由王勃然(东北大学外国语学院)、金檀(中山大学国际汉语学院)、赵雯(东北大学外国语学院)合作撰写,发表于《外语研究》(Foreign Languages Research)2015年第5期。文章题为《自动写作评价研究与实践五十年——从单一、合作到交互》,系统梳理了自动写作评价(Automated Essay Evaluation, AEE)领域半个世纪的发展历程,并对其技术演进、理论争议及未来趋势进行了深度探讨。

学术背景与研究主题

自动写作评价指“通过计算机程序对书写文章进行评估和打分的过程”(Shermis & Burstein 2003),其核心目标是通过自然语言处理技术提取文本特征,生成与人工评分相当的分数和反馈。自1965年Page提出构想以来,该领域长期存在支持与反对两派争议:支持者强调其提升评分效率、降低成本的实用性(如ETS的e-rater系统与GMAT/TOEFL考试的结合),反对者则批判其缺乏对语义深度和交际意图的解读能力(如CCCCP 2004指出其“违背写作中人与人交流的本质”)。本文旨在通过技术、信度与构念(construct)三个维度,将50年发展划分为单一评分、合作评分与人机交互三个阶段,揭示其演进逻辑与存在问题。

主要观点与论据

1. 单一分数评定阶段(1960s–1990s):形式化特征的局限性

此阶段以Page开发的PEG(Project Essay Grader)系统为代表,采用代理量度法(proxy measures):通过多元回归分析表层文本特征(如拼写、句长)与人工评分的相关性,建立加权评分模型。尽管PEG与人工评分的相关系数高达0.78–0.88(Attali & Burstein 2006),但其仅量化形式特征(如词汇复杂度),完全忽略内容、逻辑等深层构念。Clauser等(2002)质疑其效度本质是“蛮实证”(brute-empirical)的——即依赖人工评分作为黄金标准,而人类评分本身存在主观偏差(如光环效应、趋中性)。这一阶段的争议凸显了早期AEE的技术瓶颈:计算机无法理解语义,仅能作为“简单的区分机制”。

2. 合作分数评定阶段(1990s–2000s):人机互补的平衡

随着自然语言处理与人工智能技术进步,第二代系统如Intellimetric、e-rater和IEA(Intelligent Essay Assessor)尝试融合语言形式与内容特征。例如:
- e-rater 通过句法模块、语篇模块和主题分析模块,实现语言质量与内容质量的联合评估(Attali & Burstein 2006),其与人工评分的真分数相关系数达0.93;
- Intellimetric 基于500余项语义、句法特征,从主题连贯性、文章结构等5类维度评分(Elliot 2003)。

然而,这些系统多为商业专利产品(如Betsy除外),其特征权重未公开,效度验证多由开发商主导(Crusan 2010),引发独立研究缺失的质疑。此时学界提出“劳动分工法”:机器负责语言特征评分,人类专注高阶写作技巧(如论证质量),二者结合用于SAT、GRE等高风险考试(Haberman 2011)。

3. 人机交互评改阶段(2000s–2010s):从评估到促学

21世纪后,AEE转向教学辅助工具,代表性系统如My Access!、Criterion和句酷批改网,特点包括:
- 即时反馈:针对语法、词汇等微观层面提供诊断性建议(如Grammarly检测250种语法规则);
- 过程写作支持:通过“构思-修改-再反馈”循环促进自主学习(Deane 2013);
- 多模态交互:整合师生、生生互评机制,弥补机器在宏观评价(如内容创新性)上的不足(Chen 2008)。

但问题依然存在:系统反馈偏重表层错误(Hutchison 2007),对“内敛性较差”等模糊评语学生难以操作(如批改网案例),且可能诱导应试策略(Patterson 2005)。

争议与未来展望

作者指出AEE的核心矛盾在于构念效度(construct validity):现有系统难以测量“逻辑、幽默、反讽”等人类写作核心要素(Anson et al. 2013)。未来需突破三方面:
1. 跨学科合作:融合写作教师、心理测量学家与计算机语言学家的视角;
2. 算法革新:通过自然语言处理技术捕捉修辞与论证强度等高阶特征;
3. 个性化评估:从“标准驱动”转向“学习者为中心”的模型(如支持协作写作互评)。

学术价值

本文的价值在于:
1. 历史梳理:首次明确划分AEE三阶段,揭示技术演进与教育需求的互动关系;
2. 批判性分析:指出商业利益对独立研究的干扰,以及“人机评分相关性”效度论证的缺陷;
3. 应用指导:为教育机构平衡评分效率与写作教学本质提供框架,如建议教师结合机器反馈与人工高阶指导。

亮点与特殊性

  • 多维评价体系:从技术(如PEG的代理量度法)、信度(相关系数)和构念(语义深度)三维度解析发展动因;
  • 本土化案例:涵盖中国开发的句酷批改网,反映非英语国家的AEE实践;
  • 前瞻性:提出“评估即为学”(assessment as learning)的未来方向,呼应教育测量从“标准化”到“个性化”的全球趋势。

本文对语言测试、计算机辅助教学领域的研究者与政策制定者具有重要参考意义,尤其为高风险考试中AEE的合理应用提供了理论依据。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com