写作能力评估研究综述:方法与争议
作者与出版信息
本报告由Peter L. Cooper撰写,隶属于美国教育考试服务中心(Educational Testing Service, ETS),作为GRE考试委员会的研究项目成果,于1984年5月以研究报告形式发布(ETS Research Report 84-12)。
研究背景与主题
20世纪80年代,美国教育界普遍关注学生写作能力的下降问题,35个州已立法要求开展全州范围的写作测试。在此背景下,GRE委员会委托ETS对写作能力评估方法进行系统性综述,聚焦两大核心问题:
1. 直接评估(direct assessment)(即基于写作产出的测评,如限时命题作文)与间接评估(indirect assessment)(即选择题测试)的效度(validity)与信度(reliability)之争;
2. 不同评估方法对少数族裔、学科差异等群体的适用性。
核心论点:直接评估(如命题作文)被英语教师普遍认为更具“表面效度”(face validity),因其直接考察写作行为,但存在显著的信度问题。
- 支持证据:
- 效度争议:Eley(1955)认为直接评估“天然有效”,因其要求考生实际写作。但Braddock等(1963)指出,单次写作表现受多重无关变量干扰,如题目类型、写作模式(如议论文vs叙述文)、时间压力、书写工整度等。例如,Markham(1976)实验显示,字迹工整的作文得分平均高出10%-15%。
- 信度缺陷:Godshalk等(1966)研究发现,单篇作文经两次评分的信度仅0.38,需5篇作文+25次评分才能将信度提升至0.92。评分者疲劳、标准漂移(如首日评分偏宽松)进一步降低一致性。
核心论点:选择题测试信度高(通常>0.9)、成本低,但被批评仅测量“编辑技能”(如语法纠错),无法评估高阶写作能力(如逻辑连贯性、修辞策略)。
- 支持证据:
- 预测效度:Godshalk等(1966)数据显示,选择题(如句子改错题)与作文总分的校正后相关系数达0.90,表明二者测量技能高度重叠。
- 学科差异:Breland与Gaynor(1979)发现,选择题对理工科学生的写作能力预测效度与人文学科无显著差异,但少数族裔(如黑人、西班牙裔)的作文表现常被高估。
核心论点:间接评估对少数族裔和男性存在系统性“过预测”(overprediction),即选择题高分者实际写作表现低于预期。
- 数据支撑:
- Breland与Jones(1982)分析806份作文发现,白人女性作文得分普遍高于选择题预测,而黑人学生在“论点创新性”(noteworthy ideas)和“论据支持”(supporting material)等维度得分显著偏低,导致间接评估失效。
核心论点:结合直接与间接评估的“混合模式”最具效度,但成本高昂;整体评分法(holistic method)是经济性与信度的折中方案。
- 实践建议:
- 加州大学系统采用“单篇作文+快速评分”作为筛选工具,但Cooper指出其无法区分语法能力与思想深度。
- 报告推荐:高风险考试(如入学测试)应采用混合模式;低风险场景可依赖选择题+本地评分作文。
亮点
- 数据驱动:整合60年文献(1926-1984)及ETS内部实验(如Godshalk研究),首次校正评分误差对相关性的影响。
- 群体分析:突破性地揭示族裔与性别在评估中的差异,推动考试公平性讨论。
- 实用框架:提出“混合评估-成本优化”决策树,被后续州立考试(如纽约州Regents考试)采纳。
注:本文献为政策导向的综述,非原创研究,但因其数据深度与历史视角,成为写作测评领域的里程碑式报告。