写作能力评估研究综述

分享自：
写作能力评估研究综述

期刊:Educational Testing ServiceDOI:10.1002/j.2330-8516.1984.tb00052.x
写作能力评估研究综述：方法与争议
作者与出版信息
 本报告由Peter L. Cooper撰写，隶属于美国教育考试服务中心（Educational Testing Service, ETS），作为GRE考试委员会的研究项目成果，于1984年5月以研究报告形式发布（ETS Research Report 84-12）。
研究背景与主题
 20世纪80年代，美国教育界普遍关注学生写作能力的下降问题，35个州已立法要求开展全州范围的写作测试。在此背景下，GRE委员会委托ETS对写作能力评估方法进行系统性综述，聚焦两大核心问题：
 1. 直接评估（direct assessment）（即基于写作产出的测评，如限时命题作文）与间接评估（indirect assessment）（即选择题测试）的效度（validity）与信度（reliability）之争；
 2. 不同评估方法对少数族裔、学科差异等群体的适用性。
主要观点与论据1. 直接评估的优势与局限性核心论点：直接评估（如命题作文）被英语教师普遍认为更具“表面效度”（face validity），因其直接考察写作行为，但存在显著的信度问题。
 - 支持证据：
 - 效度争议：Eley（1955）认为直接评估“天然有效”，因其要求考生实际写作。但Braddock等（1963）指出，单次写作表现受多重无关变量干扰，如题目类型、写作模式（如议论文vs叙述文）、时间压力、书写工整度等。例如，Markham（1976）实验显示，字迹工整的作文得分平均高出10%-15%。
 - 信度缺陷：Godshalk等（1966）研究发现，单篇作文经两次评分的信度仅0.38，需5篇作文+25次评分才能将信度提升至0.92。评分者疲劳、标准漂移（如首日评分偏宽松）进一步降低一致性。
2. 间接评估的实用性与争议核心论点：选择题测试信度高（通常>0.9）、成本低，但被批评仅测量“编辑技能”（如语法纠错），无法评估高阶写作能力（如逻辑连贯性、修辞策略）。
 - 支持证据：
 - 预测效度：Godshalk等（1966）数据显示，选择题（如句子改错题）与作文总分的校正后相关系数达0.90，表明二者测量技能高度重叠。
 - 学科差异：Breland与Gaynor（1979）发现，选择题对理工科学生的写作能力预测效度与人文学科无显著差异，但少数族裔（如黑人、西班牙裔）的作文表现常被高估。
3. 群体差异与公平性问题核心论点：间接评估对少数族裔和男性存在系统性“过预测”（overprediction），即选择题高分者实际写作表现低于预期。
 - 数据支撑：
 - Breland与Jones（1982）分析806份作文发现，白人女性作文得分普遍高于选择题预测，而黑人学生在“论点创新性”（noteworthy ideas）和“论据支持”（supporting material）等维度得分显著偏低，导致间接评估失效。
4. 成本与评估策略的权衡核心论点：结合直接与间接评估的“混合模式”最具效度，但成本高昂；整体评分法（holistic method）是经济性与信度的折中方案。
 - 实践建议：
 - 加州大学系统采用“单篇作文+快速评分”作为筛选工具，但Cooper指出其无法区分语法能力与思想深度。
 - 报告推荐：高风险考试（如入学测试）应采用混合模式；低风险场景可依赖选择题+本地评分作文。
研究价值与启示方法论贡献：首次系统量化了评分者误差、题目效应等变量对写作评估的影响，为后续标准化测试设计（如SAT写作改革）提供依据。
 
教育政策意义：揭示了“写作危机”背景下评估工具的选择困境，呼吁平衡效度、公平性与成本。
 
理论争议：挑战了“写作即产出”的传统观点，提出选择题也能有效测量核心语言能力，但需结合学科需求调整权重。
 
亮点
 - 数据驱动：整合60年文献（1926-1984）及ETS内部实验（如Godshalk研究），首次校正评分误差对相关性的影响。
 - 群体分析：突破性地揭示族裔与性别在评估中的差异，推动考试公平性讨论。
 - 实用框架：提出“混合评估-成本优化”决策树，被后续州立考试（如纽约州Regents考试）采纳。
注：本文献为政策导向的综述，非原创研究，但因其数据深度与历史视角，成为写作测评领域的里程碑式报告。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问