教育研究对写作能力评判的探讨

分享自：
教育研究对写作能力评判的探讨

期刊:The Journal of Educational ResearchDOI:10.1080/00220671.1970.10884123
类型b：
作者与发表信息
 本文作者William McColly来自美国南卡罗来纳大学（University of South Carolina），发表于1970年12月的*The Journal of Educational Research*（第64卷第4期），标题为《What Does Educational Research Say About the Judging of Writing Ability?》。
主题与背景
 本文探讨了教育研究中关于学生写作能力评估的核心问题，重点分析了影响写作测试效度（validity）与信度（reliability）的关键因素。作者指出，英语教师对“优秀写作”的定义存在巨大分歧，而标准化客观测试无法有效衡量写作能力，因此需依赖主观性更强的“作文测试”（essay tests）。文章系统梳理了写作评估中的误差来源，并提出了改进方向。
主要观点与论据
写作评估的误差来源
 作者将误差归纳为三类：
学生因素（writer variable）：如临时状态（如身体不适、环境干扰）可能导致表现波动。但作者提出争议性观点：测试本质是“决定性试验”（decisive trial），即使学生表现因干扰低于真实水平，结果仍应被视为有效，因为现实写作环境本就充满不可控因素。
 
读者因素（rater variable）：评分者的专业能力（如英语教授比非专业人士更可靠）和训练程度直接影响信度。威斯康星高中实验（Wisconsin High School Experiment）数据显示，大学男性英语教师的评分一致性最高（平均相关系数0.50），而商业从业者最低（0.22）。通过训练（如加速评分速度）可提升评分者一致性。
 
题目因素（topic variable）：题目结构化程度（如提供背景材料 vs. 开放式命题）影响学生发挥。但缺乏实验证据证明哪种题目类型更有效。
 
评分标准的选择争议
整体评分法（holistic method）与分项评分法（analytical method）孰优孰劣存在分歧。Diederich的研究提出写作的五个维度（思想、结构、风格、语法、措辞），但Page的计算机分析项目（Project Essay Grade）发现，评分者对具体维度的评分高度相关（相关系数0.65–0.89），实际受“光环效应”（halo effect）支配，即评分者仍依赖整体印象。
 
被忽视的系统性偏差：卷面外观
 多项研究证实，字迹工整度对评分有显著影响：
意大利研究者Remondino通过因子分析发现，“图形呈现”（graphic representation，含字迹、排版）是评分的第一大维度。
 
实验显示，同一篇作文若以工整字迹呈现，得分显著高于潦草或打字版本（F值显著，p<0.01）。这种偏差会人为提高评分者间信度，但损害效度。作者建议所有作文应统一打字以消除偏差。
 
计算机评估的潜力与局限
 Page的计算机程序通过统计文本特征（如单词长度标准差）预测人工评分，多元相关系数（mult-R）为0.71，但低于传统英语成绩（如GPA，r=0.62）的预测力。作者认为，尽管当前算法精度不足，计算机直接分析文本（而非替代性指标）的思路具有长期价值。
论文价值与意义
 本文的价值在于：
 1. 系统性批判：揭示了写作评估中未被充分讨论的效度问题（如卷面偏差），挑战了仅关注信度的传统研究范式。
 2. 方法论指导：提出具体改进措施，如评分者培训、题目设计原则、卷面标准化等。
 3. 跨学科启发：为计算机辅助写作评估提供了理论基础，强调需开发更精细的文本分析指标。
亮点
 - 争议性观点：主张“最差表现也是有效评估”，打破追求“理想化写作条件”的常规思维。
 - 数据支持：整合威斯康星实验、Diederich研究等多组数据，对比不同评分者群体的可靠性差异。
 - 前瞻性：早在1970年即预见计算机文本分析的潜力，指出其需突破机械统计（如标点计数）的局限。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问