分享自:

比较人类与ChatGPT对学生写作反馈的质量

期刊:learning and instructionDOI:10.1016/j.learninstruc.2024.101894

这篇文档属于类型a,即报告了一项原创研究的学术论文。以下是对该研究的详细介绍:


主要作者及研究机构
本研究由Jacob Steiss、Tamara Tate、Steve Graham、Jazmin Cruz、Michael Hebert、Jiali Wang、Youngsun Moon、Waverly Tseng、Mark Warschauer和Carol Booth Olson共同完成。研究团队来自美国加州大学欧文分校教育学院、亚利桑那州立大学Mary Lou Fulton教师学院以及WestEd。该研究于2024年3月11日发表在《Learning and Instruction》期刊上,文章编号为101894。

学术背景
本研究的主要科学领域是写作教学,特别是自动化写作评估(Automated Writing Evaluation, AWE)生成式人工智能(Generative AI)在写作反馈中的应用。随着人工智能技术的进步,尤其是ChatGPT等生成式AI工具的出现,研究者希望探索这些工具是否能够替代或辅助人类教师,为学生提供高质量的形成性反馈(formative feedback)。形成性反馈是写作教学中的关键环节,能够帮助学生明确写作目标并改进写作技能。然而,教师为大量学生提供频繁反馈的时间和精力成本较高,这限制了写作教学的普及。因此,研究者旨在比较ChatGPT和人类教师在提供形成性反馈方面的质量差异,以评估生成式AI在写作教学中的潜在应用价值。

研究目标
本研究的主要目标是:
1. 比较ChatGPT和人类教师在提供形成性反馈方面的质量差异;
2. 探讨反馈质量是否因学生作文的整体质量(低、中、高)而有所不同;
3. 分析反馈质量是否因学生的语言背景(英语母语者与非母语者)而有所差异。

研究流程
研究分为以下几个步骤:

  1. 样本选择
    研究选取了200篇由美国西部历史课堂中学生撰写的作文,每篇作文分别由人类教师和ChatGPT提供形成性反馈。样本包括50名英语学习者(EL)、50名重新分类为英语流利者(RFEP)和100名英语母语者(IFEP/EO),以确保研究结果的广泛适用性。

  2. 反馈生成

    • 人类教师反馈:16名经验丰富的中学教师、写作研究人员和研究生参与了反馈生成。他们接受了3小时的培训,学习如何根据特定标准(如内容、证据使用、结构、语言和历史思维)提供高质量的反馈。每名教师负责约40-50篇作文,反馈生成时间约为20-25分钟/篇。
    • ChatGPT反馈:研究使用ChatGPT(v.3.5)生成反馈。通过多次迭代,研究者确定了最佳提示词,要求ChatGPT以“中学教师”的身份,提供2-3条具体、可操作的反馈,并使用友好的语气。
  3. 反馈质量评估
    研究团队开发了一个基于文献的五维反馈质量评估框架,包括:

    • 基于标准的反馈(criteria-based feedback):反馈是否明确引用写作标准;
    • 改进方向的清晰性(clarity of directions for improvement):反馈是否提供明确的改进建议;
    • 准确性(accuracy):反馈是否正确;
    • 优先性(prioritization of essential features):反馈是否关注写作中的关键问题;
    • 支持性语气(supportive tone):反馈是否使用鼓励性语言。
      每项反馈按1-5分进行评分,由三名研究人员独立编码,确保评分的一致性。
  4. 数据分析
    研究使用描述性统计和方差分析(ANOVA)比较人类教师和ChatGPT反馈的质量差异,并进一步分析反馈质量是否因作文质量或学生语言背景而异。

主要结果
1. 人类教师与ChatGPT反馈质量比较
人类教师在四项反馈质量维度上显著优于ChatGPT,包括改进方向的清晰性、准确性、优先性和支持性语气。然而,ChatGPT在基于标准的反馈方面表现略优于人类教师(平均分3.64 vs. 3.40)。总体而言,ChatGPT的反馈质量仍然较高,平均评分在3.09-4.02之间,而人类教师的平均评分为3.40-4.55。

  1. 作文质量对反馈质量的影响
    ChatGPT在提供高评分作文的反馈时,准确性和优先性显著下降。例如,对于高质量作文,ChatGPT的准确性评分仅为3.31,而低质量作文的评分为4.42。人类教师在低质量作文的优先性评分上表现最佳(4.44),但在中高质量作文中略有下降。

  2. 学生语言背景对反馈质量的影响
    无论是人类教师还是ChatGPT,反馈质量均未因学生的语言背景(英语母语者与非母语者)而出现显著差异。

结论
研究表明,经过培训的人类教师在提供高质量形成性反馈方面优于ChatGPT,尤其是在改进方向的清晰性、准确性、优先性和支持性语气方面。然而,ChatGPT的反馈质量仍然较高,且无需额外训练即可生成反馈。因此,生成式AI工具在写作教学的早期阶段(如初稿反馈)中具有潜在应用价值,能够减轻教师负担并为学生提供及时的反馈。此外,研究还指出,ChatGPT在提供高质量作文反馈时存在局限性,可能需要进一步优化提示词以提高其准确性。

研究意义
本研究为生成式AI在写作教学中的应用提供了实证依据,展示了ChatGPT在提供形成性反馈方面的潜力与局限。研究结果对教育工作者具有重要启示:生成式AI可以作为辅助工具,在写作教学中提供及时的反馈,但教师仍需在后期阶段提供更精准和个性化的指导。此外,研究还强调了提升教师和学生AI素养的重要性,以更好地利用生成式AI工具。

研究亮点
1. 首次系统比较了生成式AI(ChatGPT)与人类教师在写作反馈中的表现;
2. 提出了一个五维反馈质量评估框架,为未来研究提供了方法论参考;
3. 探讨了生成式AI在不同作文质量和语言背景下的反馈质量差异,为AI工具的优化提供了方向;
4. 研究结果对写作教学实践具有直接指导意义,特别是在减轻教师负担和提升学生写作能力方面。

其他有价值的内容
研究还指出,生成式AI工具的反馈质量可能通过优化提示词和迭代反馈得到进一步提升。此外,研究团队建议将AI生成的反馈与教师的后期反馈相结合,以实现写作教学的最佳效果。


这篇研究为生成式AI在教育领域的应用提供了重要见解,同时也为未来的相关研究奠定了基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com