分享自:

你能分辨出来吗?人类与机器翻译字幕的比较研究

期刊:perspectivesDOI:10.1080/0907676x.2023.2268149

José Ramón Calvo-Ferrer(来自西班牙阿利坎特大学英语研究系)于2024年在学术期刊《Perspectives in Translation Theory and Practice》发表了一项原创研究,题为《Can you tell the difference? A study of human vs machine-translated subtitles》。该研究聚焦于机器翻译(Machine Translation, MT)与人工翻译在字幕生成领域的质量对比,尤其关注ChatGPT在英语-西班牙语字幕翻译中的表现。

学术背景

研究领域属于计算语言学与视听翻译(Audiovisual Translation, AVT)的交叉领域。随着神经机器翻译(Neural Machine Translation, NMT)技术的发展,机器翻译在效率与成本上的优势使其被广泛应用于影视字幕生成。然而,学界对其在文化隐喻、幽默等复杂语言现象中的准确性仍存疑。本研究旨在通过实验验证观众能否区分ChatGPT生成的字幕与人工翻译字幕,并评估两者在质量上的差异。

研究流程与方法

  1. 实验设计

    • 研究对象:119名翻译与口译专业学生(一年级66人,四年级53人),80.7%为女性。
    • 材料准备:从美剧《The Office》第一季第一集中选取8个片段,包含双关语、文化引用、幽默和反讽等“翻译难点”(Rich Points)。其中5段字幕由ChatGPT 3.5生成,3段采用DVD官方人工翻译字幕。ChatGPT翻译时通过特定提示优化自然性(如“使其更符合西班牙语表达习惯”)。
  2. 实验实施

    • 参与者在教室统一观看视频片段,每段仅播放一次。
    • 每段播放后,通过问卷收集数据:
      • 字幕来源判断:从-3(确信为ChatGPT生成)到3(确信为人工翻译)的7级量表评分。
      • 质量评分:0-10分主观评价。
      • 开放反馈:说明判断依据。
  3. 数据分析

    • 使用SPSS 22.0进行统计分析,包括:
      • 描述性统计(如正确识别ChatGPT字幕的平均数量)。
      • Wilcoxon符号秩检验比较机器与人工字幕的评分差异。
      • 线性回归分析参与者背景(如年级、ChatGPT使用经验)对识别能力的影响。

主要结果

  1. 识别能力

    • 参与者平均仅能识别2.07段(共5段)ChatGPT生成的字幕,总正确率38.3%(3.06/8段)。
    • 四年级学生识别能力显著高于一年级(2.28 vs 1.89段,p=0.047),表明翻译经验是关键因素。
  2. 质量评价

    • ChatGPT与人工字幕的平均分无显著差异(6.71 vs 6.64,p=0.602)。
    • 但低质量字幕更易被归因于机器翻译(相关系数0.314,p<0.01),显示观众对人工翻译存在质量偏好。
  3. 影响因素

    • ChatGPT使用经验、字幕内容接触量对识别能力无显著影响。
    • 开放反馈显示,ChatGPT在文化隐喻和幽默翻译上表现不稳定,部分译文被误认为“人工翻译的拙劣作品”。

结论与价值

  1. 科学意义

    • 首次验证ChatGPT在英语-西班牙语字幕翻译中可达到与人工翻译相近的感知质量,但复杂语言现象仍是其短板。
    • 提出“翻译提示优化”可提升机器翻译质量,为后续研究提供方法论参考。
  2. 应用价值

    • 为影视行业提供成本优化方案:在非关键场景(如非文化敏感内容)可优先使用ChatGPT生成字幕,结合人工校对。
    • 警示过度依赖机器翻译的风险,如《鱿鱼游戏》字幕争议所示的经济利益与质量平衡问题。

研究亮点

  • 创新方法:首次将ChatGPT与专业人工字幕在真实影视场景中对比,并引入“翻译难点”量化分析。
  • 跨学科贡献:融合翻译研究、认知心理学(如认知负荷理论)与自然语言处理技术。
  • 实践启示:强调翻译教育中需加强“机器翻译批判性评估”能力的培养。

局限与展望

  • 样本局限于西班牙学生,未来需扩展至多语言对与非专业观众。
  • 建议探索ChatGPT在多类型影视体裁(如纪录片、新闻)中的表现,并开发针对性优化提示模板。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com