José Ramón Calvo-Ferrer(来自西班牙阿利坎特大学英语研究系)于2024年在学术期刊《Perspectives in Translation Theory and Practice》发表了一项原创研究,题为《Can you tell the difference? A study of human vs machine-translated subtitles》。该研究聚焦于机器翻译(Machine Translation, MT)与人工翻译在字幕生成领域的质量对比,尤其关注ChatGPT在英语-西班牙语字幕翻译中的表现。
学术背景
研究领域属于计算语言学与视听翻译(Audiovisual Translation, AVT)的交叉领域。随着神经机器翻译(Neural Machine Translation, NMT)技术的发展,机器翻译在效率与成本上的优势使其被广泛应用于影视字幕生成。然而,学界对其在文化隐喻、幽默等复杂语言现象中的准确性仍存疑。本研究旨在通过实验验证观众能否区分ChatGPT生成的字幕与人工翻译字幕,并评估两者在质量上的差异。
研究流程与方法
实验设计
- 研究对象:119名翻译与口译专业学生(一年级66人,四年级53人),80.7%为女性。
- 材料准备:从美剧《The Office》第一季第一集中选取8个片段,包含双关语、文化引用、幽默和反讽等“翻译难点”(Rich Points)。其中5段字幕由ChatGPT 3.5生成,3段采用DVD官方人工翻译字幕。ChatGPT翻译时通过特定提示优化自然性(如“使其更符合西班牙语表达习惯”)。
实验实施
- 参与者在教室统一观看视频片段,每段仅播放一次。
- 每段播放后,通过问卷收集数据:
- 字幕来源判断:从-3(确信为ChatGPT生成)到3(确信为人工翻译)的7级量表评分。
- 质量评分:0-10分主观评价。
- 开放反馈:说明判断依据。
数据分析
- 使用SPSS 22.0进行统计分析,包括:
- 描述性统计(如正确识别ChatGPT字幕的平均数量)。
- Wilcoxon符号秩检验比较机器与人工字幕的评分差异。
- 线性回归分析参与者背景(如年级、ChatGPT使用经验)对识别能力的影响。
主要结果
识别能力
- 参与者平均仅能识别2.07段(共5段)ChatGPT生成的字幕,总正确率38.3%(3.06/8段)。
- 四年级学生识别能力显著高于一年级(2.28 vs 1.89段,p=0.047),表明翻译经验是关键因素。
质量评价
- ChatGPT与人工字幕的平均分无显著差异(6.71 vs 6.64,p=0.602)。
- 但低质量字幕更易被归因于机器翻译(相关系数0.314,p<0.01),显示观众对人工翻译存在质量偏好。
影响因素
- ChatGPT使用经验、字幕内容接触量对识别能力无显著影响。
- 开放反馈显示,ChatGPT在文化隐喻和幽默翻译上表现不稳定,部分译文被误认为“人工翻译的拙劣作品”。
结论与价值
科学意义
- 首次验证ChatGPT在英语-西班牙语字幕翻译中可达到与人工翻译相近的感知质量,但复杂语言现象仍是其短板。
- 提出“翻译提示优化”可提升机器翻译质量,为后续研究提供方法论参考。
应用价值
- 为影视行业提供成本优化方案:在非关键场景(如非文化敏感内容)可优先使用ChatGPT生成字幕,结合人工校对。
- 警示过度依赖机器翻译的风险,如《鱿鱼游戏》字幕争议所示的经济利益与质量平衡问题。
研究亮点
- 创新方法:首次将ChatGPT与专业人工字幕在真实影视场景中对比,并引入“翻译难点”量化分析。
- 跨学科贡献:融合翻译研究、认知心理学(如认知负荷理论)与自然语言处理技术。
- 实践启示:强调翻译教育中需加强“机器翻译批判性评估”能力的培养。
局限与展望
- 样本局限于西班牙学生,未来需扩展至多语言对与非专业观众。
- 建议探索ChatGPT在多类型影视体裁(如纪录片、新闻)中的表现,并开发针对性优化提示模板。