你能分辨出来吗？人类与机器翻译字幕的比较研究

分享自：
你能分辨出来吗？人类与机器翻译字幕的比较研究

期刊:perspectivesDOI:10.1080/0907676x.2023.2268149
José Ramón Calvo-Ferrer（来自西班牙阿利坎特大学英语研究系）于2024年在学术期刊《Perspectives in Translation Theory and Practice》发表了一项原创研究，题为《Can you tell the difference? A study of human vs machine-translated subtitles》。该研究聚焦于机器翻译（Machine Translation, MT）与人工翻译在字幕生成领域的质量对比，尤其关注ChatGPT在英语-西班牙语字幕翻译中的表现。
学术背景研究领域属于计算语言学与视听翻译（Audiovisual Translation, AVT）的交叉领域。随着神经机器翻译（Neural Machine Translation, NMT）技术的发展，机器翻译在效率与成本上的优势使其被广泛应用于影视字幕生成。然而，学界对其在文化隐喻、幽默等复杂语言现象中的准确性仍存疑。本研究旨在通过实验验证观众能否区分ChatGPT生成的字幕与人工翻译字幕，并评估两者在质量上的差异。
研究流程与方法实验设计
研究对象：119名翻译与口译专业学生（一年级66人，四年级53人），80.7%为女性。
 
材料准备：从美剧《The Office》第一季第一集中选取8个片段，包含双关语、文化引用、幽默和反讽等“翻译难点”（Rich Points）。其中5段字幕由ChatGPT 3.5生成，3段采用DVD官方人工翻译字幕。ChatGPT翻译时通过特定提示优化自然性（如“使其更符合西班牙语表达习惯”）。
 
实验实施
参与者在教室统一观看视频片段，每段仅播放一次。
 
每段播放后，通过问卷收集数据：
 字幕来源判断：从-3（确信为ChatGPT生成）到3（确信为人工翻译）的7级量表评分。
 
质量评分：0-10分主观评价。
 
开放反馈：说明判断依据。
 
数据分析
使用SPSS 22.0进行统计分析，包括：
 描述性统计（如正确识别ChatGPT字幕的平均数量）。
 
Wilcoxon符号秩检验比较机器与人工字幕的评分差异。
 
线性回归分析参与者背景（如年级、ChatGPT使用经验）对识别能力的影响。
 
主要结果识别能力
参与者平均仅能识别2.07段（共5段）ChatGPT生成的字幕，总正确率38.3%（3.06/8段）。
 
四年级学生识别能力显著高于一年级（2.28 vs 1.89段，p=0.047），表明翻译经验是关键因素。
 
质量评价
ChatGPT与人工字幕的平均分无显著差异（6.71 vs 6.64，p=0.602）。
 
但低质量字幕更易被归因于机器翻译（相关系数0.314，p<0.01），显示观众对人工翻译存在质量偏好。
 
影响因素
ChatGPT使用经验、字幕内容接触量对识别能力无显著影响。
 
开放反馈显示，ChatGPT在文化隐喻和幽默翻译上表现不稳定，部分译文被误认为“人工翻译的拙劣作品”。
 
结论与价值科学意义
首次验证ChatGPT在英语-西班牙语字幕翻译中可达到与人工翻译相近的感知质量，但复杂语言现象仍是其短板。
 
提出“翻译提示优化”可提升机器翻译质量，为后续研究提供方法论参考。
 
应用价值
为影视行业提供成本优化方案：在非关键场景（如非文化敏感内容）可优先使用ChatGPT生成字幕，结合人工校对。
 
警示过度依赖机器翻译的风险，如《鱿鱼游戏》字幕争议所示的经济利益与质量平衡问题。
 
研究亮点创新方法：首次将ChatGPT与专业人工字幕在真实影视场景中对比，并引入“翻译难点”量化分析。
 
跨学科贡献：融合翻译研究、认知心理学（如认知负荷理论）与自然语言处理技术。
 
实践启示：强调翻译教育中需加强“机器翻译批判性评估”能力的培养。
 
局限与展望样本局限于西班牙学生，未来需扩展至多语言对与非专业观众。
 
建议探索ChatGPT在多类型影视体裁（如纪录片、新闻）中的表现，并开发针对性优化提示模板。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问