这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
古典阿拉伯诗歌翻译中的人类译者与AI大语言模型对比研究
作者及机构
本研究由Mohammed Farghal(约旦应用科学私立大学英语语言与翻译系)和Ahmad S. Haider(约旦应用科学私立大学与中东大学MEU研究单元)合作完成,发表于2024年10月的*Cogent Social Sciences*期刊(卷10,第1期,文章编号2410998)。
学术背景
古典阿拉伯诗歌以其复杂的主题、修辞形式和韵律(prosody)著称,其翻译长期依赖人类译者的文化敏感性和创造力。随着AI大语言模型(LLMs,Large Language Models)如Google的Gemini(Gem)和OpenAI的ChatGPT(GPT)的发展,研究者试图评估其在诗歌翻译中的潜力。本研究旨在回答两个核心问题:
1. AI模型(Gem和GPT)与人类译者在主题清晰度(thematic clarity)、创造力(creativity,如隐喻使用)和韵律(prosody)上的表现差异;
2. 54位专家及AI模型自身如何评价这些翻译结果。
研究流程与方法
1. 语料构建
- 选取15段古典阿拉伯诗歌,涵盖多样化的历史背景、语言复杂性和主题(如爱情、社会、哲学)。
- 人类译者(一位具有数十年经验的阿拉伯语-英语诗歌翻译专家)提供直译(literal translation)和文学性翻译(rhymed couplets,押韵对句)。
- 将相同诗歌输入Gem和GPT,提示生成“AA韵式英语对句”,且需保留韵律。
评估设计
数据分析
主要结果
1. 专家评估
- 整体表现:人类翻译(均分3.96)略优于GPT(3.75),Gem显著落后(3.18)。
- 分项对比:
- 主题清晰度:三者表现接近(人类4.00,Gem 3.58,GPT 3.72);
- 创造力:人类(3.76)与GPT(3.72)优于Gem(3.14);
- 韵律:人类(4.12)和GPT(3.81)远胜Gem(2.83),Gem在15段中仅3段保留押韵。
AI自我评估
典型案例分析
结论与价值
1. 科学意义
- 证实GPT在诗歌翻译中接近人类水平,尤其在韵律和隐喻处理上表现突出,而Gem的局限性凸显其训练数据或算法需优化。
- 揭示了AI模型评估自身输出的可靠性差异:GPT一致性高,Gem存在显著偏差。
研究亮点
1. 方法创新:首次系统比较人类与AI在古典阿拉伯诗歌翻译中的多维表现,并引入AI自我评估机制。
2. 发现新颖性:
- GPT的创造力评分(3.72)逼近人类(3.76),挑战了“AI无法处理文学性”的传统观点;
- Gem的韵律缺陷(如押韵失败率80%)指向其架构可能缺乏诗歌专用训练。
其他有价值内容
研究者建议未来探索GPT-4等先进模型的表现,并扩展至非传统阿拉伯诗歌(如自由诗)的翻译评估,以进一步验证AI的适应性。
此报告综合了研究的背景、方法、结果与意义,为学术界提供了关于AI在文学翻译中能力的实证依据。