分享自:

生成式人工智能翻译与人工翻译在科学文本翻译中的差异比较研究

期刊:humanities and social sciences communicationsDOI:10.1057/s41599-024-03726-7

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


一、作者及发表信息

本研究由Linling FuLei Liu(第一作者及通讯作者)合作完成,两人均来自South China Normal University(华南师范大学外国语学院)。研究成果发表于Humanities and Social Sciences Communications期刊,2024年出版,开放获取(DOI: 10.1057/s41599-024-03726-7)。


二、学术背景

研究领域与动机

本研究属于计算语言学与翻译学交叉领域,聚焦生成式人工智能翻译(Generative Artificial Intelligence Translation, GenAIT)与人工翻译(Human Translation, HT)在科学文本英译汉中的对比分析。随着ChatGPT等大型语言模型(Large Language Models, LLMs)的崛起,GenAIT在翻译领域广泛应用,但其与HT的优劣差异及协同潜力尚未被充分探索。

背景知识

  1. GenAIT的进展:以ChatGPT 3.5为代表的生成式AI通过提示工程(Prompt Engineering)实现翻译,其性能超越传统神经机器翻译(Neural Machine Translation, NMT),但在复杂句式、术语一致性等方面仍存争议。
  2. 科学文本的翻译挑战:科学文本以信息性(Informative Function)为核心,具有术语密集、被动语态高频、句式复杂等特点,对翻译准确性要求极高。

研究目标

  1. 对比GenAIT与HT在词汇句法层面的语言特征差异;
  2. 提出优化两者协同翻译的策略。

三、研究设计与方法

1. 研究流程

研究分为数据收集、分析框架构建、工具应用、定量与定性分析四个阶段。

2. 研究对象与样本

  • GenAIT组:由ChatGPT 3.5生成翻译,输入提示为“请将以下英文段落翻译为中文”。
  • HT组:19名中国翻译硕士(MTI)学生独立完成同一英文科学文本的翻译,无辅助工具(仅允许纸质词典)。
  • 对照文本:参考译文(Reference Translated Text, RTT)来自权威科技翻译教材。
  • 源文本(ST):243词的科学英语段落,内容涉及自旋电子学(Spintronics)技术。

3. 分析框架与工具

研究构建了词汇句法双层次分析框架:
- 词汇层面
- 参数:词符(Tokens)、类符(Types)、标准化类符/词符比(STTR)、术语准确性、词性(Part of Speech, POS,包括名词、形容词、数词、连词)。
- 工具:Wordless 2.3.0(统计Tokens/Types/STTR)、CorpusWordParser 3.0(中文分词与词性标注)。
- 句法层面
- 参数:句子数量(CS)、平均句长(SLT,以Tokens计)、被动语态(PV)转换(显性“be + v_ed”与隐性“v_ed + by”结构)、从句处理(宾语从句与定语从句)。
- 工具:ANTConc 4.1.2(检索词性)、人工标注(PV与从句)。

4. 数据处理

  • 术语翻译准确性:对比GenAIT与HT对10个科技术语(如“femtosecond飞秒”)的翻译与RTT的一致性。
  • 句法复杂度:统计CS与SLT,分析长句拆分策略。

四、主要结果

1. 词汇特征

  • 词符与类符:HT平均词符(236.68)和类符(153.32)多于GenAIT(208/137),但HT的STTR(0.65)低于GenAIT(0.66),表明AI词汇多样性更高。
  • 术语翻译:GenAIT在5/10术语(如“current电流”)翻译上与RTT完全一致,HT在6/10术语(如“IT信息技术”)上更优,但存在错误(如将“current”误译为“屏幕”)。
  • 词性分布:HT名词占比(73.95%)高于GenAIT(75.73%),但两者均低于ST(68.50%),反映翻译中的简化倾向。

2. 句法特征

  • 句子结构:HT平均句子数(11.68)多于GenAIT(9),且平均句长(20.71 Tokens)更短,显示HT更擅长拆分长句。
  • 被动语态:HT将显性PV(如“is called”)转换为主动语态(OSV结构)的比例达94.7%,而GenAIT保留被动结构;隐性PV(如“led by”)在HT中均被主动化,GenAIT则忽略被动逻辑。
  • 从句处理:GenAIT未拆分宾语从句,但通过添加逻辑连接词(如“因此”)提升定语从句的连贯性,而HT更依赖逗号分割。

五、结论与价值

科学价值

  1. 互补性验证:GenAIT在术语准确性和词汇多样性上占优,HT在句式简化与被动语态转换上更胜一筹。
  2. 协同路径:提出“分段输入”策略(如将长句拆解后输入AI),结合HT的句式优化能力与GenAIT的术语库优势。

应用价值

  • 翻译培训:建议MTI学生利用GenAIT验证术语,但需警惕长句处理的局限性。
  • 语言服务提供商(LSPs):需投资GenAI技术开发,优化人机协作流程。

六、研究亮点

  1. 方法创新:首次针对科学文本的GenAIT-HT对比,填补中英语言对研究的空白。
  2. 工具整合:结合自动化工具(Wordless、ANTConc)与人工标注,提升分析效度。
  3. 实践导向:提出可操作的协同翻译方案,如“术语校验-句式优化”双阶段流程。

七、其他价值

  • 数据公开:研究数据发布于Open Science Framework,支持后续研究复现。
  • 伦理合规:通过华南师范大学伦理审查,参与者签署知情同意书。

(报告字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com