基于英语-德语翻译语料库的衔接显化研究

分享自：
基于英语-德语翻译语料库的衔接显化研究

期刊:languages in contrast
《语言对比》期刊中基于语料库的英德翻译显化研究学术报告
本文旨在向学界同行介绍一篇发表于《Languages in Contrast》（语言对比）期刊2007年第7卷第2期（第241-265页）的学术论文。该论文题为《Cohesive explicitness and explicitation in an English-German translation corpus》（英德翻译语料库中的衔接显性与显化），作者是来自德国约翰内斯·古腾堡大学美因茨校区（Johannes Gutenberg-Universität Mainz）及萨尔大学（Universität des Saarlandes）的三位学者：Silvia Hansen-Schirra、Stella Neumann 和 Erich Steiner。该论文是一项典型的基于语料库的翻译实证研究，属于类型a：报告单一原创性研究。以下将对该研究进行全面、详细的介绍。
第一、研究概述 本研究由德国研究基金会（DFG）资助，是CROCO项目的一部分。研究团队利用自主构建的大规模、多层级标注对齐的英德平行语料库，对翻译文本中一个长期被推测但需要实证验证的特性——“显化”（explicitation）现象，进行了系统性、定量化的考察。研究焦点集中于语言衔接（cohesion）层面，旨在探究从源语文本到目标语文本的转换过程中，衔接手段是如何变得更加明确或隐含的，并试图区分“显性”（explicitness）作为文本固有属性与“显化”作为翻译过程或文本间关系的不同概念。
第二、学术背景与研究目标 在翻译研究与多语交际领域，“显性/隐性”长久以来被视为翻译文本可能具备的特性，但早期多为思辨性探讨。Blum-Kulka (1986) 等学者的探索性研究提出了“显化假设”，认为翻译文本可能倾向于比源语文本或目标语原创文本更加明晰。然而，早期研究多基于有限例证，缺乏大规模实证数据的支持。后来，以Baker等人为代表的基于语料库的翻译研究（CBTS）开始利用可比语料库（如翻译英语语料库TEC）进行探索，但这类研究通常在未考虑源语文本的情况下比较翻译文本与原创文本，难以严格区分翻译普遍特征（如显化）与语言系统差异（英德语言类型差异）的影响。
基于此背景，本研究旨在克服上述局限。其核心目标包括：1) 从理论上厘清“显性”与“显化”这两个关键但常被混用的概念；2) 构建一个集可比性与平行性于一体的多层级标注语料库，为实证研究提供高质量数据；3) 从衔接系统（主要包括指称、替代、省略、连接和词汇衔接五大类）出发，推导出一系列可操作化的“显性/显化”测量指标；4) 利用语料库查询技术，获取初步数据，分析英德互译中衔接显化的具体表现，并探讨其动因（如翻译过程本身 vs. 语言系统制约）。
第三、详细研究流程与方法 本研究流程严谨，环环相扣，主要包含以下几个关键步骤：
步骤一：理论框架构建与概念澄清。 这是研究的基石。作者们首先对“显性”和“显化”进行了严格界定。他们指出，“显性”是文本在词汇语法和衔接结构层面的一种属性，可以通过测量特定结构（如显性/隐性参与者角色、显性/隐性连接词比例等）来操作化。而“显化”则是一个过程或关系，特指在翻译或语内变体中，目标文本比源文本更明确地表达了某些（在理论上可推导为）隐含的意义。本研究明确排除了那些在源文中毫无根据、纯粹“增添”意义的情况，聚焦于通过语法或衔接手段可关联的显-隐变体。研究将自身定位于形式编码属性的测量，而非依赖人类解释者进行高层语用推理，这使得研究更具客观性和可验证性。
步骤二：语料库设计与构建。 这是本研究的核心创新与数据基础。研究团队构建了名为CROCO的跨语言语料库，其设计极具匠心： 1. 架构设计：语料库包含四个核心子库：英语原创文本（EO）、德语原创文本（GO）、英语翻译文本（ETrans，译自德语）、德语翻译文本（GTrans，译自英语）。这种设计同时涵盖了多语可比（EO vs. GO）、单语可比（EO vs. ETrans；GO vs. GTrans）和平行对齐（EO-GTrans；GO-ETrans）关系，能有效分离翻译效应与语言对比效应。 2. 语域控制：为确保可比性，选取了八个具有代表性的翻译相关语域：科普文章、旅游手册、演讲词、政治经济评论、小说、企业通讯、说明书和网站文本。每个语域在每个子库中均包含约10篇文本，每篇约3000词，保证了各子库规模相当（各约25万词）。 3. 参照语料库：额外设立了英、德参照语料库，用于识别语言系统本身的限制，帮助判断某些显化现象是源于翻译过程还是目标语本身的要求。 4. 标注与对齐：这是本研究技术上的亮点。语料库进行了多层级语言学标注（包括词性、形态、短语结构、语法功能）和多维度对齐（词汇、短语/块、小句、句子层面）。标注采用独立的、基于XCES标准的XML多层“离体标注”（stand-off annotation）格式存储，避免了标记重叠的问题。标注和对齐工作使用了专门开发的工具（如CROCO-Meta元信息标注界面），确保了数据的一致性和可查询性。
步骤三：研究指标的推导与操作化。 基于系统功能语言学理论（特别是Halliday和Hasan的衔接理论），研究从衔接层面推导出七项可检验的假设/指标，用于测量显性和显化。这些指标包括：1) 显性指称与隐性指称的比例；2) 指示性（回指）短语与完全词汇性（自义）短语的比例；3) 每个语篇片段新引入话语指称的数量；4) 衔接性省略与替代的数量；5) 词汇衔接强度（通过实词/虚词比、型次比等测量）；6) 词汇链的内部连接强度（平均链长）；7) 连接关系的显性编码与隐性编码的比例。这些指标为后续的语料库查询提供了具体的测量维度。
步骤四：基于语料库的查询与数据分析。 研究利用XQuery和XSLT等查询语言，在已标注对齐的语料库上执行复杂查询。分析过程并非简单的词串检索，而是结合了多层级标注信息（如词性、句法功能）和对齐关系（如“空链接”，即目标语项目在源语中无对应项）的深度查询。例如，为了探究关系从句中指称的显化，研究者可以查询德语中所有带有“prels”（关系代词）词性标记，但在词对齐层面对应为“空链接”的词汇，从而精准定位那些在德语翻译中额外出现、而英语原文中隐含（如通过分词结构表达）的关系代词实例。
第四、主要研究结果 通过对不同衔接手段的逐一分析，研究获得了丰富且具启发性的发现：
关于指称（Reference）：研究发现，德语翻译文本中关系代词的使用频率总体高于对应的英语原文。查询显示存在大量“零对一”对齐（英语无，德语有），这常表现为英语的分词结构被译为德语的关系从句（如例2所示）。这使得参与者角色、时态和情态在德语中得到显化。反向翻译（德译英）中则出现更多“一对零”对齐（德语有，英语无），即德语关系从句被译为英语的非限定结构，这构成了“隐化”（implicitation）。进一步的全库名词/代词频率统计显示，德语原创和翻译文本的代词比例均显著高于英语对应文本，而名词比例则较低。在英译德过程中，名词频率下降、代词频率上升；德译英则相反。这表明指称手段的使用存在强烈的语言类型学动因：德语更倾向于使用代词进行衔接，而英语则更倾向于名词重复或词汇衔接。在某些语域（如企业通讯）的具体句对分析中，发现了更复杂的显化模式，例如将英语代词“it”翻译为德语的具体名词短语或同义词，从而增强了词汇衔接（如例4所示）。
关于替代（Substitution）与省略（Ellipsis）：英语的替代手段（如“one”）在德语中没有直接对应项。分析发现，译者主要采用两种策略：一是使用省略（如例5），这可能导致隐化；二是进行词汇重复（如例6），这构成了显化（将指示性的“one”变为自义性的“partner”）。在德译英方向，译者有时会“引入”英语原文没有的替代词“one”，使译文更符合英语习惯，这可视为一种“规范化”。对于省略，德语的省略灵活性似乎高于英语，例如德语可省略整个动词组，而英语译文必须将助动词和主要动词都补充出来（如例8），这导致时态、语气等语法意义在英语译文中被显化。
关于连接（Conjunction）：查询同样发现了连接词的显化实例。例如，英语原文中通过分词短语隐含的逻辑关系（如“eliminating…”表示结果），在德语译文中被显性的连接词或关系副词（如“wodurch”）明确表达出来（如图6示例）。反之，也存在德语原文的并列连接词“und”在英语译文中被转化为从属结构，从而隐化了连接关系的情况（如例9）。
关于词汇衔接（Lexical Cohesion）：研究通过计算型次比（Type-Token Ratio, TTR）和词汇密度（Lexical Density）作为间接指标。结果显示，在英译德的小说语域中，所有德语翻译文本的词汇密度均明显高于英语原文（平均高出约5-7个百分点），这可能暗示翻译文本词汇信息更密集，从而可能增强了基于词汇重复的衔接。型次比的分析则更复杂，例如在旅游文本的某个句对中，德语译文减少了专有名词“Wales”的重复，转而使用“hierzulande”、“Land”等同指或上义词，这可以被视为一种词汇衔接上的隐化（如例10, 11所示），也可能反映了译者追求词汇多样化的倾向。
第五、研究结论与价值 本研究的主要结论可归纳为以下几点：1) 明确区分了“显性”（文本属性）和“显化”（过程/关系）的概念，为后续实证研究奠定了更清晰的理论基础。2) 通过精心设计的CROCO语料库及多层级标注对齐技术，展示了如何对复杂的翻译现象进行可操作化、定量化的实证探索。3) 初步验证了在英德互译中，衔接层面确实存在广泛的显化与隐化现象。4) 更重要的是，研究发现许多显化/隐化模式并非单纯由“翻译普遍性”驱动，而是与英德语言系统的类型学差异密切相关（如德语偏好代词指称、英语更多使用名词和替代；德语连接手段更显性等）。翻译文本在衔接特征上，往往表现出向目标语常规靠拢的倾向。
本研究的价值体现在：科学价值：推动了翻译研究从例证为主向数据驱动、假设检验的实证科学范式发展。它将抽象的理论概念（显化）转化为具体可测的语言学指标，并通过复杂的语料库技术加以验证，为翻译共性研究提供了方法论范例。应用价值：其研究结果和构建的语料库资源，对翻译教学（揭示特定语言对间的转换规律）、机器翻译系统开发（改善衔接处理）和翻译质量评估具有参考意义。CROCO语料库本身就是一个可公开访问的宝贵资源。
第六、研究亮点 1. 方法论的创新性：研究最突出的亮点在于其多层级标注对齐的语料库架构。这远超出了传统的平行语料库或仅进行词性标注的可比语料库。从句法功能到小句的对齐，使得研究者能够执行极其精细、基于语言学结构的查询，从而深入到翻译转换的微观机理。 2. 研究设计的严谨性：通过集成原创文本、翻译文本、双向平行文本及参照语料库的“全息”设计，研究有效地分离了“翻译效应”与“语言对比效应”，使得结论更为可靠。 3. 理论与技术的深度融合：研究并非简单的技术应用，而是将系统功能语言学、衔接理论、翻译学理论与计算语言学、语料库技术深度结合。理论指导了指标推导和查询设计，技术则使理论假设得到大规模数据的检验。 4. 对复杂现象的精细化处理：研究没有对“显化”做出简单化的整体论断，而是深入到衔接系统的各个子系统（指称、替代、连接等），分别考察其表现，并承认不同手段可能产生相互抵消的效应，体现了科学的审慎态度。
第七、其他有价值的内容 论文还展示了如何将研究置于更广阔的语言学理论对话中。作者们花费相当篇幅将自己的“显性”概念与Linke & Nussbaumer（基于语义/语用区分）、Carston & Burton-Roberts（基于关联理论）、von Polenz（基于表达方式分类）等人的理论进行对比和定位，清晰地表明了自己的研究疆界——聚焦于有形式编码（词汇语法或衔接）基础的显-隐意义，而非依赖语境推理的纯语用含义。这种理论对话增强了研究的深度和学术规范性。此外，论文也坦诚指出了当前研究的局限，例如对词汇衔接的分析主要依赖型次比和词汇密度等间接指标，未来需要引入语义关系标注才能进行更全面的考察，这为后续研究指明了方向。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问