关于翻译汉语与原生汉语差异性的语料库研究报告:以浙江大学翻译汉语语料库为例
作者与发表信息
本研究报告基于肖忠华(Richard Xiao)教授于2010年发表在《International Journal of Corpus Linguistics》第15卷第1期(第5至35页)的论文《How different is translated Chinese from native Chinese? A corpus-based study of translation universals》。肖忠华教授当时任职于英国知山大学(Edge Hill University)。本研究是其主持的、由中国国家社会科学基金资助的英汉翻译汉语量化研究项目的重要组成部分。
学术背景与研究目标
本研究隶属于描写翻译研究领域,特别是语料库翻译学研究分支。这一分支通过比较翻译文本与非翻译(即原生)目标语文本的可比语料库,将翻译作为一种“产品”进行研究。自上世纪90年代以来,以Mona Baker等人为代表的研究者基于翻译英语语料库和英国国家语料库等资源,对翻译英语(主要译自欧洲语言)的特征进行了大量探索,并提出了“翻译共性”的假设。该假设认为,翻译文本作为一种“第三语码”,会普遍呈现出如显化(explicitation)、简化(simplification)、规范化(normalization) 等区别于原生目标语的规律性特征。
然而,既往研究存在明显局限:其一,研究大多集中于翻译英语,且源语言多为与英语关系密切的欧洲语言;其二,将基于英语得出的“共性”直接推广为普遍规律,其说服力不足。为了检验这些“共性”是否具有真正的跨语言普遍性,必须从非欧洲语言、特别是与英语“谱系”差异巨大的语言中寻找证据。汉语,作为与英语截然不同的语言,成为验证这些假设的关键一环。本研究正是为了填补这一空白,旨在通过创建并分析一个平衡的翻译汉语语料库,探究翻译汉语相对于原生汉语的特征,进而为翻译共性假设提供来自汉英翻译对的新证据。
研究方法与工作流程
本研究的核心是创建并分析一个全新的、与现有原生汉语语料库严格可比的专业翻译汉语语料库。具体工作流程包含以下几个关键步骤:
第一步:构建可比语料库 研究团队创建了“浙江大学翻译汉语语料库”。其设计明确以肖教授等人早前开发的“兰卡斯特汉语语料库”为蓝本。两个语料库规模均为约100万词,并从15种相同的书面文体类别中各抽取500个约2000词的文本片段,确保在总规模和文体分布上高度平衡(如新闻报道、学术论文、各类小说等)。为了保证数据可得性和现实性,ZCTC的采样时间范围(约2001年)相较于原生语料库有所延后,且其中绝大部分(约99%)文本译自英语,另有少量译自其他语言以反映翻译现实。所有文本均收集并处理为纯文本格式。
第二步:语料库标注与处理 为确保分析的一致性,两个语料库均使用中国科学院计算技术研究所开发的ICTCLAS 2008系统进行处理。该系统集成了分词、词性标注等功能,采用层次隐马尔可夫模型,分词准确率报告达98.54%以上。经过该工具处理,文本中的每个词语都被赋予一个词性标签(共22个一级类别,扩展至80余个二级、三级类别),从而为后续的词法和句法分析提供了结构化数据基础。经过处理,ZCTC最终包含1,017,395个词符,LCMC包含1,023,387个词符,两者规模极为接近。
第三步:基于语料库的对比分析 研究采用“单语可比语料库”分析方法,将ZCTC与LCMC进行多维度对比,以揭示翻译汉语的显著特征。研究者选取了此前在翻译英语研究中被广泛探讨的多个参数和结构进行案例研究,主要包括: 1. 词汇特征:通过对比词汇密度、标准型次比、高频词与低频词的比例、高频词重复率等,检验简化假设是否适用于汉语。 2. 连接词使用:统计并对比两个语料库中连词的总频率、分布以及高频/低频连词的构成,以此作为检验显化假设的指标。 3. 被动结构使用:重点对比标记性被动结构“被”字句在两个语料库中不同文体下的频率分布,用以探究源语透过效应和规范化假设在汉英翻译中的表现。
数据分析使用语料库分析工具(如Wordsmith Tools)进行频率统计和对比,并采用对数似然率检验等统计方法来判断频率差异是否具有统计学意义。
主要研究发现与结果分析
一、 词汇层面的简化趋势 研究验证了Laviosa针对翻译英语提出的核心词汇模式在汉语中同样存在。结果显示: 1. 词汇密度:以实词占总词符比例衡量,翻译汉语的总体词汇密度显著低于原生汉语。在15种文体中的14种里,这一差异都具有统计显著性。这表明翻译汉语的信息负载相对较低。 2. 高频词使用:高频词(占总词符比例≥0.10%的词)在翻译汉语语料库中覆盖了40.47%的词符,高于原生汉语的35.70%。高频词与低频词的比例、高频词的重复率,翻译汉语也均显著高于原生汉语。 3. 标准型次比:然而,当使用标准型次比作为衡量词汇丰富度的指标时,两个语料库之间的差异并不显著。这表明翻译汉语在词汇多样性上与原生汉语相当,其简化主要表现为更依赖高频词汇,而非词汇总量的贫乏。
二、 句法层面的显化证据 通过对连接词的详细分析,研究为显化假设提供了支持: 1. 总体频率:连词在翻译汉语中的总体使用频率显著高于原生汉语。 2. 文体差异:这一趋势在大多数文体中成立,尤其在文学类文体(各类小说、幽默)中最为显著。这支持了肖忠华等人先前对文学翻译的观察。虽然在个别说明性文体(如民间故事、学术散文)中连词使用频率相当甚至略低,但总体趋势指向显化。 3. 连接词构成:对高频连词的深入分析发现,翻译汉语中使用的高频连词类型更多,且倾向于使用更口语化、简单的形式(如“以至于”、“换句话说”),而原生汉语则保留了更多正式、古雅的连词(如“故”、“可见”、“然”)。这一发现不仅与简化假设呼应,也对规范化(即翻译文本会过度使用目标语典型模式)假设构成了挑战。
三、 句法结构:源语透过效应 vs. 规范化 对“被”字被动句的分析揭示了翻译汉语受英语影响的深刻痕迹: 1. 总体频率:被动句在翻译汉语中的使用频率显著高于原生汉语。 2. 文体分布与原因:这种差异在说明性文体中尤为突出,如新闻报道、评论、报告/官方文件、学术论文等。这些文体在英语中本就高频使用被动语态以体现客观正式的风格。在翻译过程中,译者倾向于保留或模仿英语的被动结构,导致“被”字句的过度使用,而这并非原生汉语在该语境下的典型选择。例如,研究中列举的“该证书就必须被颁发”明显是英语被动结构“the certificate must be issued”的直译,在原生汉语中更可能使用无标记的意念被动句“该证书就必须颁发”。 3. 对假设的验证:这一结果为源语透过效应提供了强有力的证据,表明翻译汉语在特定句法结构上明显受到英语源语的影响。同时,该结果与规范化假设的预期相悖,因为翻译汉语并未“过度符合”汉语被动句的典型(且低频)使用规范,而是引入了非典型的、源语驱动的模式。只有在侦探小说这一特殊文体中,原生汉语因描述受害者遭遇而更频繁地使用带消极语义韵的“被”字句,频率反而高于翻译汉语。
结论与研究价值
本研究通过构建首个与原生汉语平衡可比的大规模翻译汉语语料库,并开展系统的定量分析,得出了以下核心结论: 1. 翻译汉语具有区别于原生汉语的系统性特征,这些特征部分支持了基于英语提出的翻译共性假设,但也呈现出汉语自身的复杂性。 2. 简化在词汇层面得到证实:翻译汉语表现出信息负载降低、更依赖高频核心词汇的趋势。 3. 显化在句法层面(连接词使用)得到支持:翻译汉语倾向于使用更多连接词来明示逻辑关系。 4. 规范化受到挑战,源语透过效应显著:在被动结构等特定领域,翻译汉语并未“过度规范化”,而是清晰地留下了英语源语的印记,表明源语结构对翻译文本的塑造力可能强于对目标语惯例的迎合。 5. 文体是重要变量:翻译特征的表现程度和方式在不同文体间存在显著差异,提示任何关于翻译共性的论断都必须考虑文体因素。
研究的科学价值在于:它将翻译共性研究的视野从印欧语系内部扩展到了汉英这一“谱系”迥异的语言对,提供了更具挑战性的检验案例。研究发现既有支持(如简化、显化),也有修正和挑战(如规范化的不适用、源语效应的凸显),从而深化和细化了我们对“翻译普遍性”的理解——所谓的“共性”可能并非绝对普遍,而是受到特定语言对、文体和语言层面交互影响的趋势。
其实践价值在于:创建的ZCTC为后续翻译汉语研究提供了宝贵的基础资源;研究结论对翻译教学(使学习者意识到翻译文本与原生文本的差异)、翻译实践(提高对源语干扰和显化等潜意识过程的认识)以及机器翻译的评估与改进均有启示意义。
研究亮点
本研究标志着翻译共性研究迈向更广泛语言证据的重要一步。作者在文末展望,只有当更多基于不同语系语言对的类似可比研究出现时,我们才有可能剥离特定翻译对的影响,真正识别出独立于具体语言对的、更纯粹的“第三语码”特征。ZCTC的建成与初步分析,正是通向这一目标的关键基石。