本文档为Sara Laviosa(当时隶属于University of Birmingham和UMIST)撰写的学术研究论文,题为“how comparable can ‘comparable corpora’ be?”,发表于期刊Target第9卷第2期(1997年)。该文详尽报告了一项构建用于翻译研究的英语单语可比语料库(English Comparable Corpus, 简称ECC)的设计方法与实践,是一项具体的原创性研究,属于类型a。以下是为其他研究者撰写的学术报告。
Sara Laviosa单语可比语料库(ECC)设计方法论研究报告
一、 研究基本信息 本研究的主要作者是Sara Laviosa,其所属机构为伯明翰大学(University of Birmingham)和曼彻斯特大学理工学院(UMIST)。研究成果以论文形式发表在国际翻译研究期刊Target上,时间为1997年。
二、 研究背景与目标 本研究的核心科学领域是语料库翻译学(Corpus-based Translation Studies)。当时,语料库方法在翻译研究中的应用刚刚兴起,亟需发展出一套连贯、系统的方法论,以使这一新兴领域能够成长为该学科内一个成熟的研究范式。Mona Baker(1995)曾提出“可比语料库”(comparable corpus)的概念,即由同一语言的两组文本构成:一组为翻译文本,另一组为原创文本。这种语料库被视为系统研究翻译文本语言特性的宝贵资源。
然而,构建此类语料库面临一个核心且棘手的问题:如何确保其翻译与非翻译(即原创)两个组成部分之间达到足够高的“可比性”(comparability)?可比性不足,则观察到的语言差异可能源于文本类型、主题、时代等混淆变量,而非翻译过程本身,从而削弱研究结论的可靠性。因此,本研究旨在解决这一关键问题。其具体目标是:详细阐述设计一个单语、多源语的英语可比语料库(ECC)的全过程,重点分析与评估在构建其两个子库(新闻和叙事散文)时,如何实现以及实现了何种程度的可比性。这项工作是发展语料库翻译研究统一方法论的重要一步。
三、 研究详细工作流程 本研究可视为一项语料库构建的方法论工程,其工作流程并非传统意义上的实验,而是包括语料库设计、分类、选材、加工、标注和可比性评估等一系列步骤。
第一步:确立ECC整体设计框架与类型学 首先,研究为ECC建立了一个详细的多层级语料库类型学,以明确其定位。此类型学基于并扩展了Atkins等人(1992)的参数体系,分为四个层级: * 层级I:定义了语料库最普遍的对比参数,如全文vs样本、共时vs历时、通用vs术语、单语vs双语/多语、语料库语言、书面vs口语。 * 层级II:针对单语语料库,定义了单一单语语料库和单语可比语料库。研究明确采用了Baker的术语,“可比语料库”在此特指由翻译和原创两部分组成的单语语料库,以区别于语料库语言学中常指的多语主题对应语料库。 * 层级IIIa:将单一语料库细分为翻译语料库和非翻译语料库。 * 层级IIIb:根据设计依赖关系,将可比语料库分为翻译依赖型(原创部分基于翻译部分设计)、非翻译依赖型和独立型。ECC被明确定义为翻译依赖型,即先构建翻译部分(TEC),再根据其特性设计可比的非翻译部分(Non-TEC)。 * 层级IV:这是本研究为翻译语料库特设的层级,包含七组参数,用以精细描述TEC的额外维度:源语数量(单/双/多)、翻译模式(如笔译、口译等)、翻译方法(人工、机器、机辅)、目标语状态(译入母语、外语等)、译者身份(专业、学生)、出版状态(已出版、未出版)。
基于此类型学,ECC被归类为:单语、混合全文与样本、共时、翻译依赖型、书面通用英语可比语料库。TEC和Non-TEC也分别获得了相应分类。
第二步:翻译英语语料库(TEC)的理论与实践设计 本阶段是构建翻译依赖型ECC的核心。作者详细说明了决定TEC各特征的理论与实际考量: * 通用语言:更具代表性,潜在用户更广。 * 多源语:有助于识别独立于特定源语影响的翻译语言普遍特征。 * 人工翻译:因排除专业领域文本,故主要为人译。 * 专业译者与已出版文本:代表性强,受众更广。 * 全文:便于进行词汇密度等统计分析,且文本内特征分布可能不均,全文能提供更可靠数据。 * 共时:研究关注当前翻译行为的规律,而非历时演变。 * 书面语:实际原因,包括易获取、成本低、版权易确认。 * 选择英语:存在英国国家语料库(BNC)作为Non-TEC的潜在资源;英语研究充分,能吸引更多学者。
最终确定的TEC特征为:多源语、单一翻译模式(书面)、单一翻译方法(人工翻译)、主要译入母语、专业译者、已出版语料库。
第三步:TEC文本类别的识别与文本选择 在确定TEC宏观特征后,需要识别符合这些特征的文本类别(或体裁)。先验标准包括:通用英语、全文、近15年内、书面、已出版、多源语翻译等。实践考量包括电子版可得性和版权许可。基于此,选定了包括传记、小说、报纸、官方报告、游记等在内的多种体裁。
文本选择过程系统而严谨: 1. 选材来源:包括主流报纸、Whitaker‘s图书数据库、出版社、译者、翻译机构(如欧盟委员会翻译处)等。 2. 筛选流程:以Whitaker‘s数据库为例,研究者首先选定代表通用翻译语言的六个主题域(如传记、小说),检索所有翻译书目,再根据出版日期(近期优先)和价格(低于20英镑,假定更大众)进行二次筛选。对于小说,还手动排除了价格极低的“通俗小说”,以控制文本质量与目标读者。 3. 版权获取:通过标准信函向出版商或译者申请电子化使用许可。 4. 文本获取与转化:通过购买、赠送或从CD-ROM/在线服务(如Campus 2000)下载获得文本。通过OCR扫描(书籍)和键盘输入(报纸文章)转为电子文本,并进行拼写校对。 5. 文本标注(Markup):保存为ASCII文件,并采用简单的开始标签(<…>)和结束标签(</…>)对文本结构(如书名、标题)进行最小化标注。对于报纸文章,非翻译部分(如编辑添加的标题、摘要、图片说明)被特别标注并排除在后续分析之外,确保分析对象纯为翻译文本。 6. 文件结构:TEC设有子目录对应各文本类别(如/biography, /fiction, /newspapers)。每个子目录包含独立的文本文件。文件划分标准基于文本的完整性、统一作者努力和风格同质性。 7. 文本外部属性记录:本研究特别强调了为TEC文本记录详尽的外部属性(extra-textual attributes)的重要性,并建立了一个包含译者、翻译、翻译过程、源文本四大类数十项属性的数据库。这些信息不仅用于描述和确保语料库平衡,更被视为可操控的变量,用于创建定制化子库和检验假设,同时其本身也是研究“翻译政策”等规范的对象。属性信息通过问卷调查、文本检视和直接询问获取。其中,对文学译者和作者性取向信息的尝试性收集,体现了研究的前沿性和对性别与翻译议题的关注,尽管作者承认其敏感性与方法论上的实验性。
第四步:非翻译英语语料库(Non-TEC)的设计 这是实现“可比性”的关键环节。由于ECC是翻译依赖型,Non-TEC的设计完全基于已构建的TEC。 1. 确立可比性维度:根据TEC的结构与构成,确立了两组可比性维度。通用维度(适用于所有子库)包括:制度性文本类别、时间跨度、作者性别分布、单一与团队作者分布、子库总规模、目标读者(年龄、性别、水平)。报纸子库特有维度(因资料更易获取)包括:具体报纸、报纸版面、主题、文章数量、词数、文本完整性。这使得报纸子库的可比性水平理论上更高。 2. Non-TEC文本的选择、获取与标注: * 传记与小说:主要从英国国家语料库(BNC)中抽取。根据上述通用维度制定筛选标准(如体裁、时间跨度1983-1993、样本大于3万词、作者性别比例与TEC相似等),通过手动检索(传记)和自动查询(小说“想象类”文本)进行选择。 * 报纸:从与TEC相同的报纸(《卫报》、《欧洲人报》)相同版面选择原创文章。选择标准严格遵循特有维度,确保文章数量、平均词数、主题(如政治事务)和时间跨度与对应的TEC新闻文集相匹配。文本同样进行标注,但处理方式略有不同(如摘要通常被视为正文一部分)。 3. 文件结构与外部属性:Non-TEC的文件结构镜像TEC。其记录的外部属性较少,主要包括文本类别、作者、出版信息等,功能更偏向描述性和操作性,用于评估可比性和创建特定子库。
第五步:ECC可比性的评估 作者对已构建的ECC子库的可比性水平进行了坦诚的评估。 * 叙事文本(传记/小说):可比性水平较低,挑战最大。主要依赖BNC现有样本,可比性维度限于宏观外部特征,且“目标读者水平”这类维度存在主观判断成分。作者归因于叙事文本内在主题统一性难以界定,以及依赖现成机读资源的限制。 * 报纸文本:可比性水平显著更高,相对更易实现。因为能够从同一报纸同一版面选择主题、篇幅相似的原创与翻译文章。不过,《欧洲人报》的子库因电子文本可获性的限制,在时间跨度和作者信息完整性上仍存在瑕疵。 * 改进建议:作者提出,若未来能访问包含大量英美出版全文的大型通用英语语料库,并辅以研究者对文本语言难度、风格的主观阅读评估,可以进一步提升叙事文本的可比性。
四、 研究主要结果及其对结论的支持 本研究的主要结果并非传统的数据发现,而是体现在方法论的实施成果和对可比性水平的评估上。 1. 成果一:建成并描述了ECC的初步架构:研究成功构建了一个规模为200万词的ECC,并详细阐述了其构成,包括TEC(翻译英语语料库)和Non-TEC(非翻译英语语料库),以及新闻和叙事散文两个子库。TEC的详细分类、文本来源、属性数据库和文件结构得以完整呈现。 2. 成果二:系统化地定义了可比性维度并应用于实践:研究提出了适用于不同文本类型的、层次分明的可比性维度集合,并将其切实应用于Non-TEC的选材过程中。特别是为报纸文本确立的精细维度(报纸、版面、主题、词数等),为达到较高可比性提供了明确路径。 3. 成果三:客观评估了所实现的可比性水平及其成因:研究结果明确指出,在ECC内部,不同文本类型的可比性水平存在显著差异。报纸子库由于文本可得性高、特征易于匹配,达到了“相对充分”的可比性;而叙事子库则因资源限制和体裁特性,可比性“高度成问题”,仅实现了基于外部特征的最小可比性集合。这一结果本身就是一个重要发现,它揭示了构建可比语料库的现实复杂性与局限性。 4. 成果四:初步验证了ECC方法论的有效性:作为可行性测试,作者提到利用已构建的ECC新闻和叙事子库进行了对比分析,发现了翻译英语相对于原创英语在词汇使用上的四个“核心模式”:实词比例较低、高频词使用更多、最高频词重复率更高、高频词词元更少。这一发现虽然未在本文详细展开数据,但直接证明了即使在不完美的可比性条件下,基于ECC的方法仍能产出有意义、可复现的规律性假设。更重要的是,这一发现反过来强化了研究的主要逻辑:未来任何证实或证伪这些假设的证据,其说服力在很大程度上将取决于语料库设计阶段所建立的可比性水平。因此,对可比性问题的深入探讨和透明报告至关重要。
五、 研究结论与价值 本研究的核心结论是:构建用于翻译研究的单语可比语料库,其翻译与原创组成部分之间的“可比性”并非一个绝对或均质的概念,其 achievable 的水平受到文本体裁、资源可得性、设计原则优先级等多重因素制约。研究通过ECC的构建实例,具体展示了如何通过建立系统的类型学、明确设计理据、制定详细的可比性维度和透明的选材流程,来最大化可比性,并坦诚地评估其限度。
该研究的价值体现在: * 科学价值:为语料库翻译学提供了一套详尽、透明、可复现的语料库设计方法论,特别是对“可比性”这一核心概念进行了操作化解构,推动了该领域研究范式的规范化。其提出的语料库类型学和文本属性框架,具有重要的理论参考意义。 * 应用价值:构建的ECC本身是可供学界使用的资源。其设计经验(尤其是处理报纸和叙事文本的不同策略)为后续研究者构建类似语料库提供了宝贵的实践指南和避坑参考。对文本外部属性(包括性取向等敏感信息)收集方法的探索,拓宽了翻译社会学研究的路径。 * 重要观点:研究强调了方法论透明度和对可比性限度的诚实报告的重要性。它表明,语料库翻译研究的结论有效性与其底层语料库的设计质量密不可分,研究者有责任清晰说明其语料库在哪些方面可比、可比程度如何,以便于他人评估研究发现的普适性。
六、 研究亮点 1. 问题聚焦精准:直击语料库翻译学方法论构建初期最关键的“可比性”难题。 2. 方法论系统性与创新性:原创性地构建了一个包含四个层级、特别为翻译语料库增设第四层的类型学体系;明确提出并实践了“翻译依赖型”可比语料库的设计路径;建立了极其详尽的翻译文本外部属性数据库,并将其功能从描述性提升至解释性和可操控性。 3. 实践导向与透明度:研究详尽披露了从理念到实践的每一个步骤,包括选材来源、筛选标准(甚至具体价格和日期阈值)、版权获取、文本处理、标注方案、文件结构等,具有很高的可操作性和可复现性。 4. 批判性与诚实性:没有回避实践中遇到的困难和妥协,并对最终达成的可比性水平进行了客观、差异化的评估,指出了叙事文本可比性的不足及其原因,体现了科学的批判精神。 5. 前瞻性探索:对译者/作者性取向信息收集方法的实验性探讨,显示了研究试图连接翻译文本的语言特征与更广阔的社会、文化因素的前沿视野。
七、 其他有价值内容 本文还包含了丰富的跨学科术语辨析(如“可比语料库”在翻译研究与语料库语言学中的不同指涉)、对现有语料库分类的梳理与整合,以及对未来研究方向的展望(如利用更大规模全文语料库和结合主观文本评估以提升可比性)。文末附录的参考文献也为研究者提供了宝贵的文献线索。整篇文章不仅是一份语料库构建报告,更是一篇关于如何为翻译研究奠定坚实实证基础的深刻方法论论述。