本研究的核心作者包括来自捷克查理大学(Charles University)捷克国家语料库研究所(Institute of the Czech National Corpus)的Václav Cvrček、Zuzana Komrsková、David Lukeš、Petra Poukarová、Anna Řehořková、Adrian Jan Zasina,以及斯洛伐克科学院(Slovak Academy of Sciences)的Vladimír Benko。该研究于2020年3月19日发表于Springer旗下的期刊Language Resources and Evaluation(Volume 54, Issue 3)。
本研究属于语料库语言学(corpus linguistics)范畴,重点探讨语料库的设计方法论以及语料库在语言变体分析中的代表性。具体而言,研究采用多维分析(Multi-Dimensional Analysis, MDA)方法考察捷克语中网络爬取语料与传统语料在语言变异上的覆盖差异。
过去十多年,网络爬取语料(web-crawled corpora)由于其体量大、成本低的优势日益流行,但研究者对其能否充分代表全方位语言变异仍存疑。传统语料库(如BNC、NKJP)依循严谨设计原则,涵盖广泛文体类别,而网络爬取语料则依赖“机会式”收集方法,可能缺失某些语言变体。本研究旨在通过对比两种语料在语言变异上的重叠与互补,回答以下问题:
1. 网络爬取的捷克语料是否能覆盖传统语料所包含的所有功能性变异?
2. 是否存在某些特定的语言变体只能通过传统语料库获取,而在网络语料中无法找到替代物?
KODITEX是一个900万词的平衡语料库,涵盖口语、书面语及网络文本,分为8个主要类别(如新闻、文学、技术文档、博客等),进一步细分为45个具体文本类型。数据经过均匀切片,每份文本片段长度控制在2000-5000词以确保可比性。
从Araneum Bohemicum(捷克网络爬取语料库,33亿词)中抽取三个批次样本: 1. WS-K1和WS-K2:各5000份文本,长度分布与KODITEX一致。
2. WS-S:1000份文本,长度缩短至约300词以探究文本长度对变异分析的影响。
所有样本通过相同特征集进行MDA投影,并与KODITEX的变异范围进行对比。
研究发现较短文本(WS-S)的因子得分离散度更高,表明较短的文本因语言特征更集中,在变异空间中更偏向极端位置。这一现象对语料库设计至关重要——需控制文本长度以排除长度对分析结果的干扰。
研究还指出,某些网络特有的文本类别(如论坛帖)虽在形式上属于“多向互动”,但部分功能等效于传统语料的互动文本,表明网络数据在特定领域仍具研究潜力。