学术报告:Jesse Egbert与Michaela Mahlberg关于小说中语域变异的研究
一、作者与发表信息
本研究由美国北亚利桑那大学(Northern Arizona University)的Jesse Egbert与英国伯明翰大学(University of Birmingham)的Michaela Mahlberg合作完成,发表于期刊Register Studies 2020年第2卷第1期(pp. 72–101)。
二、学术背景
研究领域与动机
该研究属于语域分析(register analysis)与语料库语言学(corpus linguistics)的交叉领域,聚焦于小说文本内部的语域变异(register variation)。传统语域研究多关注不同文本类型(如学术论文、口语对话)之间的差异,而忽视了单一文本内部(如小说中的叙述与对话)的语域分化。Biber & Conrad (2009)曾指出,小说是最复杂的语域之一,因其情境依赖于虚构世界而非现实语境。作者旨在通过量化分析,验证小说中的直接引语(quotes,即虚构对话)与叙述(non-quotes)是否具有独立的语域特征。
研究目标
- 比较虚构对话与叙述的语言特征差异;
- 分析二者与其他语域(如真实口语、信息性文本)的相似性;
- 识别标志性的语言学特征。
三、研究流程与实验设计
1. 语料库构建
研究基于两个已标注的子语料库:
- 19世纪小说语料库(19C):29部非狄更斯作品;
- 狄更斯小说语料库(DNov):狄更斯全部15部小说。
通过引号标记将文本分为虚构对话(quotes,占比36%)与叙述(non-quotes,占比64%),共提取88个文本片段,总库容约830万词。
2. 多维分析法(Multi-Dimensional Analysis, MDA)
采用两种MDA维度体系:
1. Biber (1988)的维度1(Biber_D1):衡量”互动性(involved)”与”信息性(informational)”对立,用于跨语域比较;
2. Egbert (2012)的三维度:
- Egbert_D1:思想呈现(thought presentation) vs. 描述(description)
- Egbert_D2:抽象阐述(abstract exposition) vs. 具体动作(concrete action)
- Egbert_D3:对话(dialogue) vs. 叙述(narration)
3. 数据处理
- 文本标注:使用Biber Tagger对150+语言学特征(如代词、时态、名词短语)进行自动标注;
- 标准化计算:基于Z-score公式计算各文本在四个维度上的得分;
- 统计检验:采用双因素方差分析(ANOVA)检验作者(狄更斯 vs. 其他)与语域(对话 vs. 叙述)的影响。
四、主要研究结果
1. 虚构对话与叙述的语域差异(Biber_D1)
- 虚构对话:高度”互动性”,接近真实口语(如面对面交谈),特征包括:
- 高频使用第一/二人称代词(如”I”, “you”)、缩略形式(如”don’t”)、现在时动词;
- 例证:狄更斯《雾都孤儿》中对话的Biber_D1得分高达26.93。
- 叙述:偏向”信息性”,类似传记文本,特征包括:
- 名词短语、介词、属格形容词的高频出现;
- 得分显著低于对话(如《雾都孤儿》叙述部分得分为-6.74)。
2. 小说特异性维度分析(Egbert三维度)
- Egbert_D1:虚构对话显著偏向”思想呈现”,使用心理动词(如”think”)、情态动词(如”might”);叙述则侧重”描述”。
- Egbert_D3:虚构对话在”对话”维度得分极高,依赖疑问句、人称代词;而叙述以第三人称代词和过去时为主导。
- 狄更斯的独特性:其叙述部分在Egbert_D2(具体动作)中显著高于其他作者,源于对身体部位名词(如”fist”, “face”)的密集使用,体现非言语行为描写的风格化特征。
五、结论与价值
科学意义
- 理论创新:证实小说内部存在系统性语域变异,支持将”虚构对话”与”叙述”视为独立语域;
- 方法论贡献:通过MDA量化验证了文学风格的语言学基础,为语域研究与文体分析的结合提供范例;
- 跨学科启示:提出”嫁接文本(grafted text)”概念,类比园艺嫁接,解释多语域混杂的文本结构。
应用价值
- 语料库设计:呼吁在语料库中分离对话与叙述,以提升分析精度;
- 文学研究:为人物塑造、叙述视角等议题提供数据支持,如狄更斯通过具体动作增强角色真实感。
六、研究亮点
- 首创性:首次系统量化小说内部语域分化,填补了传统语域研究的空白;
- 多维验证:结合通用维度(Biber_D1)与小说专用维度(Egbert三维度),增强结论可信度;
- 技术严谨性:基于大规模标注语料(830万词)与统计建模,避免主观偏误。
七、其他发现
- 历史语言学价值:19世纪小说对话可作为缺乏录音时代的口语近似样本,但需警惕文学加工的干扰;
- 数字人文工具:研究依托CLiC语料库平台(clic.bham.ac.uk),其引号自动标注技术为类似研究提供基础设施支持。
该研究为理解虚构文本的复杂性提供了全新视角,并为后续跨时代、跨文化的比较研究奠定了方法论基础。