关于西班牙语句长分布与依存距离定量关系的研究报告
本研究由来自中国两所高校的研究者共同完成。第一作者为刘金璐(Zhejiang University of Finance and Economics, School of Foreign Languages),通讯作者及共同作者为刘海涛(Fudan University, College of Foreign Languages and Literature),另一位共同作者为杨楠(Zhejiang University of Finance and Economics, School of Foreign Languages)。该项研究成果以题为“Quantitative relationship between distribution of sentence length and dependency distance in Spanish”的论文形式,发表于语言学领域的期刊 *Linguistics Vanguard*。论文于2024年9月24日收稿,2025年3月21日被接受,并于2025年4月18日在线发表。
一、 学术背景与研究目的 这项研究隶属于计量语言学与依存语法交叉领域,是语言复杂性研究的一个重要分支。长期以来,句长(sentence length)作为衡量文本复杂性和反映人类认知加工负荷的基本指标,在文体学、语言习得、文本可读性评估等多个语言学分支中受到广泛关注。传统研究多集中于英语、汉语等语言,探讨不同作者或文体的句长分布模式,例如认为其可能符合超泊松分布(hyper-poisson distribution)或正负二项式分布(positive negative binomial distribution)等数学模型。与此同时,依存距离(dependency distance),即句子中具有句法依存关系的两个词在线性序列上的间隔距离,因其与人类工作记忆限制和“省力原则”(principle of least effort)紧密相关,成为理解句法复杂性和加工难度的一个关键概念。已有研究表明,句长与平均依存距离(mean dependency distance, MDD)存在相互影响的关系,一般来说,句子越长,其MDD也倾向于越大。
然而,对于作为全球母语使用人数第二多的西班牙语,其句长分布的定量规律、句长与依存距离之间的具体量化关系,以及随着句长增加语言系统是否会通过调整依存模式(如增加短距离依存关系)来适应认知限制,尚未有基于大规模依存树库的、系统性的计量研究。基于此,本研究旨在填补这一空白,运用依存语法理论框架和计量语言学方法,对西班牙语展开深入分析。具体而言,研究提出了三个核心问题:1) 西班牙语的句长分布遵循何种数学模型?2) 西班牙语中句长与平均依存距离(MDD)如何相互作用?3) 随着句长增加,西班牙语是否通过增加短距离依存关系来激活适应性机制以降低整体依存距离?
二、 详细研究流程 本研究采用了基于语料库的定量分析方法,其工作流程严谨且系统,主要包括以下几个步骤:
第一步:语料选择与预处理 研究团队选用了基于表层句法通用依存(Surface-syntactic Universal Dependencies, SUD)标注体系的西班牙语句法树库(版本2.13)。该树库包含三个子库:Penn树库(PUD)、Ancora树库和Google树库(GSD),总文本量达103万词,体裁涵盖博客、新闻、评论和维基百科。选择SUD体系是因为其标注方案更具句法导向性,更适合进行语言学的深度分析。研究从该树库中共提取了29,154个句子作为分析样本。
第二步:关键指标的计算 计算主要围绕两个核心变量:句长和依存距离。 1. 句长计算:本研究以词数作为句长测量单位。一个句子的句长定义为从该句起始至句末标点(句号、问号、感叹号)之间的词的总数。 2. 依存距离计算:采用刘海涛(2008)提出的计算方法。对于句子中的一个依存关系,依存距离定义为支配词(governor)序号与从属词(dependent)序号之差的绝对值。对于一个包含n个词的句子,其平均依存距离(MDD)的计算公式为:将所有依存关系的距离绝对值之和除以(n-1)。对于从整个树库计算整体MDD,则用所有句子中所有依存关系的距离绝对值之和除以(依存关系总数 - 句子总数)。
第三步:数据分析与模型拟合 研究者使用专业计量语言学软件Altmann-Fitter对所提取的数据进行统计分析与模型拟合。 1. 句长分布分析:首先,对所有29,154个句子的句长频率分布进行统计。随后,使用Altmann-Fitter软件拟合多种离散概率分布模型,以确定最能描述西班牙语句长分布的数学模型。 2. 句长与MDD关系分析:为了精确探究两者关系,研究采取了两种策略。首先,将所有句子按句长划分为十个区间(如0-10词、11-20词等),并计算每个区间内所有句子的平均MDD。同时,也将所有句子按MDD值划分为十个区间(如[0-1)、[1-2)等),并计算每个MDD区间内句子的平均句长。通过绘制图表和观察趋势来分析其相关性。其次,为了控制MDD对句长分布分析的影响,研究者根据统计结果(91.7%的句子MDD在1到4之间),随机抽取了500个句子,组成10组(每组50句),每组内的句子具有相同的MDD值(从1到4递增),以观察在MDD递增时句长分布的变化。 3. 短距离依存关系分析:研究者特别关注了距离为1的“相邻依存关系”(adjacent dependency relationship)。他们从树库中提取了所有此类关系,并统计了不同句长区间内相邻依存关系所占的比例,以观察该比例随句长变化的模式。
三、 主要研究结果 通过对数据的细致分析,本研究得出了以下几项关键发现:
关于西班牙语句长分布的模型:对全部29,154个句子的分析显示,西班牙语的句长分布最佳地拟合了正负二项式分布(positive negative binomial distribution)。拟合的判定系数R²高达0.98(大于0.90),表明该模型对西班牙语句长数据的描述非常出色。这意味着西班牙语的句长并非随机分布,而是遵循一种特定的离散概率规律。此外,即使当研究者将MDD固定(例如MDD=2)并分析该子集内句子的长度分布时,结果仍然符合正负二项式分布(R²=0.91),这表明不同MDD水平下的句长分布模式并未受到显著影响。
关于句长与平均依存距离(MDD)的相互作用关系:分析结果清晰地证实了句长与MDD之间存在正相关关系。数据显示,随着句长区间的增加(从0-10词到90+词),对应的平均MDD从1.38单调上升至11.61。同时,当观察不同MDD区间时,平均句长也随着MDD的增加而增长,直至MDD达到8-9区间后略有下降。这一下降趋势可能意味着在处理极高复杂度的句子时,说话者会无意识地简化句法结构以提升可理解性。这一发现与基于英语和汉语的先前研究结论一致,即在西班牙语中,句子越长,其句法分析的认知负荷(体现在更大的MDD上)也越高,反之亦然。
关于句长、MDD区间内的句子数量分布:研究发现了两个有趣的分布模式。首先,当按句长分组后,不同句长区间内包含的句子数量分布符合正态分布。超过一半的句子长度集中在10到30个词之间,约96%的句子长度在50个词以内。这印证了语言使用的“省力原则”,即人们倾向于避免使用极短或极长的句子。其次,当按MDD分组后,不同MDD区间内的句子数量分布符合对数正态分布。这种分布的右偏特征使其对极端值更敏感,但数据主体(91.7%)集中在MDD值1到4的区间内,再次支持了人类认知系统倾向于使用中等复杂度句式的观点。
关于短距离依存关系(相邻依存)的变化模式:在西班牙语树库中,依存距离绝对值为1的相邻依存关系占总依存关系的比例约为51.6%,超过了一半,这与人类语言普遍存在“依存距离最小化”(dependency distance minimization, DDM)倾向的假设相符。进一步分析该比例随句长的变化时,发现随着句长增加,相邻依存关系的比例呈现下降趋势,但其皮尔逊相关系数为-0.15,且p值(0.13)大于0.05,表明这种负相关性在统计上并不显著。这一模式与Jiang和Liu(2015)对汉语的研究发现类似(比例在一定范围内波动),而不同于英语(比例随句长显著下降)。这说明,相邻依存关系的行为模式可能具有语言特异性,不能简单归因于句长增加。
四、 研究结论与意义 本研究通过系统性的定量分析,揭示了西班牙语在句法层面的一些重要规律:1)其句长分布遵循正负二项式模型;2)句长与平均依存距离(MDD)相互关联,存在显著的正相关;3)在句长增加时,语言系统并未显示出通过显著增加短距离(相邻)依存关系来系统性降低整体依存距离的强烈适应机制,相邻依存比例的变化模式更接近于汉语而非英语。这些结论不仅深化了我们对西班牙语句法结构特性的理解,也验证了语言作为“人类驱动的复杂适应系统”在面对认知资源限制时所表现出的普遍性与特异性并存的特征。
从科学价值看,本研究填补了针对西班牙语在句长分布及其与依存距离关系方面的计量研究空白。它将依存语法理论与计量语言学方法相结合,为语言类型学比较提供了新的实证数据(如相邻依存关系的跨语言差异)。所发现的正负二项式分布模型也为构建更精确的语言统计模型提供了参考。从应用角度看,研究结果对西班牙语教学(如教材编写中句子复杂度的梯度设计)、自然语言处理(如句法解析器的优化)、以及文本可读性评估等领域都具有潜在的应用价值。
五、 研究亮点 本研究的亮点主要体现在以下几个方面:1)研究对象具有重要价值:聚焦于母语使用人数众多但相关计量研究相对缺乏的西班牙语。2)方法严谨且具有创新性:不仅进行了整体分析,还巧妙地通过构建MDD恒定组来排除混淆变量,更清晰地揭示了变量间的动态关系。3)发现了跨语言差异的线索:关于相邻依存关系比例随句长变化模式的发现,暗示其可能成为区分语言类型(如汉语型 vs. 英语型)的一个潜在参数,这为后续的跨语言大规模比较研究提出了一个富有启发性的新方向。4)多层面验证理论:研究结果从多个角度(句长分布模型、句长-MDD关系、短距离依存模式)共同支持了人类语言受认知限制和“省力原则”驱动的理论框架。
六、 其他有价值的内容 论文在讨论部分还结合了认知科学的理论,将研究发现置于人类工作记忆容量限制(如Miller提出的7±2原则)的背景下进行阐释,使语言学的定量发现与认知科学的经典理论形成了对话。此外,研究也指出了未来方向,例如需要基于更多样化的语言样本来验证相邻依存关系是否可作为语言分类的标准,并探索这种差异背后的深层认知或结构动因。