本文档为一份发表于2025年的原创性研究论文。研究由周祎恺(浙江大学)、蒋景阳(浙江大学)和刘海涛(复旦大学)合作完成,论文《语言在句子长度上的共性:10种语言的句子长度分布比较》发表于期刊《认知科学》(Cognitive Science),卷49,文章编号e70115。
本研究的学术背景聚焦于计量语言学、认知科学与语言类型学的交叉领域。句子长度是反映认知约束和文体风格决策的重要指标,它体现了在有效沟通中,人们对言语和文本进行分割的平衡。先前研究揭示了词汇层面(如词频、词长)存在跨语言的普遍分布规律(如齐普夫定律),这被认为与人类追求“最省力”的认知原则相关。然而,句子作为另一个核心语言单位,其长度分布是否也存在跨语言的普遍模式,以及这种模式是否受到语言谱系和文体(genre)的影响,尚不明确。因此,本研究旨在探讨三个核心问题:第一,人类语言中的句子长度分布是否遵循统一的概率模型?第二,不同语言的句子长度分布是否存在系统性差异,这些差异是否能反映语言的谱系关系?第三,在不同语言的不同书面文体中,句子长度分布是否表现出相似的模式?
研究的详细工作流程分为两个主要部分:研究1和研究2。
研究1:跨语言普适性与谱系聚类分析 本部分旨在回答前两个研究问题。 * 研究对象与材料:研究者选取了10种语言:汉语、英语、法语、德语、意大利语、日语、葡萄牙语、俄语、西班牙语和世界语(Esperanto)。为确保数据的可比性,所有语料均来自“莱比锡语料库集合”,选取了每种语言在“新闻”领域的最新(多为2023年)语料包(各包含30,000个句子)。选择新闻文本是为了避免个人写作风格的过度影响。为便于分析,每个语料包被等分为10个子文本(各3,000句)。 * 句子长度定义与处理:鉴于“句子”定义在语言学中存在争议,本研究采用基于标点符号的操作化定义。定义两种长度:1) 句子长度:两个连续句末标点(句号、问号、感叹号)之间的单词数;2) 子句长度:两个连续“停顿”标点(逗号、分号、冒号、破折号及句末标点)之间的单词数。对原始文本进行了清洗处理,如移除作者名、标题、数字内标点、引号和括号内容(除非括号内为完整句子),将连续重复的标点合并为一个等。 * 概率分布拟合:使用Python计算每个文本中句子长度和子句长度的频率分布。随后,使用阿尔特曼拟合器软件,采用Nelder-Mead单纯形算法,将频率数据拟合到一个特定的概率分布模型——扩展正负二项分布。该模型由Pande和Dhami于2015年提出,并被证明在拟合句子长度分布方面优于其他模型(如超帕斯卡分布)。该模型包含三个参数(k, p, α),共同决定了分布的形态(如偏度、峰度)。拟合优度由R²值衡量,R²≥0.9通常被认为是良好拟合。 * 数据分析:首先,通过检查所有文本的R²值是否达标,验证句子和子句长度分布是否普遍符合EPNB模型。其次,使用克鲁斯卡尔-瓦利斯检验和单因素方差分析,检验不同语言在平均长度和EPNB模型参数上是否存在显著差异。最后,为了探究句子长度特征是否携带语言类型学信息,研究者对全部100个文本(10种语言×10个子文本)的多个变量(句子和子句的平均长度、EPNB模型的三个参数k/p/α、以及拟合优度R²)进行了两步聚类分析。该方法无需预先指定聚类数量,并能评估各变量对聚类结果的重要性,从而观察基于句长特征的聚类是否与已知的语言谱系关系相符。
研究2:英语和汉语中不同文体的句长分布比较 本部分旨在回答第三个研究问题。 * 研究对象与材料:选取英语和汉语两种语言,并从各自的镜像平衡语料库中选取三种书面文体:新闻报道(来自“新闻”大类)、宗教文本(来自“通用散文”大类)和爱情小说(来自“小说”大类)。英语语料来自F-LOB语料库,汉语语料来自LCMC语料库。这三种文体在正式程度和叙事性上具有差异。 * 数据处理与模型拟合:与研究1类似,对每个文本进行清洗、计算句子长度和子句长度,并拟合EPNB分布以获取参数。 * 数据分析:为了检验语言和文体对句长特征的影响,研究者构建了四个广义线性模型。响应变量分别为:平均句子长度、平均子句长度、句子长度分布的参数p、子句长度分布的参数p。固定效应为语言(英语/汉语)和文体(新闻报道/宗教文本/爱情小说),并考虑了交互项。模型采用伽马分布和对数连接函数。随后,通过比较一系列嵌套模型(逐步加入语言、文体、相加效应、交互效应),计算纳格尔科克R²的增量变化,以量化语言和文体各自对响应变量方差的解释力。
研究的主要结果如下:
研究1结果: 1. 普遍分布模式:尽管10种语言新闻文本的平均句子长度差异巨大(如汉语平均约27.4词,俄语约14.3词),但其句子长度和子句长度的频率分布均成功拟合EPNB模型(所有R² > 0.92),证实了跨语言普遍概率模式的存在。子句长度分布的拟合优度普遍高于句子长度分布,且跨语言差异更小,表明子句长度是比句子长度更稳定、更可预测的语言特征。 2. 跨语言差异与形态:统计分析显示,不同语言在平均句长和所有EPNB参数上均存在显著差异。分布曲线显示,所有语言的句长概率都先快速达到峰值然后缓慢下降。德语和俄语的分布曲线两端最陡峭,其参数k和p值也最高;而汉语和日语的分布曲线最平缓,k和p值最低。参数k和p之间存在强相关,可能共同影响分布的偏度和峰度。 3. 谱系聚类:两步聚类分析将100个文本自动分为3类。聚类结果与语言谱系高度吻合:所有罗曼语族语言(法语、意大利语、葡萄牙语、西班牙语)的文本均被归入同一类。德语和俄语的文本主要聚集在另一类。汉语和日语的文本则全部被归入第三类,这与两者在文字系统(都使用汉字/部分使用汉字)和认知处理上的潜在相似性可能有关。世界语(一种计划语言)的文本被归入包含罗曼语和英语的类别,符合其作为欧洲语言“折中产物”的特点。这表明,基于句长分布特征的聚类分析能够大致反映语言的谱系关系。
研究2结果: 1. 语言与文体的影响:广义线性模型结果显示,语言和文体均对句长特征有系统性影响,但其相对重要性因语言层级而异。 2. 句子层级:在句子层级(平均句子长度和句子分布的参数p),文体的影响更强。例如,与新闻报道相比,宗教文本的平均句子长度显著更长,而爱情小说则显著更短。文体解释了平均句子长度变异的大部分方差。 3. 子句层级:在子句层级(平均子句长度和子句分布的参数p),语言的影响更强。例如,汉语文本的平均子句长度显著短于英语文本。语言解释了子句分布参数p变异的大部分方差。 4. 交互作用:在爱情小说文体中,发现了显著的“语言×文体”交互作用,表明汉语在爱情小说中的句长模式与新闻报道中的模式差异,不同于英语在两种文体中的差异模式。而宗教文本中未发现显著的交互作用,暗示该文体在英汉两种语言中可能具有更相似的句长模式。
基于以上结果,本研究得出结论: 1. 普遍性:人类语言在基于标点的句子和子句分割上,表现出统一的概率分布模式(EPNB分布)。这种共性源于人类共通的认知约束,即在信息表达需求与“最省力”原则、工作记忆限制之间寻求平衡。均匀信息密度假说为此提供了理论支持:过短的句子信息密度过高,过长的句子认知负荷过大,因此最常见的句子长度是一个折中点。 2. 谱系与类型学价值:句子和子句长度分布的参数能够区分不同语言,其聚类结果与已知谱系关系高度一致。这表明句长分布特征可以作为语言类型学研究的一个新的定量指标,为探究语言间的历史渊源和结构相似性提供了新视角。 3. 文体适应性:句子和子句长度分布同时受到语言结构差异和文体驱动的交际需求的影响,但存在层级分工:句子层级的特征更多地由文体塑造(反映了为适应不同交际目的而进行的宏观结构调整),而子句层级的特征则更多地受制于语言本身的结构特性。这揭示了语言使用者根据文体要求调整句子分割策略的普遍认知能力。
本研究的亮点在于: 1. 重要的发现:首次在涵盖多种谱系的10种语言中,确证了句子和子句长度分布遵循统一的概率模型(EPNB分布);首次通过定量分析表明,句长分布特征可用于反映语言谱系关系;首次清晰揭示了语言和文体对句长分布的影响在句子和子句两个层级上的不同分工。 2. 方法的创新性与严谨性:采用基于标点的操作化定义,解决了跨语言句子单位界定难题;选用大规模、可比性强的平衡语料库(莱比锡语料库、F-LOB、LCMC);应用并验证了EPNB模型在跨语言、多文体句长分析中的有效性;综合运用聚类分析和广义线性模型,从不同角度深入挖掘数据背后的模式。 3. 研究对象的特殊性:不仅包含了9种主要的自然语言,还纳入了世界语这一成功的计划语言,其分布模式与自然语言一致,有力地支持了“句长分布模式源于人类共有认知约束”的论点。 4. 理论与应用价值:研究结果深化了我们对语言产出、认知约束与交际功能之间关系的理解,将计量语言学与认知科学、语言类型学紧密连接。在实际应用上,该方法可为作者风格分析、文本分类、机器翻译的文本规划以及语言教学提供量化参考依据。
研究也指出了自身的局限性,如所涉语言和文体数量仍有限,爱情小说可能受个人风格影响,以及未来可结合更多语言特征(如句法复杂度)进行更全面的建模。总体而言,该研究通过数据驱动的方法,为探索语言共性开辟了新的有效途径。