分享自:

1923年至2008年书面美式英语中数字使用的历时变化

期刊:language sciencesDOI:10.1016/j.langsci.2024.101656

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


《Language Sciences》期刊研究:1923-2008年美国书面英语中数字使用的历时变化

一、作者与发表信息

本研究由Gui Wang(浙江大学国际研究学院)、Jing Shu(北京师范大学国际汉语教育学院)、Li Wang(上海外国语大学贤达经济人文学院/上海师范大学外国语学院)合作完成,发表于Language Sciences期刊2024年第105卷(2024年6月21日在线发布)。研究基于1.7亿词规模的《时代》杂志语料库,分析了美国书面英语中数字使用的历时演变规律及其社会文化意义。

二、学术背景与研究目标

科学领域:本研究属于语料库语言学社会语言学交叉领域,聚焦数字在语言中的使用模式及其文化表征功能。

研究动机
1. 学术空白:尽管数字在语言中无处不在,但语言学领域对其系统性研究较少,尤其缺乏历时视角的分析。
2. 理论争议:传统观点认为数字是数学符号,与语言研究分离,但Coupland(2011)等学者提出数字是承载社会意义的重要语言元素。
3. 社会需求:数字使用模式可能反映社会变迁(如经济政策、技术发展),但缺乏量化证据。

研究目标
1. 揭示数字使用频率与数量级(magnitude)圆整性(roundness)的关系是否随时间变化;
2. 识别不同年代的文化显著性数字(culturally salient numbers)及其社会关联;
3. 分析大数字表达形式的标准化进程(如从“6,000,000”到“6 billion”的转变)。

三、研究方法与流程

研究分为数据提取、清洗、翻译、建模分析四个核心步骤:

1. 数据提取
- 语料库:1700万词的《时代》杂志语料(1923-2008年),按十年分段(如1920s-2000s)。
- 工具:使用Python的NLTK库识别文本中的数字(如“twenty-five”“1.2 million”),共提取366万条潜在数字。

2. 数据清洗
- 排除非基数数字:如序数词(“13th”)、日期、温度等,最终保留359万条有效数据。
- 特殊处理:手动翻译混合格式数字(如“5 million”转为“5,000,000”)。

3. 数据分析模型
- 因变量:数字频率(按十年标准化)。
- 自变量
- 数量级:数字的对数值(log10);
- 圆整性:6种属性(如10的倍数、5的倍数、2.5-ness等);
- 文化显著性:通过贝叶斯负二项回归的残差识别高频异常值。
- 算法:采用贝叶斯负二项回归(Bayesian Negative Binomial Regression),解决计数数据的过离散问题。

四、主要研究结果

1. 数量级与圆整性的稳定影响
- 小数字优势:1-9在所有年代均高频出现(如“1”在1920s标准化频率为5145/百万词),支持Dehaene(1992)的“心理表征理论”——小数字认知处理更高效。
- 圆整性效应:圆整数字(如10、20)频率显著高于邻近非圆整数字(如19、21),且10-ness属性预测力最强(回归系数4.29-5.60)。例外:5的倍数属性(multiple of 5)预测力最弱,可能与十进制系统的“四舍五入”习惯有关。

2. 文化显著性数字的年代特征
- 年份数字主导:如1940s的“1941-1945”与二战报道相关,1990s的“911”反映反恐议题。
- 其他显著性数字
- 技术类:波音飞机型号(如1950s的“707”、1980s的“747”);
- 经济类:养老金计划“401(k)”在1990s后爆发式增长;
- 社会事件:1985年航班劫持事件对应的“847”。

3. 大数字表达形式的标准化
- 历时转变:1940年代前,大数字(如“60,000,000”)多用纯数字格式;1950年代后,混合格式(如“6 billion”)成为主流(2000s占比86.17%)。
- 驱动因素:政府文体指南修订(如1953年要求拼写“million”)、杂志编辑规范(如《时代》主编T.S. Matthews强调可读性)。

五、结论与价值

科学价值
1. 首次量化证明数字使用模式受认知(数量级、圆整性)与社会文化(显著性事件)双重影响;
2. 提出“数字作为社会变迁指标”的分析框架,为语言与文化研究提供新视角。

应用价值
1. 媒体研究:数字表达标准化进程反映新闻行业的规范化趋势;
2. 历史研究:文化显著性数字可辅助定位重大社会事件(如经济政策、技术革新)。

六、研究亮点

  1. 方法创新:结合贝叶斯回归与残差分析,分离认知因素与文化因素;
  2. 数据规模:迄今最大规模的历时数字语料分析(85年跨度);
  3. 跨学科意义:融合心理学(认知处理)、社会学(文化表征)与语言学。

七、其他发现

  • 数字999的语义演变:1920s表示租约期限(“999-year lease”),1930s转为夸张修辞(如“吓唬999人以拯救第1000人”),体现语言使用的动态性。

(报告字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com