这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由Gui Wang(浙江大学国际研究学院)、Jing Shu(北京师范大学国际汉语教育学院)、Li Wang(上海外国语大学贤达经济人文学院/上海师范大学外国语学院)合作完成,发表于Language Sciences期刊2024年第105卷(2024年6月21日在线发布)。研究基于1.7亿词规模的《时代》杂志语料库,分析了美国书面英语中数字使用的历时演变规律及其社会文化意义。
科学领域:本研究属于语料库语言学与社会语言学交叉领域,聚焦数字在语言中的使用模式及其文化表征功能。
研究动机:
1. 学术空白:尽管数字在语言中无处不在,但语言学领域对其系统性研究较少,尤其缺乏历时视角的分析。
2. 理论争议:传统观点认为数字是数学符号,与语言研究分离,但Coupland(2011)等学者提出数字是承载社会意义的重要语言元素。
3. 社会需求:数字使用模式可能反映社会变迁(如经济政策、技术发展),但缺乏量化证据。
研究目标:
1. 揭示数字使用频率与数量级(magnitude)、圆整性(roundness)的关系是否随时间变化;
2. 识别不同年代的文化显著性数字(culturally salient numbers)及其社会关联;
3. 分析大数字表达形式的标准化进程(如从“6,000,000”到“6 billion”的转变)。
研究分为数据提取、清洗、翻译、建模分析四个核心步骤:
1. 数据提取
- 语料库:1700万词的《时代》杂志语料(1923-2008年),按十年分段(如1920s-2000s)。
- 工具:使用Python的NLTK库识别文本中的数字(如“twenty-five”“1.2 million”),共提取366万条潜在数字。
2. 数据清洗
- 排除非基数数字:如序数词(“13th”)、日期、温度等,最终保留359万条有效数据。
- 特殊处理:手动翻译混合格式数字(如“5 million”转为“5,000,000”)。
3. 数据分析模型
- 因变量:数字频率(按十年标准化)。
- 自变量:
- 数量级:数字的对数值(log10);
- 圆整性:6种属性(如10的倍数、5的倍数、2.5-ness等);
- 文化显著性:通过贝叶斯负二项回归的残差识别高频异常值。
- 算法:采用贝叶斯负二项回归(Bayesian Negative Binomial Regression),解决计数数据的过离散问题。
1. 数量级与圆整性的稳定影响
- 小数字优势:1-9在所有年代均高频出现(如“1”在1920s标准化频率为5145/百万词),支持Dehaene(1992)的“心理表征理论”——小数字认知处理更高效。
- 圆整性效应:圆整数字(如10、20)频率显著高于邻近非圆整数字(如19、21),且10-ness属性预测力最强(回归系数4.29-5.60)。例外:5的倍数属性(multiple of 5)预测力最弱,可能与十进制系统的“四舍五入”习惯有关。
2. 文化显著性数字的年代特征
- 年份数字主导:如1940s的“1941-1945”与二战报道相关,1990s的“911”反映反恐议题。
- 其他显著性数字:
- 技术类:波音飞机型号(如1950s的“707”、1980s的“747”);
- 经济类:养老金计划“401(k)”在1990s后爆发式增长;
- 社会事件:1985年航班劫持事件对应的“847”。
3. 大数字表达形式的标准化
- 历时转变:1940年代前,大数字(如“60,000,000”)多用纯数字格式;1950年代后,混合格式(如“6 billion”)成为主流(2000s占比86.17%)。
- 驱动因素:政府文体指南修订(如1953年要求拼写“million”)、杂志编辑规范(如《时代》主编T.S. Matthews强调可读性)。
科学价值:
1. 首次量化证明数字使用模式受认知(数量级、圆整性)与社会文化(显著性事件)双重影响;
2. 提出“数字作为社会变迁指标”的分析框架,为语言与文化研究提供新视角。
应用价值:
1. 媒体研究:数字表达标准化进程反映新闻行业的规范化趋势;
2. 历史研究:文化显著性数字可辅助定位重大社会事件(如经济政策、技术革新)。
(报告字数:约1800字)