分享自:

缺失元数据的社交媒体语言变异分析:基于深度学习的英语变体研究

期刊:applied linguisticsDOI:10.1093/applin/amad086

Wilkinson Daniel Wong Gonzales(香港中文大学英文系)于2024年1月17日在*Applied Linguistics*期刊(DOI: 10.1093/applin/amad086)发表了一项结合社会语言学与人工智能技术的原创研究。该研究针对社交媒体Twitter(现称”X”)上缺失用户社会元数据(social metadata)的问题,提出了一种基于深度学习的解决方案,并以菲律宾和香港地区的英语变体为案例,探讨了语言变异的社会语言学模式。

学术背景

本研究隶属于计算社会语言学(computational sociolinguistics)领域,核心关注社交媒体语言变异分析中元数据缺失的挑战。传统社会语言学分析高度依赖年龄、性别等社会元数据,但Twitter等平台的用户信息往往呈现非结构化特征(如个人简介、头像)或受隐私限制无法获取。为此,作者创新性地采用Wang等人(2019)开发的M3多模态深度学习模型,通过解析用户的语言特征(如词汇、句法)和符号资源(如头像视觉元素)来预测缺失的社会属性(如风格化年龄/性别表达,stylistic age/sex presentation),进而分析这些因素如何影响英语变体的语言变异模式。

研究选取菲律宾英语(EngPh)和香港英语(EngHK)作为案例,原因在于:1)两者均受汉语族语言(Sinitic languages)和菲律宾语(Filipino/Tagalog)影响,但社会语言生态存在显著差异(如EngPh源自美国殖民历史,EngHK受英国统治和粤语影响);2)现有研究对这两种英语变体在非语音层面(如句法、形态)的变异缺乏系统探讨。具体聚焦两个语言变量:EngHK中系动词(copula)的省略现象(如”you ∅ nice”),以及EngPh中情态动词will/shall的使用差异。

研究流程与方法

1. 数据采集与预处理

研究使用作者自建的Twitter语料库:
- TCOEHK(香港英语语料库):包含2010-2021年香港18个行政区的2600万条推文(1.35亿词)
- TCOPE(菲律宾英语语料库):涵盖2010-2022年菲律宾29个城市的2000万条推文(1.23亿词)

通过自研Python工具Twitter Corpus Suite(含Tkinter图形界面),采用正则表达式从原始语料中提取目标结构:
- EngHK数据集:捕获”代词+(系动词)+(副词)+形容词”结构(如”you_pron is_aux very_adv happy_adj”)
- EngPH数据集:提取含will/shall+动词的结构(如”will_aux go_verb”)

2. 社会元数据预测

运用M3多模态深度学习模型(Wang et al. 2019)从非结构化数据推断用户属性:
- 视觉模块:采用DenseNet卷积网络分析头像的符号特征(如发型、妆容)
- 文本模块:基于双向字符级LSTM(Bi-LSTM)提取用户名的语言特征
- 融合层:通过模态丢弃(modality dropout)和全连接层整合多模态特征,输出年龄/性别概率分布
模型评估显示:性别预测的宏观F1分数达0.92,年龄预测为0.522(中等相关性)

3. 变异分析框架

采用贝叶斯变异社会语言学方法(Bayesian variationist approach):
- 语言内部因素
- EngHK:形容词音节数、主语人称/数(如you vs. he)、补语结构(是否含副词)
- EngPh:从句类型(疑问/感叹)、话语长度、主要动词类型(如be/have/感知动词)
- 社会因素:模型预测的风格化年龄/性别、地理区域、时间
- 统计建模:使用R语言brms包运行马尔可夫链蒙特卡洛(MCMC)算法,设置弱信息先验(normal[0,5]),通过概率方向(probability of direction, PD)评估效应显著性

主要发现

EngHK系动词省略(2,526条样本)

  • 频率分布:97.38%保留系动词(如”you are nice”),仅2.61%省略(如”you ∅ nice”)
  • 语言内部约束
    • 形容词音节数呈负效应(β=-0.37, PD=1):单音节形容词更易触发省略(如”fine” vs. “irreplaceable”)
    • 复数主语(you/we/they)比单数(he/she/it)更倾向省略(β=0.42, PD=0.97)
    • 与粤语对比:发现逆向模式——粤语中多音节词更易省略系动词,表明EngHK未完全复制源语言规则
  • 社会因素
    • 女性风格化用户(female-presenting)省略率更高(β=0.67, PD=0.94)
    • 年轻女性与年长男性构成创新变体引领者,符合Labov语言变化原则(无意识变异中女性主导)
    • 无显著地理变异,暗示EngHK内部区域性差异较弱

EngPh情态动词(339,341条样本)

  • 频率分布:will占97.3%,shall仅2.7%
  • 语言内部约束
    • 疑问句显著偏好shall(β=0.58, PD=1),反映殖民时期美国英语的保守特征残留
    • 话语长度与will使用正相关(PD=0.93),与爱尔兰英语相反
    • 动词类型效应:be/have动词强烈排斥shall(β=-0.89/-0.56, PD=1)
  • 社会因素
    • 维萨亚斯地区(Visayas)和马尼拉更常用shall
    • 男性风格化用户(male-presenting)和年长者保守性更强

结论与价值

本研究通过深度学习填补了社交媒体语言研究中社会元数据的空白,揭示了:
1. 语言独立性:EngHK/EngPh未完全遵循源语言(粤语/美国英语)的变异模式,体现接触语言的创造性
2. 方法论创新
- 首次将M3多模态模型应用于变异社会语言学,实现非结构化数据到社会属性的转化
- 贝叶斯框架提供概率化解释(如PD值),优于传统p值检验
3. 应用前景
- 教育领域:生成标注社会属性的语料,辅助二语教学
- AI伦理:校准训练数据的社会偏差(如性别平衡)
- 数字人文:增强社交媒体文本的语境化解读

研究亮点

  1. 跨学科方法:融合深度学习与社会语言学,解决元数据缺失的核心难题
  2. 理论验证:通过大数据证实Labov语言变化原则在数字语境下的适用性
  3. 语料库建设:构建首个涵盖社会风格化标注的Twitter英语变体语料库
  4. 反向发现:揭示EngHK系动词省略的音节效应与粤语相反,挑战传统接触语言学假设

该研究为计算社会语言学树立了新范式,其方法论框架可扩展至其他语言变体研究,同时为社交媒体平台设计更公平的AI系统提供了语言学依据。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com