Wilkinson Daniel Wong Gonzales(香港中文大学英文系)于2024年1月17日在*Applied Linguistics*期刊(DOI: 10.1093/applin/amad086)发表了一项结合社会语言学与人工智能技术的原创研究。该研究针对社交媒体Twitter(现称”X”)上缺失用户社会元数据(social metadata)的问题,提出了一种基于深度学习的解决方案,并以菲律宾和香港地区的英语变体为案例,探讨了语言变异的社会语言学模式。
本研究隶属于计算社会语言学(computational sociolinguistics)领域,核心关注社交媒体语言变异分析中元数据缺失的挑战。传统社会语言学分析高度依赖年龄、性别等社会元数据,但Twitter等平台的用户信息往往呈现非结构化特征(如个人简介、头像)或受隐私限制无法获取。为此,作者创新性地采用Wang等人(2019)开发的M3多模态深度学习模型,通过解析用户的语言特征(如词汇、句法)和符号资源(如头像视觉元素)来预测缺失的社会属性(如风格化年龄/性别表达,stylistic age/sex presentation),进而分析这些因素如何影响英语变体的语言变异模式。
研究选取菲律宾英语(EngPh)和香港英语(EngHK)作为案例,原因在于:1)两者均受汉语族语言(Sinitic languages)和菲律宾语(Filipino/Tagalog)影响,但社会语言生态存在显著差异(如EngPh源自美国殖民历史,EngHK受英国统治和粤语影响);2)现有研究对这两种英语变体在非语音层面(如句法、形态)的变异缺乏系统探讨。具体聚焦两个语言变量:EngHK中系动词(copula)的省略现象(如”you ∅ nice”),以及EngPh中情态动词will/shall的使用差异。
研究使用作者自建的Twitter语料库:
- TCOEHK(香港英语语料库):包含2010-2021年香港18个行政区的2600万条推文(1.35亿词)
- TCOPE(菲律宾英语语料库):涵盖2010-2022年菲律宾29个城市的2000万条推文(1.23亿词)
通过自研Python工具Twitter Corpus Suite(含Tkinter图形界面),采用正则表达式从原始语料中提取目标结构:
- EngHK数据集:捕获”代词+(系动词)+(副词)+形容词”结构(如”you_pron is_aux very_adv happy_adj”)
- EngPH数据集:提取含will/shall+动词的结构(如”will_aux go_verb”)
运用M3多模态深度学习模型(Wang et al. 2019)从非结构化数据推断用户属性:
- 视觉模块:采用DenseNet卷积网络分析头像的符号特征(如发型、妆容)
- 文本模块:基于双向字符级LSTM(Bi-LSTM)提取用户名的语言特征
- 融合层:通过模态丢弃(modality dropout)和全连接层整合多模态特征,输出年龄/性别概率分布
模型评估显示:性别预测的宏观F1分数达0.92,年龄预测为0.522(中等相关性)
采用贝叶斯变异社会语言学方法(Bayesian variationist approach):
- 语言内部因素:
- EngHK:形容词音节数、主语人称/数(如you vs. he)、补语结构(是否含副词)
- EngPh:从句类型(疑问/感叹)、话语长度、主要动词类型(如be/have/感知动词)
- 社会因素:模型预测的风格化年龄/性别、地理区域、时间
- 统计建模:使用R语言brms包运行马尔可夫链蒙特卡洛(MCMC)算法,设置弱信息先验(normal[0,5]),通过概率方向(probability of direction, PD)评估效应显著性
本研究通过深度学习填补了社交媒体语言研究中社会元数据的空白,揭示了:
1. 语言独立性:EngHK/EngPh未完全遵循源语言(粤语/美国英语)的变异模式,体现接触语言的创造性
2. 方法论创新:
- 首次将M3多模态模型应用于变异社会语言学,实现非结构化数据到社会属性的转化
- 贝叶斯框架提供概率化解释(如PD值),优于传统p值检验
3. 应用前景:
- 教育领域:生成标注社会属性的语料,辅助二语教学
- AI伦理:校准训练数据的社会偏差(如性别平衡)
- 数字人文:增强社交媒体文本的语境化解读
该研究为计算社会语言学树立了新范式,其方法论框架可扩展至其他语言变体研究,同时为社交媒体平台设计更公平的AI系统提供了语言学依据。