缺失元数据的社交媒体语言变异分析：基于深度学习的英语变体研究

分享自：
缺失元数据的社交媒体语言变异分析：基于深度学习的英语变体研究

期刊:applied linguisticsDOI:10.1093/applin/amad086
Wilkinson Daniel Wong Gonzales（香港中文大学英文系）于2024年1月17日在*Applied Linguistics*期刊（DOI: 10.1093/applin/amad086）发表了一项结合社会语言学与人工智能技术的原创研究。该研究针对社交媒体Twitter（现称”X”）上缺失用户社会元数据（social metadata）的问题，提出了一种基于深度学习的解决方案，并以菲律宾和香港地区的英语变体为案例，探讨了语言变异的社会语言学模式。
学术背景本研究隶属于计算社会语言学（computational sociolinguistics）领域，核心关注社交媒体语言变异分析中元数据缺失的挑战。传统社会语言学分析高度依赖年龄、性别等社会元数据，但Twitter等平台的用户信息往往呈现非结构化特征（如个人简介、头像）或受隐私限制无法获取。为此，作者创新性地采用Wang等人（2019）开发的M3多模态深度学习模型，通过解析用户的语言特征（如词汇、句法）和符号资源（如头像视觉元素）来预测缺失的社会属性（如风格化年龄/性别表达，stylistic age/sex presentation），进而分析这些因素如何影响英语变体的语言变异模式。
研究选取菲律宾英语（EngPh）和香港英语（EngHK）作为案例，原因在于：1）两者均受汉语族语言（Sinitic languages）和菲律宾语（Filipino/Tagalog）影响，但社会语言生态存在显著差异（如EngPh源自美国殖民历史，EngHK受英国统治和粤语影响）；2）现有研究对这两种英语变体在非语音层面（如句法、形态）的变异缺乏系统探讨。具体聚焦两个语言变量：EngHK中系动词（copula）的省略现象（如”you ∅ nice”），以及EngPh中情态动词will/shall的使用差异。
研究流程与方法1. 数据采集与预处理研究使用作者自建的Twitter语料库：
 - TCOEHK（香港英语语料库）：包含2010-2021年香港18个行政区的2600万条推文（1.35亿词）
 - TCOPE（菲律宾英语语料库）：涵盖2010-2022年菲律宾29个城市的2000万条推文（1.23亿词）
通过自研Python工具Twitter Corpus Suite（含Tkinter图形界面），采用正则表达式从原始语料中提取目标结构：
 - EngHK数据集：捕获”代词+（系动词）+（副词）+形容词”结构（如”you_pron is_aux very_adv happy_adj”）
 - EngPH数据集：提取含will/shall+动词的结构（如”will_aux go_verb”）
2. 社会元数据预测运用M3多模态深度学习模型（Wang et al. 2019）从非结构化数据推断用户属性：
 - 视觉模块：采用DenseNet卷积网络分析头像的符号特征（如发型、妆容）
 - 文本模块：基于双向字符级LSTM（Bi-LSTM）提取用户名的语言特征
 - 融合层：通过模态丢弃（modality dropout）和全连接层整合多模态特征，输出年龄/性别概率分布
 模型评估显示：性别预测的宏观F1分数达0.92，年龄预测为0.522（中等相关性）
3. 变异分析框架采用贝叶斯变异社会语言学方法（Bayesian variationist approach）：
 - 语言内部因素：
 - EngHK：形容词音节数、主语人称/数（如you vs. he）、补语结构（是否含副词）
 - EngPh：从句类型（疑问/感叹）、话语长度、主要动词类型（如be/have/感知动词）
 - 社会因素：模型预测的风格化年龄/性别、地理区域、时间
 - 统计建模：使用R语言brms包运行马尔可夫链蒙特卡洛（MCMC）算法，设置弱信息先验（normal[0,5]），通过概率方向（probability of direction, PD）评估效应显著性
主要发现EngHK系动词省略（2,526条样本）频率分布：97.38%保留系动词（如”you are nice”），仅2.61%省略（如”you ∅ nice”）
 
语言内部约束：
 形容词音节数呈负效应（β=-0.37, PD=1）：单音节形容词更易触发省略（如”fine” vs. “irreplaceable”）
 
复数主语（you/we/they）比单数（he/she/it）更倾向省略（β=0.42, PD=0.97）
 
与粤语对比：发现逆向模式——粤语中多音节词更易省略系动词，表明EngHK未完全复制源语言规则
 
社会因素：
 女性风格化用户（female-presenting）省略率更高（β=0.67, PD=0.94）
 
年轻女性与年长男性构成创新变体引领者，符合Labov语言变化原则（无意识变异中女性主导）
 
无显著地理变异，暗示EngHK内部区域性差异较弱
 
EngPh情态动词（339,341条样本）频率分布：will占97.3%，shall仅2.7%
 
语言内部约束：
 疑问句显著偏好shall（β=0.58, PD=1），反映殖民时期美国英语的保守特征残留
 
话语长度与will使用正相关（PD=0.93），与爱尔兰英语相反
 
动词类型效应：be/have动词强烈排斥shall（β=-0.89/-0.56, PD=1）
 
社会因素：
 维萨亚斯地区（Visayas）和马尼拉更常用shall
 
男性风格化用户（male-presenting）和年长者保守性更强
 
结论与价值本研究通过深度学习填补了社交媒体语言研究中社会元数据的空白，揭示了：
 1. 语言独立性：EngHK/EngPh未完全遵循源语言（粤语/美国英语）的变异模式，体现接触语言的创造性
 2. 方法论创新：
 - 首次将M3多模态模型应用于变异社会语言学，实现非结构化数据到社会属性的转化
 - 贝叶斯框架提供概率化解释（如PD值），优于传统p值检验
 3. 应用前景：
 - 教育领域：生成标注社会属性的语料，辅助二语教学
 - AI伦理：校准训练数据的社会偏差（如性别平衡）
 - 数字人文：增强社交媒体文本的语境化解读
研究亮点跨学科方法：融合深度学习与社会语言学，解决元数据缺失的核心难题
 
理论验证：通过大数据证实Labov语言变化原则在数字语境下的适用性
 
语料库建设：构建首个涵盖社会风格化标注的Twitter英语变体语料库
 
反向发现：揭示EngHK系动词省略的音节效应与粤语相反，挑战传统接触语言学假设
 
该研究为计算社会语言学树立了新范式，其方法论框架可扩展至其他语言变体研究，同时为社交媒体平台设计更公平的AI系统提供了语言学依据。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问