分享自:

通过多语言推特文本嵌入分析政党立场

期刊:Frontiers in Big DataDOI:10.3389/fdata.2024.1330392

类型a:原创研究学术报告

本研究由日本国立情报学研究所(National Institute of Informatics)的Jinghui Chen、Takayuki Mizuno以及北海道大学(Hokkaido University)的Shohei Doi合作完成,题为《Analyzing Political Party Positions Through Multi-language Twitter Text Embeddings》,于2024年5月30日发表在开放获取期刊《Frontiers in Big Data》(DOI: 10.3389/fdata.2024.1330392)。

学术背景
该研究属于计算社会科学(Computational Social Science)与自然语言处理(NLP)的交叉领域。传统上,政治立场分析依赖于问卷调查或投票记录(如DW-NOMINATE评分),但这些方法存在主观性强或数据维度单一的问题。近年来,词嵌入模型(如Word2Vec)被用于从文本中提取文化维度(如贫富、性别等),但其仅能处理单词级语义,且无法跨语言比较。本研究旨在突破这些限制,提出一种基于多语言句子嵌入(sentence-level embeddings)的新方法,通过社交媒体文本(如Twitter)量化政治立场,并实现跨语言分析。研究目标包括:
1. 将Kozlowski等人提出的“词级文化维度构建方法”扩展至句子级;
2. 利用多语言BERT模型(LaBSE)建立自由-保守主义政治立场维度;
3. 验证该方法在英语(美国)和西班牙语(西班牙)政治文本中的有效性。

研究流程与实验方法
研究分为四个核心步骤:

  1. 政策数据集构建

    • 数据来源:从美国民主党和共和党官网获取政党纲领文件,通过ChatGPT生成50对立场对立的政策陈述(如“支持全民医保”vs.“反对政府干预医疗”)。
    • 创新点:首次利用生成式AI自动化构建对立政策库,避免了人工选择偏见。
  2. 多语言文本嵌入与政治维度定义

    • 模型选择:采用Google开发的LaBSE模型(Language-agnostic BERT Sentence Embedding),其基于BERT架构,支持109种语言的句子嵌入映射到统一向量空间。
    • 维度计算:通过公式 ( p_x = \frac{\sum_n r_n - \sum_n m_n}{q} ) 定义自由-保守主义维度,其中 ( r_n ) 和 ( m_n ) 分别为共和党与民主党政策句子的嵌入向量,( q ) 为政策对数(50对)。
    • 对比基线:传统Word2Vec方法使用6对反义词(如“liberal/conservative”)构建词级维度,并通过TF-IDF加权生成推文向量。
  3. 政治推文数据采集与处理

    • 美国数据集:从Hugging Face获取“senator-tweets”数据集(99名参议员2021年的99,693条推文),过滤转发内容并预处理文本(去除标点、URL等)。
    • 西班牙数据集:通过Twitter API收集西班牙议员2021年原创推文,筛选发布量>100条的账号,确保数据代表性。
  4. 主题建模与跨语言验证

    • LDA(Latent Dirichlet Allocation)分析:对美国推文进行100主题建模,提取关键议题(如“COVID-19救济”“教育平等”),计算议员在各议题上的立场得分。
    • 跨语言投影:将西班牙议员推文嵌入投影至美国自由-保守主义维度,分析两国政治光谱的相似性。

主要结果
1. 句子级模型显著优于词级模型
- LaBSE方法与美国议员DW-NOMINATE基准数据的皮尔逊相关系数达0.73(p<0.001),而Word2Vec仅为0.39(p<0.001),证明句子嵌入能更准确捕捉政治立场。
- 核密度曲线显示,民主党议员集中分布于自由端(均值-1),共和党集中于保守端(均值1),极化现象明显(图1)。

  1. 议题内部分歧揭示政治复杂性

    • LDA发现议员在同一政党内对具体议题立场存在差异。例如:
      • COVID-19救济:民主党议员Brian Schatz强烈支持联邦援助(得分-1.2),而共和党议员Dan Sullivan反对“过度支出”(得分1.4)(图3)。
      • 教育政策:共和党议员Tom Cotton主张“禁止校园手机”(得分0.8),与党内多数立场偏离(图5)。
  2. 跨语言有效性验证

    • 西班牙议员在美式自由-保守维度上呈现右倾分布(>0),与西班牙政治极化现实(如极右翼Vox党崛起)一致(图6),表明LaBSE可跨语言映射意识形态。

结论与价值
1. 方法论贡献:首次将文化维度分析从词级扩展至句子级,并整合多语言能力,为跨文化政治研究提供新工具。
2. 应用价值:可实时监测社交媒体政治倾向,辅助政策制定或舆情分析。例如,通过LDA识别议员关注议题差异,助力精准游说。
3. 科学意义:证实政治立场可通过高维语义空间量化,且语言非障碍,挑战了传统意识形态测量的二元简化假设。

研究亮点
- 技术新颖性:结合LaBSE与LDA,实现“宏观维度+微观议题”双层次分析。
- 数据创新:利用ChatGPT自动化构建政策对立库,提升研究可重复性。
- 跨学科融合:将NLP前沿模型(如Transformer)引入政治学,推动计算社会科学方法论发展。

其他价值
研究开源了美国议员推文数据集(Hugging Face),并呼吁未来纳入更多语种(如中文)验证普适性。局限性在于推特用户的选择性发声可能导致立场偏差,需结合其他数据源(如演讲记录)增强鲁棒性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com