分享自:

生成式AI对语言身份的解释及其社会语言学影响

期刊:Australian Review of Applied LinguisticsDOI:10.1075/aral.24077.car

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


生成式AI如何解释语言身份?一项揭示AI内容中社会语言学等级的研究

作者及机构
本研究由澳大利亚悉尼大学(The University of Sydney)的Beatriz Carbajal-Carrera完成,发表于2024年1月的《Australian Review of Applied Linguistics》期刊(卷47,期3,页码340–365)。


一、学术背景

研究领域:本研究横跨生成式人工智能(Generative AI, GenAI)社会语言学知识社会学领域,聚焦AI生成内容(AI-generated content, AIGC)对语言身份的表征问题。

研究动机
1. 现实问题:语言教材和教师长期将特定语言身份与“ prestige(声望)”语境绑定(如Ducar 2019的研究),而GenAI在教育中的普及可能加剧这种偏见。
2. 理论缺口:现有研究多关注AI的性别或种族偏见,但对语言偏见(尤其是殖民语言与非殖民语言的等级差异)缺乏系统性分析。
3. 核心目标:通过分析GenAI对不同语言身份的解释,揭示其如何通过话语策略(discursive strategies)强化社会语言学等级,并提出批判性工具以促进AI的负责任使用。

理论基础
- 合法化代码理论(Legitimation Code Theory, LCT):采用其“ specialization codes(专业化代码)”框架,通过认知关系(Epistemic Relations, ER)社会关系(Social Relations, SR)的强弱组合(+/−)分析语言身份的合法性建构。
- 殖民性语言(Coloniality of Language):引用Veronelli(2015)的理论,指出语言殖民通过将某些语言“种族化”为低等沟通工具而延续至今。


二、研究流程

研究对象与数据收集
1. 语言选择:选取两组对比语言——
- 主导语言(Dominant Languages):英语(English)、卡斯蒂利亚西班牙语(Castilian Spanish);
- 非主导语言(Non-Dominant Languages):加勒比西班牙语(Caribbean Spanish)、纳瓦特尔语(Nahuatl)。
2. 数据来源:通过ChatGPT 3.5生成对四种语言的解释文本(2024年4月2日采集),总字数约2,272词。
3. 提示词设计:基于Norton(2013)对“身份”的定义(与世界的关系、时空结构、未来可能性),设计统一提问模板(图2)。

分析方法
1. 翻译工具开发(Translation Device):将抽象概念(如“与世界的关系”)操作化为可分析的指标(表1)。例如:
- 认知关系(ER):体现为对“绝对价值(absolute value)”“现代性(modernity)”“明确职业(explicit careers)”的强调;
- 社会关系(SR):体现为对“相对价值(relative value)”“非现代性(un-modernity)”“职业推断(career inferences)”的依赖。
2. 话语分析:对比四类语言解释中ER与SR的强弱模式,识别其如何通过知识代码(Knowledge Codes, ER+/SR−)知者代码(Knower Codes, ER−/SR+)建构等级。


三、主要结果

1. 主导语言的身份表征
- 与世界的关系:强调绝对价值。例如:
- 英语被描述为“ undoubtedly one of the most valuable skills”(无可争议的最有价值技能),并冠以“ the language of science”(科学的语言)的单一标签;
- 卡斯蒂利亚西班牙语被称为“ simply Spanish”,暗示其作为西班牙语唯一合法变体的地位。
- 时空结构:绑定现代性与全球域。例如:
- 英语关联“ technology”“ multinational companies”等关键词;
- 卡斯蒂利亚西班牙语突出“ business”“ markets”等经济繁荣符号。
- 未来可能性:列出明确职业(如外交、科技、翻译),体现知识代码(ER+/SR−)

2. 非主导语言的身份表征
- 与世界的关系:强调相对价值。例如:
- 加勒比西班牙语的价值被描述为“ unique advantages”(独特优势),而非绝对必需;
- 纳瓦特尔语的价值需通过“ cultural preservation”(文化保护)间接证明。
- 时空结构:绑定非现代性与本土域。例如:
- 加勒比西班牙语被“热带化(tropicalization)”,关联“ vivacious spirit”(活泼精神)等情感标签;
- 纳瓦特尔语频繁提及“ nature”“ spirituality”,强化其与“原始性”的关联。
- 未来可能性:职业需读者推断(如通过代表人物的演员、活动家身份),体现知者代码(ER−/SR+)

3. 等级化机制
- 认知不平等:主导语言被赋予普遍性知识载体地位(如“科学的语言”),而非主导语言的价值需通过社会功能(如文化多样性)证明。
- 时空等级:现代性(主导语言)与非现代性(非主导语言)的二分法,延续了殖民话语中“文明-原始”的对立逻辑。


四、结论与价值

理论贡献
1. 首次将LCT的specialization codes应用于AIGC分析,揭示了GenAI如何通过ER/SR的差异化配置再生产语言等级。
2. 提出“ AI说教(AIsplaining)”概念(类比“ mansplaining”),指代GenAI在“过度自信与无知交集”中强化偏见的机制。

应用价值
- 教育领域:为语言教师提供批判性工具(如表1的翻译设备),帮助识别教材与AI内容中的隐性偏见。
- AI伦理:呼吁开发者在训练数据中纳入多元语言身份,并推动去殖民化AI(Decolonial AI)实践。


五、研究亮点

  1. 方法论创新:结合LCT与话语分析,系统性解构AIGC中的微观话语策略。
  2. 跨学科视角:将社会语言学、知识社会学与AI伦理研究融合,拓展了批判性AI研究的理论边界。
  3. 实证发现:揭示GenAI对非主导语言的“去人性化(dehumanization)”表征(如将纳瓦特尔语绑定“自然”而非“理性”)。

局限与展望
- 数据仅基于ChatGPT 3.5,未来需扩展至多模态GenAI模型;
- 建议后续研究纳入更多非殖民语言(如非洲、亚洲土著语言),以验证等级化机制的普适性。


(报告字数:约1,800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com