分享自:

中美社交媒体关于DeepSeek的讨论主题识别与对比

期刊:情报科学DOI:10.13833/j.issn.1007-7634.2025.03.001

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


中美社交媒体关于DeepSeek的讨论主题识别与对比研究
作者与机构
郭亚军(郑州航空工业管理学院信息管理学院)、王会森(同前)、李天祥(同前)、袁一鸣(武汉大学信息管理学院)、齐云飞(郑州航空工业管理学院信息管理学院,通讯作者)。
发表信息
发表于《情报科学》2025年第43卷第3期,DOI:10.13833/j.issn.1007-7634.2025.03.001。


学术背景

研究领域
本研究属于信息科学、社交媒体分析与跨文化传播的交叉领域,聚焦生成式人工智能(AIGC)产品的公众认知差异。
研究动机
DeepSeek是中国生成式人工智能领域的重要技术突破(如开源模型DeepSeek-R1),但其在全球化传播中面临文化差异挑战。此前研究多集中于单一文化背景或国外AIGC产品(如ChatGPT),缺乏对中国本土产品的跨平台对比分析。
研究目标
通过对比微博(中国)与X平台(原Twitter,美国)用户对DeepSeek的讨论主题,揭示技术传播中的文化差异,为本土AI产品的全球化策略提供数据支持。


研究流程与方法

1. 数据采集与预处理

  • 数据来源
    采集2025年1月20日至2月20日(DeepSeek-R1发布后一个月)的微博(28,853条)和X平台(26,513条)数据,关键词为“DeepSeek”。
  • 预处理
    • 清洗:去除表情符号、URL、用户名及非语义内容;筛选英文数据(X平台占比49.6%);剔除短文本(中文字符,英文单词)及广告。
    • 分词与归一化:中文使用jieba分词+哈工大停用词表;英文使用NLTK库进行词干提取(Porter Stemmer)和去停用词。

2. 主题建模与分析

  • 模型选择
    采用BERTopic模型(基于Transformer和聚类算法),其优势包括:
    • 多语言处理能力(支持中英文);
    • 结合UMAP降维和HDBSCAN聚类,提升主题区分度;
    • 通过C-TF-IDF和MMR算法生成可解释的主题词。
  • 参数设置
    中文嵌入模型为paraphrase-multilingual-minilm-l12-v2,英文为all-minilm-l6-v2,最小聚类规模42,随机种子0.2。

3. 主题维度划分

人工合并模型输出的主题(微博54个,X平台52个),结合文献与专家意见,最终划分为6个维度:
1. 技术进展(如算法架构、开源影响)
2. 用户体验(使用感受、系统稳定性)
3. 应用场景(行业融合、文化创作)
4. 经济价值(市场潜力、股票影响)
5. 风险伦理(隐私安全、AI伦理)
6. 政策环境(国家支持、国际竞争)

4. 跨文化对比分析

计算各维度讨论占比,结合文化理论(如集体主义vs.个人主义)解释差异。


主要结果

1. 技术进展维度

  • 微博:41%讨论占比,强调“国产技术突破”(如“中国加油”“遥遥领先”)和本土化应用(如自动驾驶、智能芯片)。
  • X平台:45.54%讨论占比,聚焦技术细节(如“RL强化学习”“SFT监督微调”)和全球趋势(如“量子计算”“去中心化”),部分用户质疑技术真实性(如“夸大的”)。

2. 用户体验维度

  • 微博:36.48%讨论占比,正面评价为主(如“智慧宝库”),但高频抱怨服务器“繁忙”。
  • X平台:16.25%讨论占比,类似反馈(如“awesome”“server busy”),但技术讨论更深入。

3. 经济价值维度

  • 微博:7.06%讨论占比,关注本土企业(如华为、比亚迪)和股市(“上涨”“获利”)。
  • X平台:17.26%讨论占比,担忧全球市场冲击(如“NVIDIA股票”“中国挑战”)。

4. 文化差异显性维度

  • 应用场景:微博侧重实用领域(如交通、社交媒体算命),X平台倾向文艺创作(如“诗歌”“音乐”)。
  • 风险伦理:X平台更关注隐私(“data privacy”),微博聚焦操作风险(“木马病毒”)。
  • 政策环境:微博突出“国家自信”,X平台讨论“技术封锁”。

结论与价值

科学价值
1. 揭示了文化背景如何塑造公众对AI技术的认知差异;
2. 验证了BERTopic在跨语言主题建模中的有效性。
应用价值
1. 为DeepSeek的全球化传播策略提供依据(如针对欧美市场加强技术透明度);
2. 建议优化多语言服务稳定性,并拓展文化适配的应用场景。


研究亮点

  1. 跨文化视角:首次对比中美社交媒体对国产AIGC产品的讨论,弥补了单一文化研究的局限。
  2. 方法创新:结合BERTopic与人工分拣,平衡算法效率与主题可解释性。
  3. 实践导向:提出“技术-文化”适配策略,如通过开源社区增强国际信任。

局限与展望
数据时间窗口较短,未来可延长观察周期,或纳入更多平台(如Facebook、抖音)。


(报告字数:约1,500字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com