分享自:

人工智能技术在在线社交网络和媒体中的应用:基于BERTopic建模的见解

期刊:IEEE AccessDOI:10.1109/access.2025.3543795

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


AI技术与在线社交网络及媒体的应用:基于BERTopic建模的洞察

一、作者与发表信息
本研究由Prema Nedungadi(印度Amrita Vishwa Vidyapeetham)、G. Veena(同前)、Kai-Yu Tang(台湾中兴大学)、Remya R. K. Menon(印度Amrita Vishwa Vidyapeetham)和Raghu Raman(印度Amrita Vishwa Vidyapeetham商学院)共同完成,发表于IEEE Access期刊,2025年2月19日在线发布,3月3日更新版本。研究受台湾科技部(NSTC 113-2410-H-005-007)和台湾教育部“可持续农业创新与发展中心”项目资助。

二、学术背景与研究目标
科学领域:本研究属于人工智能(AI)与在线社交网络及媒体(Online Social Networks and Media, OSNEM)的交叉领域,聚焦AI在内容个性化、信息传播动态分析及规模化数据处理中的应用。
研究动机:随着OSNEM的快速发展,AI技术虽在虚假新闻检测、情感分析(Sentiment Analysis)、仇恨言论识别等领域取得进展,但仍面临算法偏见、回声室效应(Echo Chambers)和数据隐私等挑战。研究旨在通过系统性文献综述和主题建模,揭示AI在OSNEM中的核心应用、技术瓶颈及未来方向。
研究目标:回答四个核心问题(RQ):
1. RQ1:如何在保护用户的前提下利用AI增强OSNEM的个性化服务?
2. RQ2:哪些先进AI技术可用于分析信息传播与舆论动态?
3. RQ3:如何开发可扩展的AI方法以实时处理大规模数据?
4. RQ4:如何通过AI有效检测和管控虚假新闻、机器人和仇恨言论?

三、研究方法与流程
研究采用PRISMA框架(系统综述与元分析的首选报告项目)和BERTopic建模(一种基于BERT嵌入的主题建模方法),分为以下步骤:

  1. 文献检索与筛选

    • 数据源:Scopus数据库,检索词包括“online social networks”“social media”“AI techniques”等,涵盖个性化、内容审核、安全等主题。
    • 筛选标准:排除书籍、会议论文和非英语文献,最终纳入1,091篇期刊论文(初始检索3,023篇)。
  2. BERTopic建模分析

    • 预处理:使用Python环境清洗文本,采用Sentence Transformer的“all-mpnet-base-v2”模型生成句子嵌入,通过UMAP(Uniform Manifold Approximation and Projection)降维。
    • 主题建模:使用“all-MiniLM-L6-v2”模型聚类文献,设置最小主题规模为20,每主题20个关键词,最终提取7个核心主题(如虚假新闻检测、公共健康监测等)。
    • 主题验证:通过文档-主题概率分布和连贯性评分(Coherence Score)验证主题区分度,选取代表性文献(每主题20篇)进行深入分析。
  3. 数据分析与整合

    • 多模态技术:结合文本、图像和网络结构数据,分析跨平台信息传播模式。
    • 算法创新:引入动态记忆网络(Dynamic Memory Networks, DMNs)和时序卷积网络(Temporal Convolutional Networks, TCNs)追踪舆论演化。

四、主要研究结果
1. RQ1:个性化与用户保护
- 情感分析:概念级情感分析框架(如Sehar等提出的DNN模型)可提升推荐系统准确性,但需解决算法偏见(如对低资源语言的覆盖不足)。
- 仇恨言论检测:TF-IDF(词频-逆文档频率)与随机梯度下降(SGD)结合的方法在阿拉伯语方言中表现优异,但需跨语言迁移学习以应对文化差异。

  1. RQ2:信息传播动态

    • 虚假新闻检测:图神经网络(如GIN-FND)能捕捉虚假新闻的传播路径,准确率比传统方法高15%。
    • 舆论建模:ELECTRA模型在选举期间分析政治话语时,对复杂语言结构的解析能力优于RNN。
  2. RQ3:可扩展AI方法

    • 多任务学习框架:在灾难响应中,实时分析Twitter数据(如2020年广州暴雨事件)的延迟降低40%。
    • 边缘计算:Apache Hadoop架构处理洪水相关推文的效率提升60%。
  3. RQ4:有害内容管控

    • 生成式AI风险:FakeClips框架通过视觉情感识别检测虚假视频,但需对抗对抗性样本攻击。
    • 机器人检测:GANBot(生成对抗网络)识别自适应机器人的准确率达92%。

五、研究结论与价值
1. 科学价值
- 提出公平感知学习模型(Fairness-aware Learning)和联邦学习(Federated Learning)框架,平衡个性化与伦理约束。
- 验证了多模态AI在跨平台数据分析中的优势,如结合文本与图像的情感分析。

  1. 应用价值
    • 为政策制定者提供透明化AI审核标准(如通过SHAP解释模型决策)。
    • 在公共卫生(如COVID-19舆情监测)和灾难管理(如实时灾情分析)中具实践意义。

六、研究亮点
1. 方法论创新:首次将BERTopic建模应用于OSNEM领域,识别出7个未被传统LDA(Latent Dirichlet Allocation)捕捉的细分主题。
2. 技术整合:提出“自进化神经网络”(Self-Evolving Neural Networks, SENN),可动态适应社交网络社区变化。
3. 跨学科贡献:链接AI技术与联合国可持续发展目标(SDGs),如SDG 3(健康)和SDG 16(和平与公正)。

七、其他价值
- 研究呼吁建立全球AI伦理框架,尤其针对生成式AI(如ChatGPT)在OSNEM中的滥用风险。
- 附录中提供了完整的PRISMA流程图和主题关键词分布图,可供后续研究复现。


此报告全面覆盖了研究的背景、方法、结果与创新点,适合学术界和产业界读者快速把握核心贡献。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com