基于GIN的多模态特征转换与多特征组合投票的讽刺感知网络欺凌检测

分享自：
基于GIN的多模态特征转换与多特征组合投票的讽刺感知网络欺凌检测

期刊:information processing and managementDOI:10.1016/j.ipm.2024.103651
该文档属于类型a，即报告了一项原创性研究的学术论文。以下是基于文档内容的学术报告：
一、研究作者及发表信息
 本研究由武汉大学信息管理学院的Tingting Li、Ziming Zeng*、Qingqing Li和Shouqiang Sun共同完成，发表在期刊《Information Processing and Management》2024年第61卷，文章编号103651，于2024年1月9日在线发布。
二、学术背景
 随着在线社交网络（Online Social Networks, OSNs）的快速发展，网络欺凌（cyberbullying）问题日益严重，尤其是带有讽刺意味的网络欺凌（irony-aware cyberbullying）因其隐含性和复杂性，成为检测的难点。现有研究主要集中在直接型网络欺凌的检测，而对讽刺型网络欺凌的研究较少。讽刺型网络欺凌通常涉及特定场景，并伴随正面词汇的贬义使用，仅依靠文本内容难以准确识别。此外，越来越多的用户通过结合文本和图像进行网络欺凌，这使得传统的单模态检测方法面临挑战。
 本研究旨在提出一种多模态特征构建方法，结合图同构网络（Graph Isomorphism Network, GIN）特征变换和多特征组合投票策略（Multi-Feature Combination Voting, MFCV），以提升讽刺型网络欺凌的检测效果。研究的主要目标包括：1）设计有效的多模态数据融合框架；2）挖掘文本和图像特征的潜在表示；3）减少单模态与多模态之间的数据结构信息偏差。
三、研究流程
 1. 多模态特征构建与GIN特征变换（GINBV）
 - 多模态图表示构建：使用BERT（Bidirectional Encoder Representations from Transformers）提取文本特征，使用ViT（Vision Transformer）提取图像特征，并通过皮尔逊相关系数计算实例间的相关性，构建多模态图表示。
 - 节点嵌入：利用GIN模型进行消息传递和聚合操作，学习多模态数据的潜在表示。通过多层感知机（MLP）和ReLU激活函数对嵌入节点进行归一化和激活。
 - 多模态特征构建：将GIN变换后的多模态特征与BERT和ViT提取的文本图像特征进行二次融合，生成最终的多模态特征集。
多特征组合投票策略（MFCV）
特征组合生成：从GINBV生成的多模态特征、BERT提取的文本特征和ViT提取的图像特征中选择特定数量的特征集，形成多种特征组合。
 
预测结果软投票：将每种特征组合分别输入分类器进行预测，计算多个预测结果的概率平均值，生成最终的检测结果。
 
实验设计与数据分析
数据集：从新浪微博（Weibo）爬取65,994条去重微博，筛选出5,211条讽刺型网络欺凌文本-图像对和6,598条非网络欺凌文本-图像对作为实验数据。
 
实验设置：使用九种分类算法（如LR、KNN、RF、XGBoost等）进行五折交叉验证，评估指标包括F1分数、召回率、精确率、准确率和AUC。
 
参数优化：通过实验确定多模态图表示构建中的相关系数阈值p、节点嵌入轮数k和嵌入维度d的最优值（p=0.985，k=6，d=512）。
 
四、主要结果
 1. GINBV的有效性：与BERT_ViT相比，GINBV在F1分数、召回率、精确率、准确率和AUC上均有显著提升，表明GIN特征变换能够有效挖掘多模态数据的潜在表示，丰富数据结构信息。
 2. MFCV的优越性：GINBV_MFCV在各项指标上均优于GINBV，表明多特征组合投票策略能够减少数据结构信息偏差，进一步提升检测效果。
 3. 最佳算法表现：在九种候选算法中，基于XGBoost的GINBV_MFCV表现最佳，F1分数为83.29%，AUC为91.21%，分别比基线算法提升了8.65%和15.73%。
五、结论与意义
 本研究提出了一种集成GIN特征变换和多特征组合投票策略的框架（GINBV_MFCV），用于直接检测讽刺型网络欺凌。GINBV通过消息传递和聚合操作，挖掘文本-图像特征的潜在表示，丰富多模态数据结构信息；MFCV通过软投票策略，减少单模态与多模态之间的信息偏差，提升检测效果。实验结果表明，基于XGBoost的GINBV_MFCV在讽刺型网络欺凌检测中表现出色，为网络欺凌检测研究提供了新的思路和方法。
 该研究不仅填补了讽刺型网络欺凌检测的研究空白，还为在线社交网络中的公共舆论监督提供了有效工具，有助于及时发现和预防网络欺凌的传播，净化网络环境。
六、研究亮点
 1. 创新性框架：首次提出结合GIN特征变换和多特征组合投票策略的集成框架，直接针对讽刺型网络欺凌进行检测。
 2. 多模态特征挖掘：通过GIN模型挖掘文本-图像特征的潜在表示，丰富了多模态数据的结构信息。
 3. 软投票策略：MFCV通过软投票策略，有效减少了不同特征信息之间的偏差，提升了检测效果。
 4. 优异性能：基于XGBoost的GINBV_MFCV在讽刺型网络欺凌检测中表现出色，F1分数和AUC均显著提升。
七、其他有价值内容
 本研究还探讨了GINBV_MFCV在其他检测任务（如假新闻检测、社交机器人检测）中的潜在应用，并指出未来研究可以扩展到更多社交平台和语言数据集，以验证框架的鲁棒性和通用性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问