本研究由 Furqan Rustam(巴基斯坦拉合尔管理技术大学软件工程系)、Wajdi Aljedaani(美国北德克萨斯大学计算机科学与工程系)、Anca Delia Jurcut(爱尔兰都柏林大学计算机科学学院)、Sultan Alfarhood(沙特阿拉伯国王沙特大学计算机与信息科学学院)、Mejdl Safran(沙特阿拉伯国王沙特大学计算机科学学院)和 Imran Ashraf(韩国岭南大学信息与通信工程系)共同完成。论文于2024年12月2日发表在期刊 Discover Computing 上,标题为 《Fake News Detection Using Enhanced Features Through Text to Image Transformation with Customized Models》,DOI编号为10.1007/s10791-024-09490-1。
本研究属于自然语言处理(NLP)与计算机视觉(Computer Vision)的交叉领域,旨在解决社交媒体时代假新闻检测的挑战。假新闻的传播速度快、形式多样,且常利用人工智能(AI)生成逼真内容,使得传统基于文本特征的方法(如TF-IDF、词嵌入)难以应对其复杂性和多样性。现有假新闻检测方法存在四大问题:
1. 鲁棒性不足:模型在噪声数据上表现不佳;
2. 适应性有限:难以应对假新闻形式的快速演变;
3. 辅助信息利用不足:忽略用户行为、来源可信度等上下文信息;
4. 多样性处理能力弱:假新闻的异质性导致分类准确率下降。
本研究提出了一种文本到图像转换(Text-to-Image Transformation)的新方法,通过将文本数据转化为RGB图像,增强特征空间的可分性,从而提升机器学习模型的性能。
研究使用了两个公开数据集:
- LIAR数据集:包含12,800条政治声明,标注为6类真实性等级(如“完全真实”“半真半假”“完全虚假”)。
- ISOT数据集:包含来自Reuters和Kaggle的新闻文本,标注为“真实”或“虚假”两类。
预处理步骤包括:
- 分词(Tokenization):使用NLTK库将文本拆分为单词或短语;
- 词形还原(Lemmatization):将单词还原为基本形式(如“running”→“run”);
- 噪声去除:删除特殊字符、数字、链接等;
- 停用词过滤:移除无实际意义的词汇(如“the”“and”)。
这是本研究的核心创新点,具体流程如下:
1. 特征提取:使用词袋模型(Bag of Words, BoW)将文本转换为数值向量,统计词频;
2. 特征选择:通过卡方检验(Chi-Square, Chi2)筛选与目标类别相关性最高的4,096维特征;
3. 图像生成:将特征向量归一化至0-255范围,并重塑为64×64像素的RGB图像。
此方法通过图像的空间特性捕捉文本的潜在模式。例如,真实新闻与虚假新闻在RGB通道上表现出不同的分布(图3展示了示例图像)。
研究对比了以下模型:
- 机器学习模型:逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)、决策树(DT);
- 深度学习模型:自定义CNN、预训练模型(VGG-16、InceptionV3、ResNet-50)。
自定义CNN架构包含:
- 3个卷积层(64个3×3滤波器);
- 3个最大池化层(2×2池化窗口);
- 5个批归一化层(Batch Normalization)和ReLU激活函数;
- 输出层使用交叉熵损失函数(Binary Crossentropy用于ISOT,Categorical Crossentropy用于LIAR)。
采用以下指标:
- 准确率(Accuracy):分类正确的样本比例;
- 精确率(Precision)与召回率(Recall);
- F1分数:精确率与召回率的调和平均。
此外,通过10折交叉验证确保结果稳定性。
本研究为假新闻检测提供了新的技术路径,其方法论框架对NLP与计算机视觉的融合研究具有重要启示意义。