本文研究发表于学术期刊 IEEE Access,于2024年3月20日在线发表。论文的标题为“A Parallel Two-Channel Emotion Classification Method for Chinese Text”。主要作者为 Liu Na, Tao Cao, Shuchen Bai, 和 Danqing Li,他们均来自中国的大连工业大学(Dalian Polytechnic University)信息科学与工程学院。通讯作者为 Liu Na。
本研究属于自然语言处理领域,具体聚焦于中文文本情感分析。其学术背景在于,社交媒体(如微博、微信)的飞速发展产生了海量蕴含用户情感的短文本数据,对这些数据进行自动化情感分析在商业营销、舆情监控、推荐系统等领域具有重要价值。然而,中文文本的复杂性为情感分析带来了独特挑战:与英文等字母文字不同,中文存在“字”与“词”的双粒度特征,其语义表达不仅依赖于词语,也常常蕴含于字符组合(如成语、网络新词)之中。传统的基于单一粒度(纯词向量或纯字向量)或单一深度学习模型的方法,往往难以全面、精准地捕捉中文这种细粒度的语义和上下文依赖信息。因此,本研究旨在设计一种创新的并行双通道分类策略,以更准确地捕捉中文文本的语义,提升情感分类的精度,并为中文自然语言处理领域提供新的研究思路。
本研究的详细工作流程主要包含四个核心部分:编码层、特征提取层(包含两个并行通道)、特征融合与分类层,以及后续的实验验证与分析。下面将逐一详述。
第一,编码层。此步骤的目标是为输入的文本生成两种不同粒度的向量表示。对于“字粒度”向量,研究采用了先进的预训练模型ERNIE来获取。ERNIE是专门针对中文优化的知识增强语义表示模型,与BERT相比,其掩码策略不仅掩盖单个字符,还掩盖实体和短语,从而更好地学习到中文的语法和语义知识。在本文中,设置隐藏层大小为768,使用12个头进行多头自注意力计算,最终为每个输入字符生成一个768维的向量。对于“词粒度”向量,研究采用经典的Word2Vec模型中的CBOW架构进行训练。在训练前,使用jieba工具对文本进行分词。最终,每个词被映射为一个300维的向量。通过这种方式,模型同时获得了基于字符的深层次语义表示(来自ERNIE)和基于词语的分布式表示(来自Word2Vec),为后续的双通道特征提取奠定了基础。
第二,特征提取层。这是模型的核心创新部分,由两个并行且结构不同的通道组成。 * 通道一:多尺度卷积神经网络通道。该通道负责处理从ERNIE得到的字粒度向量序列。其设计亮点在于“多窗口卷积”。具体而言,研究者并未使用单一尺寸的卷积核,而是并行了三组一维卷积核,其窗口大小分别为3、4、5。这些不同尺寸的卷积核如同不同宽度的“阅读窗”,同时扫描字向量序列,从而能够捕获不同范围的n-gram局部特征信息(例如,3-gram、4-gram、5-gram组合的语义)。每个卷积核扫描后,会生成一个特征图。接着,对每个特征图同时进行最大池化和平均池化操作,并将两种池化的结果相加,以保留最显著特征的同时兼顾整体信息。最后,将三个不同窗口卷积得到的特征进行拼接,形成最终的“字粒度高级特征向量”。 * 通道二:BiGRU-Attention通道。该通道负责处理从Word2Vec得到的词粒度向量序列。首先,词向量序列被输入到一个双向门控循环单元网络中。BiGRU由前向和后向两个GRU网络组成,能够从前往后和从后往前两个方向捕捉文本的上下文依赖关系,这对于理解句子整体情感倾向至关重要。BiGRU在每个时间步会输出一个融合了双向信息的隐藏状态,形成一个新的序列。然而,句子中的词语对情感表达的贡献度并不相同。为此,研究者在BiGRU的输出之上引入了注意力机制。该机制会为序列中的每一个隐藏状态计算一个权重分数,分数越高代表该位置对应的词语信息对当前情感分类任务越重要。计算权重时采用了加性模型。最后,所有隐藏状态根据其注意力权重进行加权求和,得到一个能够聚焦于情感关键词的“词粒度高级特征向量”。这种设计不仅提取了上下文信息,还突出了关键情感词的作用。
第三,特征融合与分类层。经过两个并行通道的处理,模型得到了分别代表字粒度信息和词粒度信息的两个高级特征向量。接下来,研究采用一个线性层来学习这两个向量的融合权重,通过矩阵运算和偏置将二者融合为一个统一的文本表示向量。在融合后,使用ReLU激活函数增加非线性。最后,这个融合后的特征向量被送入一个Softmax分类器,输出文本属于正面或负面情感的概率分布,从而完成分类任务。整个模型被称为MSCBA。
为了验证MSCBA模型的有效性,研究团队进行了系统性的实验,其研究对象为三个公开的中文情感分析数据集:Data1(微博评论数据集,119,988条,正负各半)、Data2(外卖平台评论数据集,11,987条,负评多于正评)和Data3(电商平台评论数据集,62,773条,正负基本平衡)。这些数据集覆盖了社交媒体、生活服务和电子商务三个不同领域,用以测试模型的通用性和鲁棒性。实验将每个数据集按8:2的比例划分为训练集和测试集。
在实验设置上,研究者进行了细致的超参数调优。通过网格搜索,确定了模型的最优配置:Dropout率为0.2(防止过拟合),训练轮数为5,多尺度卷积核的最佳组合为(3,4,5)。评价指标采用了准确率、精确率、召回率和F1值,并同时报告了宏观平均和加权平均的结果,以全面评估模型在不平衡数据集上的性能。
第四,主要结果分析。实验结果充分证明了MSCBA模型的优越性。 首先,在核心数据集Data1(微博)上,MSCBA模型取得了93.64%的准确率,其正面和负面情感的F1值也分别达到0.94471和0.92777。通过与一系列基线模型和变体模型的对比,MSCBA展现出了显著优势。例如,仅使用Word2Vec+多尺度CNN的模型准确率为90.12%,仅使用ERNIE+Softmax的模型为92.05%,而将ERNIE与Word2Vec特征简单融合后串行输入CNN-BiGRU的模型准确率为92.71%。研究者提出的另一个并行模型MSCB(无注意力机制)准确率为93.26%。MSCBA在MSCB的基础上引入注意力机制,进一步将准确率提升了0.38个百分点,这表明注意力机制能有效聚焦关键信息,提升模型判别力。 其次,在更具挑战性的Data2和Data3数据集上,MSCBA同样表现出强大的泛化能力。在样本分布不平衡的Data2(外卖评论)上,模型准确率达到90.00%,超越了所有对比模型。在文本长度更长、信息更复杂的Data3(电商评论)上,模型准确率高达92.61%。这些结果证明,MSCBA设计的双粒度、双通道并行架构,能够有效应对不同领域、不同特点的中文文本情感分析任务。 此外,研究还进行了深入的消融实验,以验证模型中各个组件的贡献。实验表明:1) 单独使用BiGRU或CNN进行双粒度特征提取的效果(约90%)远低于将二者并行结合的策略(MSCB达92.27%),证实了并行异构特征提取器的有效性;2) 在并行结构中引入注意力机制(从MSCB到MSCBA)能使F1值从92.27%提升至92.31%,进一步优化了性能。 最后,下采样实验显示,即使仅使用原数据集20%的数据进行训练,MSCBA模型仍能保持相对稳健的性能,且其性能下降幅度小于对比模型MSCB,这证明了MSCBA在数据稀缺场景下也具有一定的实用性。
第五,研究的结论与价值。本研究成功提出了一种创新的并行双通道中文文本情感分类方法MSCBA。其核心贡献在于:通过结合ERNIE和Word2Vec,实现了字与词双粒度语义表示的深度融合;通过设计多尺度CNN与BiGRU-Attention的并行架构,实现了局部特征与全局上下文依赖的协同捕捉。实验在三个不同领域的公开数据集上均取得了领先的分类准确率,验证了模型的有效性和鲁棒性。 本研究的科学价值在于:为解决中文文本特有的双粒度语义理解挑战提供了一种高效、创新的框架,推动了中文自然语言处理,特别是情感分析方向的技术发展。其应用价值则体现在:为商业品牌分析用户反馈、优化营销策略,为社交平台改进内容推荐、提升用户体验,以及为学术研究者提供更强大的文本分析工具,均提供了切实可行的解决方案。
第六,研究的亮点。本研究的突出亮点体现在以下几个方面: 1. 架构创新:提出了“并行双通道”的模型设计思想,一个通道(多尺度CNN)专注提取字粒度的细局部特征,另一个通道(BiGRU-Attention)专注捕捉词粒度的上下文与关键信息,二者并行处理、最后融合,结构清晰且高效。 2. 技术融合:巧妙地融合了前沿预训练模型、传统词嵌入模型、卷积神经网络、循环神经网络和注意力机制,充分发挥了各类技术的优势,形成了强大的技术合力。 3. 针对性强:整个研究设计紧密围绕中文语言的特性展开,专门针对“字词双粒度”这一核心挑战进行建模,具有鲜明的语言针对性。 4. 验证全面:不仅在标准数据集上取得了优异结果,还通过在不同领域、不同数据分布(平衡/不平衡)的数据集上进行测试,以及系统的消融实验和下采样实验,全面、深入地验证了模型的性能和各个组件的必要性,论证扎实。
第七,其他有价值的内容。论文还对未来工作进行了展望,指出了几个有潜力的研究方向,包括:向多模态(融合文本、图像、音频)情感分析扩展,以更全面地理解用户表达;增强模型的可解释性,使分类决策过程更透明;将模型拓展至多语言场景,以处理跨文化情感差异;以及进一步优化模型在包含反讽、类别极度不平衡等复杂情况下的性能。这些展望为该领域的后续研究提供了清晰的指引。