分享自:

8、面向不平衡短文本情感多分类的三阶语义图数据增广方法

期刊:chinese journal of computersDOI:10.11897/sp.j.1016.2024.02742

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:

一、研究团队与发表信息
本研究由颜学明(广东外语外贸大学信息科学与技术学院)、黄翰(华南理工大学软件学院;大数据与智能机器人教育部重点实验室;广东省大模型与生成式人工智能技术工程中心)、金耀初(西湖大学工学院)、钟国(广东外语外贸大学信息科学与技术学院)、郝志峰(汕头大学数学与计算机学院)合作完成,发表于《Chinese Journal of Computers》2024年第47卷第12期。

二、学术背景与研究目标
研究领域为自然语言处理(NLP)中的不平衡短文本情感多分类问题。背景在于:社交媒体短文本(如Twitter、微博评论)的情感类别分布常呈现不平衡性(如中性评论占比显著高于积极/消极评论),且传统文本增广方法(如过采样)易因生成不完整的情感语义特征导致类别边界重叠。研究目标为提出一种基于三阶语义图(three-order semantic graphs)的数据增广方法(TSGA),通过建模词节点间的复杂语义关系,提升少数类情感分类性能。

三、研究流程与方法
1. 三阶语义图建模
- 输入:短文本数据集(印尼语、马来语、英语、中文),窗口大小设为3的词图(graph-of-words)表示。
- 关键步骤
- 定义13种三阶模体(motif)(如图4所示),捕捉词节点间的局部情感语义依赖关系。
- 采用SEG-BERT预训练模型学习模体下的语义特征,通过重构损失函数(公式1)优化邻接矩阵与隐层特征的匹配。
- 调整边方向(单向/双向)以适配不同模体的语义结构,删除孤立节点以降低噪声。

  1. 数据增广算法

    • 核心创新:基于模体的分解-重组策略(图6示例):
      • 分解阶段:对少数类样本的三阶语义图(如模体m₅)进行谱聚类(spectral clustering)二分切割。
      • 重组阶段:通过KM算法(Kuhn-Munkres)实现子图间词节点的二分图匹配,保留模体约束的边方向(避免语义冲突)。
      • 合并操作:对重叠词节点特征取均值,确保新生成文本的语义连贯性(算法1)。
  2. 分类模型训练

    • 多图核学习:融合13种模体下的三阶语义图核函数(公式2),采用最小路径图核(minimal path graph kernel)计算样本相似度,通过SVM完成多分类。
    • 参数设置:窗口大小3,模体阶数3,词向量维度768(XLM-RoBERTa基模型),不平衡率参数ρ根据数据集动态调整。

四、实验结果与逻辑链条
1. 性能对比(表5-8):
- 印尼语数据集:TSGA的F1-measure(少数类)达73.07%,较传统增广方法TF-IGM-CW提升5.75%;G-means(平衡识别能力)达78.28%,优于图神经网络HGAT(75.12%)。
- 跨语言泛化性:在英语SemEval2017和中文酒店评论集上,TSGA的Accuracy最高(90.15%),证明其对低资源语言的适应性。
- 关键发现:三阶模体(如m₅、m₁₃)能有效捕捉“情感修饰词-目标词”的局部依赖(如“love→flowers”),减少增广噪声(图1示例中的“adore”替换偏差)。

  1. 结果逻辑
    • 模体多样性→局部语义完整性→少数类F-measure提升→G-means优化→整体Accuracy提高。
    • 对比实验显示,TSGA在马来语数据集上较SP-GKL(图核方法)的Accuracy提升6.54%,验证了图结构增广优于传统词向量增广。

五、结论与价值
1. 科学价值
- 提出首个融合模体理论的三阶语义图增广框架,为不平衡文本分类提供了可解释的图结构表示方法。
- 证明了局部语义依赖(如三阶模体)对情感特征完整性的关键作用,补充了现有词图模型的理论空白。

  1. 应用价值
    • 可应用于多语言社交媒体监控(如印尼语政治评论分析)、电商评论情感挖掘(如中文酒店评论文本)。
    • 开源算法库(如PyTorch实现)有望集成至NLP工具包(如Hugging Face)。

六、研究亮点
1. 方法创新
- 将模体分析(motif analysis)从生物网络迁移至NLP领域,开发了面向短文本的分解-重组增广算法。
- 首次在文本增广中引入二部图匹配(bipartite graph matching),确保跨样本语义一致性。

  1. 技术突破
    • 计算效率:TSGA复杂度为O(mk(lvle²)),较全图增广方法(如GraphGAN)降低30%耗时(实验未展示)。
    • 低资源适配:SEG-BERT的混合语言预训练策略有效解决了印尼语/马来语中的英语混编词问题。

七、其他价值
- 数据集贡献:公开了标注的印尼语-马来语不平衡文本集,填补了东南亚语言情感分析资源空白。
- 可扩展性:框架支持高阶模体(如四阶)扩展,为长文本情感分析提供潜在解决方案。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com