本文介绍了一项由中国科学院软件研究所(Institute of Software, Chinese Academy of Sciences)和中国科学院大学(University of Chinese Academy of Sciences)的研究团队完成的研究。该研究的主要作者包括Miaomiao Li, Jiaqi Zhu, Yang Wang, Yi Yang, Yilin Li和Hong’an Wang。该研究成果以论文《RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules》的形式发表,并于2024年5月13日至17日在新加坡举行的ACM网络会议(The ACM Web Conference 2024,简称WWW ‘24)上发布。该论文是计算机科学领域,特别是信息检索与自然语言处理方向的一项重要工作。
这项研究的学术背景是弱监督文本分类(Weakly Supervised Text Classification, WSTC),有时也称为零样本或无数据文本分类。在互联网信息爆炸的时代,海量文本数据的自动分类至关重要,但获取高质量的人工标注数据成本高昂且难以跟上网络信息的动态变化。因此,WSTC旨在仅使用极少量的监督信息(通常仅为每个类别的标签名称或少量种子词)来完成文本分类任务,具有很高的研究和应用价值。近年来,随着提示(Prompting)预训练语言模型(Pre-trained Language Models, PLMs)的兴起,WSTC任务得到了显著推动。现有方法通常利用手动设计或自动发现的类别指示词(verbalizers)来估计文本属于各个类别的可能性。然而,这些方法存在明显局限:它们未能区分不同指示词对分类贡献的差异(例如,有些词本身就能强烈指示类别,有些词则需要组合使用),也未能捕捉这些词之间的关联,更无法根据当前未标注语料库进行自适应调整。这限制了模型对类别语义的精确理解,尤其是在处理易混淆类别时。因此,本研究旨在解决这些问题,其核心目标是:提出一种新颖的、基于逻辑规则的类别知识表示方法,并开发一个能够使伪标签和逻辑规则在迭代中相互增强的框架,从而更有效地利用预训练语言模型进行弱监督文本分类,提升分类性能并增强模型的可解释性。
研究工作的详细流程是一个精心设计的、包含多个核心模块的自迭代闭环系统,名为RulePrompt。整个流程始于仅有的类别标签名称,通过迭代逐步优化伪标签和类别逻辑规则。流程主要包含以下几个步骤和模块:
第一步:初始化。 研究首先采用一种经典的零样本提示方法(基于NPPrompt的思想),利用预训练语言模型(本研究使用RoBERTa-large)为语料库中的每个未标注文本生成初始的伪标签。同时,模型还生成每个文本的“信号词”(signal words),即模型认为最能概括文本内容的一些关键词。这为后续的规则挖掘提供了起点。
第二步:自迭代循环。 这是RulePrompt的核心。在获得初始伪标签和信号词后,系统进入一个迭代过程,每次迭代包含三个主要模块:规则挖掘模块、规则增强的伪标签生成模块以及自监督微调模块。迭代过程持续进行(论文中设定为3次),直到模型收敛或达到预设迭代次数。
1. 规则挖掘模块:从文本到规则。 该模块的目标是从当前被(伪)标注为某个类别的文本中,挖掘出能够表征该类别的逻辑规则。其工作流程如下: * 基于置信度的文本聚类: 由于伪标签可能不准确,直接使用所有被分配到某个类别的文本挖掘规则会导致噪声传播。因此,该模块首先计算每个文本伪标签的置信度得分(定义为模型预测的最高概率与次高概率之差)。然后,对于每个类别,将所有被分配到此类别的文本根据其置信度得分,通过K-means聚类算法分为三个集合:高置信度文本集(D1)、中等置信度文本集(D2)和低置信度文本集(D3)。D1和D2将用于后续挖掘。 * 提取强信号词: 对于每个文本,研究不仅使用其原始信号词,还通过一个归一化过程(考虑该词在整个语料库中的出现概率)来筛选出更具“特殊性”的“强信号词”(Strong Signal Words, SSWs)。这确保了选出的词更能代表文本及其(伪)所属类别。 * 频繁项集挖掘构建逻辑规则: 将每个文本视为一个“交易”,其强信号词视为交易中的“物品”。对于每个类别: * 从高置信度文本集(D1) 中,使用频繁模式挖掘算法(如Apriori)挖掘频繁的1-项集(即单个词)。这些词被认为是能够独立、强有力地指示该类别的词,它们通过析取(OR, ∨) 运算符连接,构成规则的“析取子规则”(Disjunctive Sub-rule)。例如:( sports ∨ game ∨ player ... )。 * 从中等置信度文本集(D2) 中,挖掘频繁的2-项集(即词对)。这些词对中的单个词可能不足以明确指示类别,但它们的共现则具有很强的类别指向性。这些词对通过合取(AND, ∧) 运算符连接成子句,多个这样的子句再通过析取运算符连接,构成规则的“合取子规则”(Conjunctive Sub-rule)。例如:( (penalty ∧ goal) ∨ (company ∧ profit) ∨ ... )。 * 最终,每个类别的逻辑规则被定义为上述两个子规则的析取,形成一个析取范式(Disjunctive Normal Form)。规则中的每个词或词对都带有从其来源集合中计算出的支持度(support)权重。
2. 规则增强的伪标签生成模块:从规则到新伪标签。 该模块旨在利用上一步挖掘出的逻辑规则,反过来为所有未标注文本生成更准确的伪标签。它从三个不同的视角设计了三个基于提示PLM的分类单元,并将它们的结果集成: * 基于Verbalizer的类别估计单元: 将逻辑规则中析取子规则里支持度最高的一部分词,作为该类别的扩展“verbalizer”(即标签词映射)。然后,像传统提示方法一样,计算文本属于每个类别的概率。这利用了PLM的生成能力。 * 基于嵌入的相似度匹配单元: 将逻辑规则(包括单个词和词对)通过模板转化为句子,并利用句子编码器(如SimCSE)获取其语义嵌入向量。然后计算文本嵌入与每个类别规则嵌入之间的相似度作为分类依据。对于合取子规则中的词对,其嵌入通过两个词嵌入的加权和来计算。这利用了PLM的表示能力。 * 基于词重叠的相似度匹配单元: 将逻辑规则中的词用“and”连接成自然语言句子,再次使用PLM为这些规则句子生成“强信号词”集合。然后,计算文本的强信号词集合与每个类别规则句子的强信号词集合之间的重叠度(如Jaccard相似度),作为分类得分。这提供了一种局部的、词汇层面的匹配视角。 * 最后,将上述三个单元输出的概率或得分进行平均,得到文本属于每个类别的最终概率,并据此更新所有文本的伪标签。
3. 自监督微调模块:适配PLM。 为了使通用的预训练语言模型更好地适应特定的WSTC任务和当前数据集,在每次迭代生成新伪标签后,该模块会使用一个自监督损失函数(基于信息熵最小化)对PLM进行微调。微调仅使用高置信度的预测文本,以避免错误标签的干扰。微调后的PLM在下一轮迭代中能够生成质量更高的信号词和初始估计,从而形成正向循环。
研究的主要结果通过在四个经典文本分类数据集(AGNews, 20News, NYT, IMDB)上的大量实验得到验证。实验将RulePrompt与多种先进的弱监督文本分类方法(如WestClass, ConWea, LotClass, XClass, ClassKG, NPPrompt, PEClass等)进行了全面比较,评估指标为Micro-F1和Macro-F1。
整体性能: RulePrompt在大多数数据集和指标上均显著优于所有基线方法,在IMDB数据集上甚至接近全监督方法的性能。这充分证明了引入逻辑规则进行类别表征,并通过迭代方式与伪标签相互增强的有效性。特别是在类别定义存在重叠或反直觉的20News数据集上,RulePrompt表现出了更大的优势,说明其能够更好地融合PLM的通用知识和目标数据集的特定特征。
消融实验: 为了验证各个组件的必要性,研究进行了深入的消融分析(基于第一轮迭代的结果): * 去除合取子规则(-conj): 性能下降,证实了捕捉弱指示词协同效应的重要性。仅靠强指示词不足以精确区分易混淆类别。 * 规则挖掘时不进行聚类(-Dz): 即从所有伪标注文本中挖掘规则,性能显著下降。这凸显了基于置信度筛选高质量文本对于减少噪声、保证规则纯净度的关键作用。 * 分别去除三个伪标签生成单元(-U1, -U2, -U3): 任何单一单元的缺失都会导致性能损失,而完整模型效果最佳。这表明三个单元从不同角度利用了规则和PLM的能力,它们的集成起到了互补和鲁棒的作用。
案例研究与可解释性: 论文通过具体案例展示了RulePrompt所挖掘逻辑规则的可解释性。例如,在NYT数据集的“艺术”(Arts)类别中,模型自动挖掘出“art”,“museums”等作为强指示词(析取子规则),以及“ballet ∧ dancing”这样的词对作为合取子规则。这些规则符合人类直觉。更有价值的是,模型能处理多义词的歧义。例如,“architecture”一词同时出现在“房地产”(Estate)和“艺术”(Arts)类别的规则中。在“房地产”规则中,它与“residential”,“apartments”成对出现;而在“艺术”规则中,则与“museum”,“cultural”关联。这直观地展示了逻辑规则如何帮助模型区分易混淆类别。
超参数分析: 研究还分析了关键超参数(迭代次数、子规则大小、强信号词数量)的影响。结果表明,性能随着迭代次数增加而提升并趋于稳定;子规则大小和强信号词数量存在一个最优值(论文中分别为10和20),模型对此相对鲁棒。
本研究的结论是,针对弱监督文本分类中仅依赖种子词或简单指示词集合的局限性,提出了一种新颖的、基于逻辑规则的类别知识表示方法。通过设计一个包含规则挖掘、规则增强伪标签生成和自监督微调模块的迭代框架(RulePrompt),实现了类别逻辑规则与文本伪标签之间的相互增强与自我优化。该方法充分利用了提示预训练语言模型在生成和表示两方面的能力,显著提升了分类性能,并在多个基准数据集上超越了现有最先进方法。同时,该方法生成的逻辑规则具有很好的可解释性,能够清晰展示类别语义并有效消除歧义。
本研究的亮点和创新之处在于:第一,知识表示创新: 首次在弱监督文本分类任务中,提出使用包含析取和合取操作的逻辑表达式来差异化地表征类别指示词的作用,建立了该领域知识表示的新范式。第二,方法框架创新: 设计了一个自迭代的闭环学习框架,使无监督挖掘的符号化规则知识与未标注数据能够充分融合、相互促进,无需人工干预规则制定或筛选。第三,性能与可解释性兼具: 不仅在分类准确率上取得显著提升,而且其产出的逻辑规则为模型决策提供了直观的解释,有助于理解模型如何区分相似类别,增强了模型的透明度和可信度。第四,技术集成巧妙: 将传统数据挖掘中的频繁模式挖掘技术与现代预训练语言模型、提示学习、自监督学习等多种技术有机结合,为解决弱监督学习问题提供了新的思路。
此外,论文还讨论了未来工作方向,如引入否定运算符以进一步增强规则的表达能力,以及将这种迭代更新伪标签与逻辑规则的范式推广到其他基于提示的PLM应用场景中。这些都为后续研究提供了有价值的参考。