这篇文档属于类型a,即报告了一项原创研究。以下是对该研究的学术报告:
该研究的主要作者包括Yunyi Zhang、Ruozhen Yang、Xueqiang Xu、Rui Li、Jinfeng Xiao、Jiaming Shen和Jiawei Han。这些作者分别来自美国伊利诺伊大学厄巴纳-香槟分校(University of Illinois Urbana-Champaign)、中国科学技术大学(University of Science and Technology of China)以及谷歌DeepMind(Google DeepMind)。该研究发表于2025年的ACM Web Conference (WWW ‘25)上。
该研究的核心领域是自然语言处理(Natural Language Processing, NLP)和文本挖掘(Text Mining),特别是层次化文本分类(Hierarchical Text Classification)。层次化文本分类旨在将文档分类到一个层次化的标签分类体系中,这是Web文本挖掘中的一项基础任务,广泛应用于Web内容分析、语义索引等领域。然而,现有的方法大多依赖于大量人工标注数据,这不仅成本高,而且耗时。为了减少人工干预,本研究提出了一种新的方法——TeleClass,该方法仅使用每个节点的类名作为监督信号,结合大语言模型(Large Language Models, LLMs)和未标注文本语料库中的任务特定特征,实现了在最小监督下的层次化文本分类。
TeleClass方法包括四个主要步骤:
LLM增强的核心类标注
在这一步骤中,研究者首先利用LLM生成每个类的关键词,丰富原始的标签分类体系。然后,通过自顶向下的树搜索算法,为每个文档选择候选类,最终由LLM选择最精确的核心类。这一步骤的关键在于利用LLM的文本理解能力,减少标签空间的复杂性,从而提高分类的准确性。
基于语料库的分类体系丰富
在这一步骤中,研究者进一步通过语料库的语义和统计分析,挖掘出类指示性术语(Class-Indicative Terms),并将其与LLM生成的关键词结合,形成最终的丰富分类体系。这一步骤的目的是结合LLM的通用知识和语料库的特定知识,增强对标签空间的理解。
基于丰富分类体系的核心类精炼
在这一步骤中,研究者利用丰富后的分类体系,通过文档和类的嵌入表示,计算它们的相似度,从而精炼初始选择的核心类。具体来说,研究者使用预训练的句子Transformer模型对文档进行编码,并通过相似度计算,识别出与文档最相似的类,作为精炼后的核心类。
基于路径的数据增强与文本分类器训练
在这一步骤中,研究者利用LLM生成伪文档,并通过路径引导的方式,生成更多精确的伪数据。然后,研究者使用这些伪数据和精炼后的核心类,训练一个多标签文本分类器。分类器的架构包括一个文档编码器和一个匹配网络,训练过程中使用二元交叉熵损失函数。
在Amazon-531和DBpedia-298两个公开数据集上的实验表明,TeleClass在层次化文本分类任务中显著优于现有的零样本和弱监督基线方法。具体来说,TeleClass在Example-F1、P@1、P@3和MRR等指标上均取得了显著的提升。与零样本LLM提示方法相比,TeleClass在推理成本大幅降低的情况下,仍然能够达到与GPT-4相当的性能。此外,研究者还通过消融实验验证了每个组件对最终性能的贡献,发现LLM生成的关键词和语料库挖掘的术语都对分类性能有显著提升。
TeleClass的主要贡献在于提出了一种新的方法,能够在最小监督下进行层次化文本分类。该方法通过结合LLM的通用知识和语料库的特定知识,丰富标签分类体系,从而提高分类的准确性。此外,TeleClass还探索了LLM在层次化文本分类中的两种应用方式:数据标注和数据生成。实验结果表明,TeleClass在减少人工干预的同时,仍然能够达到较高的分类性能,具有重要的科学价值和应用价值。
TeleClass的研究亮点包括:
1. 提出了一种新的方法,仅使用类名作为监督信号,实现了层次化文本分类。
2. 结合LLM的通用知识和语料库的特定知识,丰富标签分类体系,提高分类性能。
3. 探索了LLM在层次化文本分类中的两种应用方式,显著提升了伪标签的质量。
4. 在公开数据集上的实验表明,TeleClass显著优于现有的基线方法,且推理成本大幅降低。
研究者还详细分析了TeleClass与零样本LLM提示方法的性能对比,发现TeleClass在大多数情况下优于零样本方法,尤其是在DBpedia数据集上。此外,研究者还通过案例研究,展示了TeleClass在核心类选择上的优势,进一步验证了该方法的有效性。