Teleclass：基于最小监督的层次文本分类与LLM增强

分享自：
Teleclass：基于最小监督的层次文本分类与LLM增强

期刊:Proceedings of the ACM Web Conference 2025 (WWW '25)DOI:10.1145/3696410.3714940
这篇文档属于类型a，即报告了一项原创研究。以下是对该研究的学术报告：
主要作者及研究机构该研究的主要作者包括Yunyi Zhang、Ruozhen Yang、Xueqiang Xu、Rui Li、Jinfeng Xiao、Jiaming Shen和Jiawei Han。这些作者分别来自美国伊利诺伊大学厄巴纳-香槟分校（University of Illinois Urbana-Champaign）、中国科学技术大学（University of Science and Technology of China）以及谷歌DeepMind（Google DeepMind）。该研究发表于2025年的ACM Web Conference (WWW ‘25)上。
学术背景该研究的核心领域是自然语言处理（Natural Language Processing, NLP）和文本挖掘（Text Mining），特别是层次化文本分类（Hierarchical Text Classification）。层次化文本分类旨在将文档分类到一个层次化的标签分类体系中，这是Web文本挖掘中的一项基础任务，广泛应用于Web内容分析、语义索引等领域。然而，现有的方法大多依赖于大量人工标注数据，这不仅成本高，而且耗时。为了减少人工干预，本研究提出了一种新的方法——TeleClass，该方法仅使用每个节点的类名作为监督信号，结合大语言模型（Large Language Models, LLMs）和未标注文本语料库中的任务特定特征，实现了在最小监督下的层次化文本分类。
研究流程TeleClass方法包括四个主要步骤：
LLM增强的核心类标注
 在这一步骤中，研究者首先利用LLM生成每个类的关键词，丰富原始的标签分类体系。然后，通过自顶向下的树搜索算法，为每个文档选择候选类，最终由LLM选择最精确的核心类。这一步骤的关键在于利用LLM的文本理解能力，减少标签空间的复杂性，从而提高分类的准确性。
基于语料库的分类体系丰富
 在这一步骤中，研究者进一步通过语料库的语义和统计分析，挖掘出类指示性术语（Class-Indicative Terms），并将其与LLM生成的关键词结合，形成最终的丰富分类体系。这一步骤的目的是结合LLM的通用知识和语料库的特定知识，增强对标签空间的理解。
基于丰富分类体系的核心类精炼
 在这一步骤中，研究者利用丰富后的分类体系，通过文档和类的嵌入表示，计算它们的相似度，从而精炼初始选择的核心类。具体来说，研究者使用预训练的句子Transformer模型对文档进行编码，并通过相似度计算，识别出与文档最相似的类，作为精炼后的核心类。
基于路径的数据增强与文本分类器训练
 在这一步骤中，研究者利用LLM生成伪文档，并通过路径引导的方式，生成更多精确的伪数据。然后，研究者使用这些伪数据和精炼后的核心类，训练一个多标签文本分类器。分类器的架构包括一个文档编码器和一个匹配网络，训练过程中使用二元交叉熵损失函数。
主要结果在Amazon-531和DBpedia-298两个公开数据集上的实验表明，TeleClass在层次化文本分类任务中显著优于现有的零样本和弱监督基线方法。具体来说，TeleClass在Example-F1、P@1、P@3和MRR等指标上均取得了显著的提升。与零样本LLM提示方法相比，TeleClass在推理成本大幅降低的情况下，仍然能够达到与GPT-4相当的性能。此外，研究者还通过消融实验验证了每个组件对最终性能的贡献，发现LLM生成的关键词和语料库挖掘的术语都对分类性能有显著提升。
结论与意义TeleClass的主要贡献在于提出了一种新的方法，能够在最小监督下进行层次化文本分类。该方法通过结合LLM的通用知识和语料库的特定知识，丰富标签分类体系，从而提高分类的准确性。此外，TeleClass还探索了LLM在层次化文本分类中的两种应用方式：数据标注和数据生成。实验结果表明，TeleClass在减少人工干预的同时，仍然能够达到较高的分类性能，具有重要的科学价值和应用价值。
研究亮点TeleClass的研究亮点包括：
 1. 提出了一种新的方法，仅使用类名作为监督信号，实现了层次化文本分类。
 2. 结合LLM的通用知识和语料库的特定知识，丰富标签分类体系，提高分类性能。
 3. 探索了LLM在层次化文本分类中的两种应用方式，显著提升了伪标签的质量。
 4. 在公开数据集上的实验表明，TeleClass显著优于现有的基线方法，且推理成本大幅降低。
其他有价值的内容研究者还详细分析了TeleClass与零样本LLM提示方法的性能对比，发现TeleClass在大多数情况下优于零样本方法，尤其是在DBpedia数据集上。此外，研究者还通过案例研究，展示了TeleClass在核心类选择上的优势，进一步验证了该方法的有效性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问