本文由皮乾坤、卢记仓、祝涛杰、彭悦翎(信息工程大学)联合完成,发表于《计算机科学》(Computer Science)期刊,网络首发时间为2025年1月24日。该研究提出了一种基于大语言模型(Large Language Model, LLM)增强的零样本知识抽取(Zero-shot Knowledge Extraction)方法,旨在解决传统知识抽取技术对人工标注数据的高度依赖问题,显著降低标注成本并提升模型在未知领域的泛化能力。
学术背景
知识抽取(Knowledge Extraction)是从非结构化或半结构化文本中提取结构化知识的关键技术,广泛应用于知识图谱构建、信息检索等领域。传统方法依赖监督或半监督学习,需大量人工标注数据,导致成本高昂且难以适应新领域。零样本学习(Zero-shot Learning)技术虽能缓解数据稀缺问题,但现有方法存在特征规则泛化性差、语义理解不足等缺陷。近年来,大语言模型(如LLaMA、ChatGLM等)展现出强大的语义推理能力,为零样本知识抽取提供了新思路。本研究通过融合通用大模型与领域专业模型,构建了一个无需人工标注的自动化知识抽取框架。
研究流程与方法
1. 数据标注模块
- 预处理与模型微调:将测试集数据格式转换为标注任务格式(如图2所示),采用提示模板“你是一个图谱实体知识标注专家…”指导模型生成实体及属性解释。
- 基座模型选择:选用通用模型LLaMA3-8B作为基座,通过参数高效微调技术(Parameter-Efficient Fine-Tuning, PEFT)中的LoRA方法进行微调,仅调整少量参数以减少计算成本。
- 标注数据生成:利用微调后的模型对无标注文本(来源:InstructIE和IEPile数据集)进行自动标注,生成实体类型(entity_type)和属性解释(attributes)的结构化数据。
2. 知识抽取模块
- 思维链提示设计:将知识抽取任务分解为“抽取实体实例”和“抽取属性实例”两个子任务(图3),通过分步提示(Chain-of-Thought Prompting)减少模型幻觉(hallucination)。
- 专业模型微调:以领域专用模型OneKE为基座,结合标注数据迭代训练,提升对特定任务(如医学、金融等)的适应性。
- 属性增强:针对测试集中属性解释模糊的字段(如“行政职称: 行政职称”),仅对同名属性调用大模型修正,避免引入噪声(图4)。
3. 实验验证
- 数据集:初赛测试集(1000条)、复赛测试集(1024条),涵盖36类实体和131类实体,平均每条含2.5-2.9句文本及7.6-9.4个属性解释。
- 基线模型对比:包括OneKE、LLaMA2-13B-Chat、ChatGLM3-6B等。
- 评估指标:精确率(Precision)、召回率(Recall)、F1值,以及推理时间、显存消耗等效率指标。
主要结果
- 性能提升:本文框架在初赛和复赛测试集上的F1值分别达到67.49%和67.17%,较基线模型提升7.13%和8.59%。
- 消融实验验证:
- 移除数据标注模块导致召回率下降16.49%,表明自动标注对零样本任务至关重要;
- 移除思维链提示后F1值降低1.63%,分步推理能有效提升模型决策质量;
- 属性增强模块使F1值提升0.88%,且仅修正同名属性可避免负向干扰(全修正会降至65.26%)。
- 效率分析:显存消耗10.4GB(低于ChatGLM3-6B的12.4GB),推理效率1.99秒/条,平衡了性能与资源消耗。
结论与价值
- 科学价值:提出首个通用与专业模型协同的零样本知识抽取框架,通过自动标注、思维链提示和属性增强,显著降低对人工标注的依赖。
- 应用价值:适用于医疗、金融等标注数据稀缺的领域,支持快速跨领域知识迁移。案例显示,该方法能准确抽取“歌手代表作品”“虚拟人物作者”等复杂属性(图5)。
- 局限性:依赖语料库质量,且大模型的决策透明度需进一步优化。
研究亮点
- 方法论创新:首次将LoRA微调与思维链提示结合,实现通用模型(LLaMA3-8B)与专业模型(OneKE)的优势互补。
- 技术突破:通过属性增强和迭代训练,解决了零样本任务中属性解释模糊的难题。
- 实验严谨性:在混合领域数据集(InstructIE、IEPile)和真实测试集上验证了框架的泛化能力。
其他贡献
- 开源数据标注提示模板和微调代码,为后续研究提供工具支持;
- 提出“仅修正同名属性”的增强策略,为大模型避免幻觉提供了新思路。
该研究为零样本知识抽取提供了可复用的技术路径,未来可通过融合领域知识图谱进一步提升可解释性。