分享自:

RetinaQA: 一个针对可回答和不可回答问题的鲁棒知识库问答模型

期刊:proceedings of the 62nd annual meeting of the association for computational linguistics (volume 1: long papers)

RetinaQA:一种面向可回答与不可回答问题的鲁棒知识库问答模型

作者及机构
本研究的核心作者包括Prayushi Faldu(印度理工学院德里分校†)、Indrajit Bhattacharya(TCS研究院‡)和Mausam(印度理工学院德里分校†)。研究成果发表于*Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024)*,卷1(长论文),页码6643–6656。


学术背景

研究领域与动机
知识库问答(Knowledge Base Question Answering, KBQA)是自然语言处理(NLP)的核心任务之一,旨在通过知识库(KB)中的结构化数据回答自然语言问题。然而,现有KBQA模型普遍假设所有问题均可回答,忽略了现实场景中因知识库不完整或用户认知偏差导致的不可回答性问题。例如,知识库可能缺失必要的模式元素(如关系或实体类型)或数据元素(如实体或事实)。近期研究(如Patidar等,2023)表明,现有模型即使通过简单适配(如添加不可回答问题训练或阈值调整),也难以同时兼顾可回答与不可回答问题的性能,且对不同不可回答类型的处理能力不均衡。

研究目标
RetinaQA旨在解决以下关键问题:
1. 模式缺失不可回答性:问题因知识库缺少必要的模式元素而无有效逻辑形式(logical form)。
2. 数据缺失不可回答性:问题虽有有效逻辑形式,但因数据缺失返回空答案。
研究提出统一架构,结合逻辑形式判别(discrimination)与草图填充(sketch-filling)技术,以提升模型在两类不可回答性问题上的鲁棒性,同时保持对可回答问题的性能。


研究方法与流程

RetinaQA采用多阶段“检索-生成-排序”架构(图1),主要流程如下:

1. 逻辑形式枚举(Logical Form Enumeration)

通过两种互补方法生成候选逻辑形式:
- 路径遍历检索(Path-Traversal Retrieval)
- 从问题中链接的实体出发,遍历知识库的2跳路径,将其转换为逻辑形式(s-expression)。
- 使用BERT-based相似度评分(公式1)筛选Top-10逻辑形式,优化对比损失(公式2)。
- 局限性:若路径因数据缺失断裂(如缺失“C. Manning在斯坦福工作”的事实),无法生成正确逻辑形式。

  • 草图填充构造(Sketch-Filling Construction)
    • 草图生成(Sketch Generator):基于T5模型生成与知识库无关的逻辑形式草图(如函数和操作符框架)。
    • 模式检索(Schema Retriever):从问题中检索相关模式元素(关系和类型)作为草图参数候选。
    • 逻辑形式整合(Logical Form Integrator):将草图与检索到的参数组合,生成完整逻辑形式,并通过类型检查过滤无效组合。
    • 优势:即使数据缺失,只要模式完整,仍可构造有效逻辑形式。

2. 逻辑形式排序(Logical Form Ranking)

  • 判别器(Discriminator)
    • 使用T5编码器-解码器对(问题,逻辑形式)对编码,通过特殊标记的解码概率(如<extra_id_6>)评分。
    • 采用对比学习优化,区分有效与无效逻辑形式。
  • 阈值判定:若最高分逻辑形式得分低于阈值,判定为“无知识”(NK);否则执行逻辑形式,若返回空答案则判定为“无答案”(NA)。

主要实验结果

研究在GrailQability(含可回答与不可回答问题)和传统KBQA数据集(GrailQA、WebQSP)上验证性能,关键结果如下:

1. 不可回答问题处理

  • 整体性能:在GrailQability上,RetinaQA(+阈值调整)的精确匹配(EM)达73.76%,显著优于基线(如Pangu+阈值:66.53%)。
  • 分类性能
    • 模式缺失:对缺失类型或关系的问题,F1®达86.32%(IID)和79.41%(零样本)。
    • 数据缺失:对缺失实体或事实的问题,F1®达84.68%,而Pangu因依赖路径遍历仅1.07%。

2. 可回答问题性能

  • GrailQA:RetinaQA的EM达77.84%,超越Tiara(75.3%)和Pangu(75.9%),尤其在组合泛化(compositional generalization)任务中表现突出。
  • WebQSP:F1为75.6%,与Tiara(75.8%)相当。

3. 消融实验

  • 草图填充的贡献:移除草图生成与模式检索(SG∪SR)导致数据缺失问题的逻辑形式覆盖率骤降至12.29%。
  • 路径检索的贡献:移除逻辑形式检索器(LFR)对零样本可回答问题的召回率影响显著(从76.49%降至60.79%)。

结论与价值

科学价值
1. 方法论创新:首次将逻辑形式判别与草图填充结合,统一了传统KBQA与迁移学习框架的优势。
2. 鲁棒性验证:模型在模式缺失和数据缺失场景下均表现稳定,解决了现有模型需针对不同不可回答类型单独优化的难题。

应用价值
- 现实场景适配:适用于知识库不完整或用户提问模糊的实际应用(如客服系统)。
- 开源贡献:代码已公开(GitHub),促进后续研究。


亮点与创新

  1. 双路径枚举:路径检索保障可回答性问题性能,草图填充解决数据缺失问题。
  2. 判别式排序:通过对比学习提升模型校准能力,避免生成式模型的过度自信问题。
  3. 零样本泛化:在未见过的模式元素上性能下降最小(如零样本不可回答问题EM达75.22%)。

局限性
- 草图生成预设路径长度,无法动态调整。
- 对不可回答问题仅输出NK/NA,未提供具体缺失元素的解释。

未来工作可探索动态路径长度调整与可解释性增强。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com