这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由来自Huawei Noah’s Ark Lab和University of Waterloo的研究团队完成,主要作者包括Mohammad Dehghan、Mehdi Rezagholizadeh等。论文发表于Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024),会议时间为2024年8月11日至16日。
研究领域:本研究属于自然语言处理(NLP)中的引文问答系统(Citation-based QA)领域,特别关注检索增强生成(Retrieval-Augmented Generation, RAG)技术在问答任务中的应用。
研究背景:
- 当前基于大语言模型(LLM)的问答系统存在幻觉(hallucination)、知识过时或缺失等问题,而检索增强生成(RAG)技术通过引入外部知识(如网页或知识图谱)缓解这一问题。
- 现有引文问答系统(如WebGPT、WebGLM)主要依赖单一知识源(仅网页或仅知识图谱),导致在多跳推理(multi-hop reasoning)或开放域问答(ODQA)任务上表现不佳。
- 网页检索常采用固定长度或断点分割的启发式方法,可能导致信息碎片化,影响答案的完整性和相关性。
研究目标:
提出EWEK-QA(Enhanced Web and Efficient Knowledge Graph Retrieval for QA),通过自适应网页检索模块和高效知识图谱(KG)检索,提升问答系统的准确性和效率。
研究采用双模态知识源:网页文本和知识图谱(KG),并设计了两套检索流程:
① 自适应网页检索(Adaptive Web Retrieval)
- 步骤1:网页抓取
使用Bing搜索引擎获取相关网页,并通过多线程爬虫(BeautifulSoup)解析HTML内容。
- 步骤2:候选段落生成
- 段落分割器(Paragraph Splitter, PS):基于HTML标签(如<p>)和换行符分割网页内容,过滤短段落(<10词)并限制长段落(≤80词)。 - **证据提取器(Evidence Extractor, EE)**:基于微调的DeBERTa模型,从网页中提取与问题相关的证据片段(类似机器阅读理解任务)。 - **步骤3:去重与重排序** - 使用**MiniLM(22M参数)**过滤无关段落,再用**DeBERTa(900M参数)**对剩余段落重排序。 - 通过**余弦相似度(>0.9)**去除重复段落。
② 高效知识图谱检索(Tog-E)
- 改进点:相比传统方法(如TOG),Tog-E无需调用LLM,仅依赖SentenceBERT计算问题与KG三元组(实体-关系-实体)的相似度。
- 流程:
- 对Freebase知识图谱执行束搜索(beam search),提取相关子图。
- 输出三元组作为答案生成的上下文。
在7个QA数据集(4个KGQA、3个ODQA)上测试:
- EWEK-QA(网页+KG)平均准确率57.4%,显著优于WebGLM(45.8%)和TOG(54.3%)。
- 多跳推理任务:在GrailQA上提升26.1%,证明双模态知识的优势。
科学价值:
- 首次在引文问答系统中同时整合网页和KG,且不影响效率。
- 提出Tog-E方法,避免LLM调用,降低计算成本。
应用价值:
- 适用于生成式AI搜索(如Microsoft Bing Chat),提升答案的可信度和可解释性。
- 为多模态知识融合的QA系统设计提供新思路。
本报告详细介绍了EWEK-QA的研究设计、方法创新及实验结果,为NLP领域的研究者提供了重要的技术参考。