生成而非检索：大型语言模型作为强大的上下文生成器

分享自：
生成而非检索：大型语言模型作为强大的上下文生成器

期刊:ICLR 2023
这篇文档属于类型a，是一篇关于利用大型语言模型（Large Language Models, LLMs）解决知识密集型任务（knowledge-intensive tasks）的原创性研究论文。以下是针对该研究的学术报告：
研究团队与发表信息本研究由Wenhao Yu（圣母大学）、Dan Iter（微软认知服务研究组）等9位作者合作完成，发表于ICLR 2023（国际学习表征会议）。研究提出了一种名为Generate-then-Read (GenRead)的新方法，通过生成而非检索上下文文档来解决开放域问答（open-domain QA）、事实核查（fact checking）和对话系统（dialogue system）等任务。
学术背景科学领域：自然语言处理（NLP）中的知识密集型任务。
 研究动机：传统方法采用Retrieve-then-Read流程，即从外部知识库（如维基百科）检索相关文档后生成答案，但存在三大缺陷：
 1. 检索的文档可能包含噪声；
 2. 问题与文档的交互较浅；
 3. 检索模型受限于参数量和嵌入维度，无法充分利用LLMs的世界知识。
 研究目标：用LLMs直接生成上下文文档，替代传统检索流程，提升任务性能。
研究方法与流程1. 核心流程：Generate-then-Read (GenRead)生成阶段（Generate）：
 输入问题后，通过提示（prompting）让LLM（如InstructGPT）生成相关文档。例如，输入提示：“生成回答该问题的背景文档：{问题}”。
 
采用聚类引导的提示方法（clustering-based prompting）提升生成多样性：
 
 对训练集中的问题-文档对编码（GPT-3生成嵌入）；
 
通过K-means聚类将文档分为K类；
 
从每类中采样示例构建多样化提示，引导LLM生成覆盖不同视角的文档。
 
阅读阶段（Read）：
 将生成的文档与问题输入阅读器（Reader），生成最终答案。阅读器可以是零样本设置的LLM（如InstructGPT）或微调的小型模型（如Fusion-in-Decoder, FiD）。
 
2. 实验设计任务与数据集：
 开放域问答：TriviaQA、WebQ、NQ；
 
事实核查：FEVER、FM2；
 
对话系统：Wizard of Wikipedia (WoW)。
 
基线方法：对比传统检索方法（BM25、DPR）、LLM直接生成答案（如GPT-3）及混合检索-生成方法。
 
评估指标：
 问答任务：精确匹配（Exact Match, EM）；
 
检索阶段：Recall@K（前K个文档包含答案的比例）。
 
3. 技术创新聚类引导提示：通过聚类嵌入空间中的文档分布，生成多样化上下文，显著提升答案覆盖率。
 
无外部知识库：仅依赖LLM内部参数知识，避免检索开销。
 
主要结果零样本性能：
GenRead在TriviaQA和WebQ上的EM分数分别达到71.6和54.4，显著优于传统检索方法DPR-FiD（+4.0和+3.9）。
 
在事实核查（FEVER）和对话系统（WoW）任务中，GenRead也优于直接生成答案的LLM（见表1）。
 
监督学习性能：
使用FiD作为阅读器时，GenRead在TriviaQA上EM达71.6，超越DPR-FiD（66.3）。
 
生成与检索的互补性：结合生成文档与检索文档（如用DPR检索90%+GenRead生成10%），性能进一步提升（表2）。
 
生成文档质量：
可读性：LLM生成的文档比检索文档更简洁且答案更易定位（表5）。例如，问题“宙斯是哪个城市的守护神？”，生成文档明确包含“奥林匹亚”，而检索文档需推理。
 
答案覆盖率：聚类引导的生成方法覆盖更多正确答案（表4）。
 
结论与价值科学价值：
 证明LLMs可作为高效的上下文生成器，替代传统检索流程。
 
提出聚类引导提示方法，解决生成多样性不足的问题。
 
应用价值：
 适用于缺乏实时知识库的场景（如封闭系统）；
 
可无缝集成到现有流程中（如与检索模型结合）。
 
研究亮点方法创新：首次用生成完全替代检索，且性能超越传统方法。
 
可扩展性：生成文档的性能随LLM参数规模提升（图4），体现“涌现能力”。
 
低成本：对于少量问题（<2473个），GenRead的计算成本低于DPR检索（附录A.6）。
 
局限性与未来方向局限性：
 无法动态更新知识（依赖LLM训练数据）；
 
生成可能包含幻觉（hallucination）。
 
未来工作：探索如何高效注入新知识，并提升生成忠实性。
 
其他有价值内容伦理讨论：指出LLM生成可能继承训练数据偏见，需进一步研究对齐（alignment）方法。
 
开源资源：代码与生成文档已公开（GitHub链接见原文）。
 
此研究为知识密集型任务提供了新范式，展示了LLMs在知识提取和推理中的强大潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问