基于检索-排序范式与OCG-Agent的叙事驱动推荐查询回答方法研究
一、 研究概览
本研究由Yunxiao Shi*(悉尼科技大学)、Haoning Shang(新南威尔士大学)、Xing Zi(悉尼科技大学)、Wujiang Xu(罗格斯大学)、Yue Feng(伯明翰大学)、Min Xu†(通讯作者,悉尼科技大学)共同完成。研究成果以题为《Answering Narrative-Driven Recommendation Queries via a Retrieve–Rank Paradigm and the OCG-Agent》的论文形式,发表于2025年11月4日至9日举行的2025年计算语言学协会经验方法会议(Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing),收录于该会议论文集第13181至13202页。
二、 学术背景与研究动机
本研究的核心科学领域位于自然语言处理(NLP) 与信息检索(IR) 的交叉点,具体针对推荐系统中一类特殊且普遍存在的查询类型——叙事驱动推荐(Narrative-Driven Recommendation, NDR)。这类查询常见于问答平台、AI搜索引擎、社交论坛以及特定领域的垂直应用中。用户通常以自由文本形式提交请求,例如“有什么像《禁闭岛》那样烧脑的惊悚片推荐吗?”。传统上,这类查询通常在检索增强生成(Retrieval-Augmented Generation, RAG)范式下被视为通用的问答任务来处理。然而,本文作者指出,RAG范式对于NDR任务存在固有的不适应性。
研究背景与动机源于以下几点观察与分析: 1. 现有AI搜索引擎的不足:作者通过初步实验评估了多个商业AI搜索引擎在处理电影推荐类叙事查询时的表现。意外发现是,这些基于RAG范式的系统在多种排名指标上(如Precision@10, Recall@10, NDCG@10)的表现甚至不如没有外部知识增强的大型语言模型(LLM),这表明当前范式在NDR任务上存在效能瓶颈。 2. 诊断RAG范式在NDR任务中的根本缺陷:作者诊断出两个关键限制因素导致了上述瓶颈。 * 低候选召回率(Low Candidate Recall):RAG系统的检索模块通常针对通用问答设计,返回的是非结构化、信息片段化的文档,难以保证推荐任务所需的高覆盖率候选集。这直接限制了推荐性能的上限。 * 候选信息不充分(Insufficient Candidate Information):从海量、碎片化的上下文中为多个候选项目提取完整、结构化的信息(如电影的导演、演员、评分,或教育项目的GPA要求、语言成绩等),对LLM而言是一个挑战。LLM在处理长上下文时存在信息丢失问题,容易模糊实体边界,降低提取精度。此外,LLM在生成排名列表的任务中存在位置偏差、流行度偏差等问题,且其基于Token预测的目标与列表排序目标不匹配,导致大规模候选段落下的排名准确性下降。 3. 研究目标:基于以上分析,本研究旨在: * 正式将叙事驱动推荐定义为一个独立的、具有独特挑战的任务。 * 提出一种新的、更适合NDR任务的检索-排序(Retrieve-Rank) 范式,并从理论上论证其相对于传统RAG(Retrieve-Then-Read)范式的优越性。 * 设计并实现一个名为开放域候选生成智能体(Open-domain Candidate Generation Agent, OCG-Agent) 的核心组件,专门负责在新范式的第一阶段——检索阶段,进行广泛而深入的候选信息获取。 * 通过真实世界数据集(Reddit电影推荐和公司教育咨询场景)的实验,验证新范式及OCG-Agent的有效性。
三、 研究方法与详细工作流程
本研究提出并验证了一个完整的、两阶段的NDR解决方案,其核心工作流程如图1所示,主要包括以下环节:
阶段一:开放式候选生成(OCG-Agent) 此阶段对应新范式的“检索(Retrieve)”部分,目标是构建一个高覆盖度、信息丰富的结构化候选池。OCG-Agent是一个由LLM驱动的智能体,其工作流程包含五个主要步骤:
抽象数据类型生成(ADT Generation)
- 研究对象与处理:针对每个用户查询,OCG-Agent首先分析其内容,动态生成一个抽象数据类型(Abstract Data Type, ADT) 模板。该模板定义了候选项目应包含的属性结构,例如对于电影推荐,ADT可能包含“片名”(必填)、“导演”(必填)、“类型”(必填)、“评分”(可选)等;对于教育项目推荐,则可能包含“项目名称”(必填)、“GPA要求”(必填)、“英语要求”(必填)、“地点”(必填)、“附加信息”(可选)等。
- 方法与原理:利用思维链(Chain-of-Thought, CoT)提示技术,让LLM基于查询文本理解用户的核心关切,并据此设计一个结构化的属性列表。必填属性通常直接反映用户的硬性约束(如最低GPA、特定上映年代),而可选属性则用于丰富候选比较的维度。ADT模板确保了后续步骤中信息提取和比较的结构一致性。
多路径信息检索(Multi-route Information Retrieval)
- 研究方法:为了最大化候选覆盖率,OCG-Agent采用多路径并行检索策略。它并非执行单一搜索,而是通过LLM对查询进行重写,生成多个子查询,并同时调用四种互补的检索渠道:
- 网络搜索:使用Serper API进行通用网页搜索,并用Docling工具提取页面内容。
- 向量搜索:针对特定领域知识库(如教育项目数据库),使用Chroma+LangChain工具包,基于语义相似度检索最相关的文档。
- 结构化查询:对于关系型数据库中的信息,使用MindSQL等工具进行精确查询。
- 生成式检索:直接利用LLM的参数化知识,生成难以通过常规网络检索获取的、或属于其内部知识的候选信息。这对于处理“难以检索的查询”尤其有效。
- 数据整合:所有检索路径返回的知识片段被汇总成一个聚合知识库,为后续提取提供原材料。
候选提取(Candidate Extraction)
- 处理流程:对于聚合知识库中的每个文档片段,OCG-Agent并行运行多个LLM调用,根据上一步生成的ADT模板,从片段中提取候选实体及其属性。
- 数据合并:将所有并行提取得到的本地候选集合合并成一个统一的候选池。对于出现在多个文档中的同一候选,系统会融合其属性,用互补的信息填充空缺字段,从而生成信息更丰富、更一致的候选表示。
属性反射式补全(Reflective Completion for Attributes)
- 问题与方法:尽管多路径检索提高了覆盖率,但提取出的候选往往缺少ADT中定义的某些必填属性。这种属性稀疏性会损害后续排序的准确性。为此,OCG-Agent引入了一个反思与补全阶段。
- 工作流程:系统逐个检查候选的必填属性列表。对于每个缺失的必填属性(如某电影的“上映年份”缺失),OCG-Agent会专门为此生成一个针对性查询(例如“[电影片名] 上映年份”),并再次调用多路径检索模块来查找该特定信息。随后,利用LLM从检索结果中提取并补全该属性值。此过程迭代进行,直到所有候选的所有必填属性都被填充完成。
专家引导的语义归一化(Expert-guided Semantic Normalisation)
- 研究目的:即使属性被补全,其值在语义上也可能不可比。例如,不同国家的GPA评分体系(澳大利亚0-7分制,英国0-4分制)会误导相似性计算和排序。
- 方法:对于语义敏感的属性,OCG-Agent利用LLM结合人类专家级别的领域知识(如转换公式、本体或政策表),对属性值进行归一化处理,将其映射到一个统一的、可比较的尺度上。这在跨领域(如跨国教育比较)推荐中至关重要。
阶段二:排序(Ranking) 此阶段对应新范式的“排序(Rank)”部分。OCG-Agent输出的结构化、信息丰富的候选池被输入到一个独立的重排序器(Re-ranker) 中。本研究将排序模块设计为模块化的,实验中主要采用了基于LLM的RankGPT作为重排序器。该模块接收查询和候选池,直接输出一个按相关性排序的Top-K推荐列表。这种设计允许未来集成任何先进的排序模型。
研究数据集: * Reddit MovieSuggestions:源自公开Reddit论坛的100个电影推荐查询及其社区生成的“真实”推荐列表。 * Ausedu-Narratives:由本地教育咨询公司提供的30个真实的留学咨询案例(已匿名化处理),包含学生背景、需求及顾问推荐的排名项目。
四、 主要结果与分析
范式有效性验证:
- 对比实验:研究比较了多种基线方法,包括:直接使用LLM(GPT-4o-mini, GPT-4o, DeepSeek-R1)、商业AI搜索引擎(Perplexity, ChatGPT-Search, Gemini Search)、深度研究产品(Open Deep Research, Perplexity Deep Research)以及本研究实现的RAG变体(Retrieve-Then-Read)和完整的检索-排序范式(OCG-RankGPT)。
- 核心发现:
- LLM在通用领域表现良好:在电影推荐任务中,GPT-4o等LLM的表现优于AI搜索引擎和深度研究产品,证明了LLM内化知识的有效性。
- 增强检索的RAG有效,但商业产品滞后:本研究实现的Retrieve-Then-Read方法(利用OCG-Agent检索外部知识)在两项任务中均稳定优于直接LLM和商业产品。这表明OCG-Agent的“宽而深”检索机制是有效的,而现成的商业产品由于检索流水线较初级,性能提升有限。
- 检索-排序范式显著优于RAG:最重要的结果是,OCG-RankGPT相比其对应的Retrieve-Then-Read变体,在电影数据集上的NDCG@10提升了18.5%,在教育数据集上的NDCG@5提升了27.3%。由于两者使用的外部知识量相同,这一提升明确归功于检索-排序范式本身——它将检索(获取丰富信息)与排序(利用完整信息进行精准比较)解耦,从而避免了RAG范式中将信息提取与列表生成耦合在一起所造成的信息损失和排名偏差。
消融研究(Ablation Study)关键发现:
- 检索广度的影响:增加检索渠道最初能显著提升候选召回率,但会产生检索饱和效应,即后续渠道带来更多重叠或低质量项目,导致噪声增加,最终可能使下游排序性能下降。这表明无限制地拓宽检索范围有害无益,需要质量感知的选择。
- 生成式检索的有效性:LLM生成式检索对于难以通过传统网络搜索找到的候选项目特别有效,在开放域和特定领域场景中都显示出战略价值。
- 检索深度(信息完整性)的影响:
- 通过补全候选的必填属性,可以持续提升排序精度。这种提升在细节敏感领域(如教育咨询)尤为显著,因为完整的关键属性(如开学时间、GPA硬性要求)是做出准确推荐的基础。
- 语义对齐的增益:在需要对属性值进行标准化转换的领域(如教育数据集中转换不同GPA体系),专家引导的语义归一化步骤能带来额外的性能提升(例如,使NDCG@10从0.585提升到0.664)。而在无需此类转换的领域(如电影),此步骤则不产生变化。
理论支撑:论文第6节提供了理论分析,在假设条件下(如RAG存在信息提取损失因子γ,排序器存在准确率差异α > β),形式化地证明了检索-排序范式在期望精度和召回率上严格优于RAG范式。这一理论保证与实证结果相吻合。
五、 结论与研究价值
本研究的核心贡献与结论如下:
- 任务形式化与新范式提出:首次将叙事驱动推荐明确定义为一个独立任务,并提出了专为其设计的检索-排序(Retrieve-Rank)范式,在理论和实验上均证明其优于传统的检索增强生成(RAG)范式。
- 核心技术创新:提出了开放域候选生成智能体(OCG-Agent),这是一种新颖的、面向候选的检索智能体。它通过生成结构化ADT、执行多路径检索、进行属性补全和语义归一化,实现了“宽而深”的信息获取,为高质量的后续排序奠定了基础。
- 实证验证:在真实世界的电影推荐和教育咨询数据集上,OCG-Agent与检索-排序范式的组合(OCG-RankGPT)取得了显著优于现有多种方法的性能,特别是在信息细节敏感和跨领域场景中。
- 科学价值:
- 深化了对LLM在复杂信息整合与排序任务中局限性的理解。
- 为信息检索与推荐系统的融合提供了一种新的、任务导向的架构思路。
- 展示了LLM驱动智能体在复杂、多步骤信息处理任务(如结构化信息搜集)中的强大潜力。
- 应用价值:
- 为AI搜索引擎、问答系统、社交平台和垂直领域咨询(如教育、旅游、商品推荐)中处理叙事化用户请求,提供了可实施的、高性能的解决方案框架。
- OCG-Agent作为一个模块化组件,易于集成到多智能体协作系统或与不同的先进排序模型结合,具有很好的扩展性和实用前景。
六、 研究亮点
- 问题定义新颖:明确区分并形式化了“叙事驱动推荐”这一普遍但研究不充分的查询类型。
- 范式创新:系统性地指出并论证了RAG范式在NDR任务上的固有缺陷,进而提出并验证了更优的检索-排序范式。
- 方法创新:设计的OCG-Agent巧妙地将LLM的语义理解、规划能力与传统检索技术结合,实现了从非结构化网络信息到结构化、可比候选集合的自动化、智能化转换。其多路径检索、反射式补全和语义归一化机制构成了方法的核心亮点。
- 实证全面:不仅在不同领域的真实数据集上验证了方法的优越性,还通过深入的消融研究揭示了各个组件的作用机制(如检索饱和、生成式检索价值、属性完整性与语义对齐的重要性),为后续研究提供了重要见解。
- 理论与实证结合:不仅提供了丰富的实验数据,还辅以形式化的理论分析,增强了研究结论的鲁棒性和可信度。