用于个性化推荐的自适应知识融合智能代理

分享自：
用于个性化推荐的自适应知识融合智能代理

期刊:companion proceedings of the ACM on Web Conference 2025DOI:10.1145/3701716.3719230
基于自适应知识融合的智能代理个性化推荐框架研究报告
本报告旨在介绍由清华大学Yuanqing Yu、Zhefan Wang、Chumeng Jiang、Xinyi Li、Jiayin Wang与Min Zhang（通讯作者）共同完成，并于2025年5月发表在ACM Web Conference 2025 (WWW ‘25) 会议论文集（ISBN: 9798400713316）上的一篇题为“Intelligent Agents with Adaptive Knowledge Fusion for Personalized Recommendation”的研究工作。该研究属于人工智能与信息系统交叉领域，聚焦于利用大语言模型（Large Language Model， LLM）智能代理提升个性化推荐系统的性能。
一、 研究背景与目标 在当今的电子商务、社交媒体等众多领域中，推荐系统对于提升用户体验和促进信息/商品流通至关重要。随着大语言模型的飞速发展，基于LLM的智能代理因其强大的语义理解、任务规划和决策能力，为构建更具上下文感知能力的个性化推荐系统带来了新的潜力。现有研究主要分为两类：一类是利用代理模拟用户或物品行为以深入理解用户偏好，但这类方法未能有效集成到实际的推荐系统中；另一类是尝试直接利用代理构建推荐器，通常包含用户画像、规划、记忆和行动等模块。然而，这些方法存在局限性，特别是LLM本身固有的输入位置偏差（input position bias）和流行度偏差（popularity bias）等问题，若未经外部知识的校准，可能导致推荐结果与真实世界用户偏好不符。
为此，本研究旨在克服上述限制，提出一个创新的、融合了自适应知识融合的智能代理推荐框架。该框架的核心目标是：1) 充分利用LLM的能力，构建能够模拟人类记忆与推理过程的智能代理；2) 通过两种创新的知识融合策略，有效引入和整合外部知识，以校正LLM的固有偏差，从而提高推荐结果的准确性和适应性。
二、 研究方法与详细工作流程 本研究提出一个由两大核心模块构成的框架：智能代理（Intelligent Agent）和知识融合（Knowledge Fusion）。整个工作流程围绕如何利用代理处理信息，并通过知识融合优化其输出而展开。
1. 智能代理模块 智能代理模块旨在模拟人类进行推荐决策时的认知过程，包含记忆（Memory）和推理（Reasoning）两个子模块。 * 记忆模块（Memory）：该模块模拟人类大脑的记忆机制，负责筛选、存储和更新与推荐决策相关的关键信息。其处理流程如下：首先，从候选物品、用户历史评论及历史交互记录中提取信息。然后，模仿人类的“遗忘”机制，仅保留最相关的信息形成长期记忆，摒弃不重要的细节。具体存储的信息分为三类：候选物品的特征与元数据、用户历史评论（蕴含用户情感与偏好）、用户历史交互物品的详细信息及评分反馈。这些信息为后续的个性化推理提供了数据基础。在实验阶段，研究者系统测试了不同信息组合对代理性能的影响（如仅候选物品信息、增加历史评论、增加历史物品信息），以探究不同推荐场景下何种记忆内容最为关键。 * 推理模块（Reasoning）：该模块采用链式思维（Chain-of-Thought， CoT）提示技术，引导LLM代理进行逐步推理。具体工作流程是：设计一个多步骤的CoT提示模板，引导代理依次执行以下分析步骤：第一步，分析用户历史交互和评论，推断用户对不同物品类别的偏好。第二步，审查所有候选物品的属性，确保全面理解其特性。第三步，评估用户与物品的兼容性，即将推断出的用户偏好与物品属性进行关联匹配。第四步，根据兼容性评分对物品进行排序，生成初步的推荐列表。研究者还尝试在提示中提供CoT推理示例（cot w/ example），以进一步引导模型理解任务。整个推理过程的核心是模仿人类循序渐进的分析思维，从而提升推荐的合理性和准确性。
2. 知识融合模块 知识融合模块旨在将外部先验知识注入推荐过程，以弥补纯LLM代理的不足。本研究提出了两种融合策略：预排序（Prerank）和集成排序（Ensemble）。 * 预排序策略（Prerank）：在代理进行个性化推荐之前，先利用外部知识对初始候选物品列表进行重新排序。此策略主要针对LLM在处理列表时存在的“位置偏差”——即列表初始顺序可能无形中影响最终排名。具体操作是定义一个函数𝐾(𝑢, 𝑖)，基于目标用户𝑢和候选物品𝑖计算预排序分数。研究者实验了两种简单的𝐾函数实现：基于物品总体流行度（popularity）的排序，以及基于物品元数据提供的平均评分（item quality）的排序。经过预排序调整后的列表，再作为偏差校正后的输入提供给智能代理，使其在后续的偏好-物品对齐过程中能优先关注那些经过外部知识验证的更相关物品。 * 集成排序策略（Ensemble）：这是一种在代理生成排名后进行的、更直接的知识融合方法。它将来自多个源的排名信号（ranking signals）进行加权组合，生成最终推荐列表。具体公式为对每个候选物品𝑖_𝑚，计算其最终得分：∑（𝛼_𝑚𝑐 · 𝐿_𝑐(𝑢, 𝑖_𝑚)），其中𝐿_𝑐代表第𝑐种排名信号（如质量排名、流行度排名、用户-物品亲和力排名、代理自身排名等），𝛼_𝑚𝑐是动态调整的权重。研究中主要采用博尔达计数法（Borda method）进行集成，即计算每个物品在所有排名方法中的平均位次作为最终排序依据。这种方法具有更强的可扩展性，可以方便地融入更多类型的排名信号。
3. 实验设计与评估 研究者在三个公开数据集（Amazon、Yelp、Goodreads）以及WWW‘25会议的AgentSociety挑战赛推荐赛道上评估了所提框架的有效性。实验对象是由组委会提供的共计600个任务（每个场景200个），其中40%为模拟数据，60%为真实数据。由于真实数据未公开，研究者从原始数据中随机采样了120个用户的交互记录构建测试集，并以用户按时间顺序最后交互的一个物品作为真实答案（ground truth）。评估指标采用推荐系统常用的命中率（Hit Rate）@1、@3、@5，即真实答案出现在推荐列表前1、3、5位的频率。 实验系统地对比了框架中各组件（不同记忆内容、有无CoT、不同预排序和集成排序方法）的性能。此外，为满足挑战赛要求，所有实验均以Qwen-72B-Instruct作为基础LLM，且未使用外部模型、训练或工具。框架单任务平均处理时间约为5秒，远低于赛事规定的120分钟总时限，证明了其高效性。
三、 主要研究结果 实验结果表明，所提出的框架及其组件在不同场景下均能有效提升推荐性能。 1. 智能代理模块的有效性：记忆模块中，不同类型的信息对不同数据集的效果不同。在Amazon场景，所有三类信息（候选物品信息、历史评论、历史物品信息）均能有效提升代理性能；在Yelp场景，候选物品信息和用户历史交互物品信息更为关键；在Goodreads场景，用户的历史评论信息足以刻画用户偏好。这说明了代理需要根据场景特点侧重记忆不同的历史信息。推理模块方面，引入CoT机制普遍提升了预测精度，其中在Amazon场景下，提供示例的CoT效果更佳，而在其他场景下，基础CoT已足够有效。这验证了将推荐任务分解为多步推理过程的有效性。 2. 知识融合模块的效果与权衡：预排序和集成排序两种策略均展示了知识融合的价值，但也揭示了一些有趣的权衡。预排序策略在Amazon和Yelp场景中，虽然有时会略微降低HR@1（最Top推荐）的精度，但能显著提升HR@3和HR@5的指标，说明它有助于将正确答案推入更靠前的位置范围，尽管不一定是第一位。然而在Goodreads场景，任何预排序方法都导致了性能下降。集成排序策略取得了比预排序更好的整体性能提升（特别是在Amazon和Yelp场景），但同样在HR@1指标上存在一定的性能损失。值得注意的是，在Goodreads场景中，融入外部知识（无论是流行度还是质量）反而降低了代理性能，这表明在该场景下，用户行为与所采用的外部知识源关联性较弱。 3. 整体性能与挑战赛结果：综合所有最佳策略，该框架在AgentSociety挑战赛的推荐赛道上取得了优异的成绩，HR@5达到了0.6250，最终在排行榜上位列前三（Top-3）。这充分证明了该框架在真实竞争环境中的有效性和竞争力。
四、 研究结论与价值 本研究成功提出并验证了一个融合自适应知识融合的智能代理个性化推荐框架。其主要贡献和价值体现在： * 学术创新：首次提出将自适应知识融合机制与基于LLM的智能代理相结合，以解决推荐任务中LLM的固有偏差问题。框架中设计的记忆与推理模块，使代理能够更“拟人化”地处理用户信息和进行决策。 * 方法创新：提出了两种新颖的知识融合策略——基于外部知识的预排序和基于多排名信号集成的排序方法，为如何在基于代理的系统中有效引入和利用领域知识提供了具体方案。 * 实践验证：通过在多个公开数据集和具有严格限制的竞赛环境中的全面实验，证明了该框架在提升推荐质量（尤其是HR@3和HR@5）和系统适应性方面的有效性。框架的平均处理时间显示其具备实际应用的效率潜力。
五、 研究亮点与未来方向 本研究的亮点在于：1) 问题针对性强：直接瞄准LLM代理用于推荐时的关键挑战——偏差问题和外部知识利用不足。2) 框架设计精巧：将人类认知模型（记忆、推理）与工程优化策略（知识融合）有机结合。3) 评估全面严谨：不仅使用多个公开数据集，还在国际顶级会议组织的竞赛中验证了性能，结论可靠。 作者在文末也指出了由于竞赛规则限制，未能充分整合传统推荐算法作为知识源。因此，未来的工作可以着眼于优化知识融合方法（如开发更动态的权重调整机制），探索更多样化的外部知识源，并在更复杂的现实世界应用场景中测试其可扩展性和鲁棒性。这项工作为下一代基于LLM的个性化推荐系统的发展提供了一个富有前景的新视角。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问