AgentSociety挑战：为网络平台的用户建模与推荐设计LLM智能体

分享自：
AgentSociety挑战：为网络平台的用户建模与推荐设计LLM智能体

工程学
信息科学
软件工程
人工智能
计算机科学
期刊:Proceedings of the ACM Web Conference 2025DOI:10.1145/3701716.3719233
【点击此处】阅读全文、收藏及针对性提问
关于“AgentSociety Challenge: Designing LLM Agents for User Modeling and Recommendation on Web Platforms”的学术研究报告
作者、机构与发表信息 本研究由来自清华大学（Tsinghua University）的Yuwei Yan、Yu Shang、Qingbin Zeng、Yu Li、Keyu Zhao、Zhiheng Zheng、Xuefei Ning、Yu Wang、Fengli Xu、Yong Li，以及来自香港科技大学（广州）（HKUST-GZ）的Yuwei Yan和来自InfinigenceAI的Tianji Wu、Shengen Yan共同完成。其中，Yuwei Yan和Yu Shang为并列第一作者，Fengli Xu和Yong Li为通讯作者。该研究作为一篇短文（short-paper）发表于ACM Web Conference 2025 (WWW ‘25) 的会议录集中，具体收录于《Companion Proceedings of the ACM on Web Conference 2025》，并于2025年5月23日正式发表。论文可通过ACM数字图书馆获取，DOI为：https://doi.org/10.1145⁄3701716.3719233。
学术背景与研究目标 本研究隶属于信息检索、推荐系统与用户行为建模的交叉领域，尤其关注大型语言模型（Large Language Model, LLM）智能体（Agent）在Web平台上的应用。随着网络技术的飞速发展，Web平台积累了海量用户交互数据，为理解用户意图、优化个性化服务提供了宝贵资源。与此同时，LLM在推理与预测任务上展现出卓越能力，而基于LLM的智能体更能模拟复杂的、生成性的人类行为。然而，如何将这些技术进步转化为信息检索和推荐系统中切实可用的工具，仍是一个关键挑战。
为此，研究者们设计并组织了名为“AgentSociety Challenge”的首届竞赛。该竞赛旨在探索LLM智能体在建模用户行为和增强Web平台推荐系统方面的潜力。具体目标包括：1）激发研究社区设计创新的LLM智能体，以解决用户行为模拟和个性化推荐这两个信息检索领域的核心问题；2）构建一个公开的基准环境和数据集，以促进该领域的进一步研究与发展；3）通过大规模竞赛，评估并展示LLM智能体在此类任务上的性能与优势。
详细工作流程 本研究核心是报告“AgentSociety Challenge”竞赛的设计、实施与结果分析。整个工作流程并非传统意义上的单一实验流程，而是围绕竞赛的组织、评估与总结展开，主要包括以下几个关键环节：
1. 挑战赛设计与赛道设定： 竞赛设置了两个平行赛道（Track），以聚焦LLM智能体的不同能力： * 赛道一：用户建模（User Modeling Track）。 参赛者需设计智能体来模拟用户在面对特定商品时的行为，核心任务是生成用户评论和星级评分。这要求智能体能够利用用户的历史行为和环境数据，理解用户偏好并生成符合其风格和态度的文本反馈。 * 赛道二：推荐（Recommendation Track）。 参赛者需开发扮演推荐助手角色的LLM智能体。该智能体需基于用户的历史交互和检索到的信息，为用户提供个性化的商品推荐列表。
2. 数据集与环境构建： 为提供真实且多样化的评估环境，竞赛整合了三个公开数据集：Yelp（商业评论）、Amazon（商品评论）和Goodreads（图书评论）。这些数据集涵盖了餐饮、电商、阅读等多个领域，包含丰富的用户评论、评分和元数据，能够全面反映真实世界的用户交互模式。 一个核心创新是开发了交互式环境模拟器（Environment Simulator）。该模拟器的核心是InteractionTool，它构建了一个由用户（User）、评论（Review）和商品（Item）组成的网络（即U-R-I网络）。智能体可以在此模拟环境中进行信息检索操作，例如查询用户历史记录、获取商品详情等，从而在一个可控且贴近实际Web平台交互的环境下执行任务（用户模拟或生成推荐）。这种设计使得对智能体的评估更加全面和现实。
3. 评估方法与流程： 竞赛采用了细致且分阶段的评估流程，并设计了针对每个赛道的量化指标。 * 赛道一评估指标： * 偏好估计（Preference Estimation）： 使用平均绝对误差（Mean Absolute Error, MAE）来衡量预测的星级评分与真实评分之间的差距。 * 评论生成（Review Generation）： 使用一个综合误差指标，该指标结合了情感基调误差（Emotional Tone Error）、情感态度误差（Sentiment Attitude Error）和主题相关性误差（Topic Relevance Error）三个方面，权重分别为25%、25%和50%。这些误差分别通过预训练的情感分类模型、情感分析工具和文本嵌入模型（如Sentence-BERT）的余弦相似度来计算。 * 整体质量（Overall Quality）： 综合偏好估计和评论生成的误差得出最终得分。 * 赛道二评估指标： * 排序准确性（Ranking Accuracy）： 使用Top-N命中率（Hit Rate@N, N=1,3,5）进行评估。该指标衡量在智能体给出的20个候选商品排序列表中，真实目标商品出现在前N位的频率。 * 两阶段评估流程： * 开发阶段（Development Phase）： 所有参赛团队在此阶段提交方案，评估完全基于模拟真实数据（Simulated Groundtruth）。这些数据由组织方提供的模拟生成器（GT Simulation）产生，代表新用户或未见过的数据，旨在测试智能体对数据变化的泛化能力。 * 最终阶段（Final Phase）： 每个赛道开发阶段排名前20的团队进入此阶段。评估数据采用混合形式：40%为模拟真实数据，60%为真实真实数据（Real Groundtruth）。这种设计旨在防止参赛者过度拟合公开可用的数据，从而更公平、更稳健地评估智能体的真实性能。评估过程中实施了阻断机制，确保智能体无法直接访问真实真实数据标签。
4. 竞赛实施与数据分析： 竞赛吸引了全球295支团队注册，在37个正式比赛日内共收到超过1400份提交。研究团队对提交结果进行了系统的统计分析，包括： * 性能趋势分析： 绘制了开发阶段和最终阶段每日提交成绩的走势图（图2、图3）。结果显示，随着比赛进行，参赛智能体的性能呈逐步提升趋势。早期提交多围绕官方提供的基线智能体，后期则涌现出许多显著超越基线性能的设计。 * 模拟数据有效性验证： 这是本研究的关键分析部分。研究团队通过计算智能体在最终阶段于模拟数据和真实数据上表现的相关性（图4），发现两者存在极强的皮尔逊相关性（赛道一：0.9739；赛道二：0.9245）。这证明组织方生成的模拟数据是可靠且有意义的，能有效预测智能体在真实数据上的表现。 * 泛化能力对比： 研究进一步比较了使用混合数据（模拟+真实）与仅使用部分真实数据（Real Data A）来预测在另一部分真实数据（Real Data B）上表现的能力（图5、图6）。结果表明，混合数据的预测相关性更高（例如赛道二：混合数据 vs. Real Data B 相关性0.7641，高于 Real Data A vs. Real Data B 的0.5825）。这说明引入模拟数据有助于提供更稳健的评估，减少因数据采样偏差导致的性能误判。 * 模拟数据对传统模型的影响： 研究测试了将模拟数据加入训练集对经典深度学习推荐模型（如NCF, GMF, MLP）性能的影响（图7）。结果显示，加入模拟数据后，模型的性能相比仅使用真实数据训练有所提升，这表明生成的模拟数据有效地捕捉了用户行为与偏好特征，有助于模型学习。
5. 案例研究（优胜方案分析）： 研究对两个赛道排名前三的智能体设计方案进行了深入剖析，总结了其成功的关键设计模式和创新点。 * 赛道一（用户建模）前三名团队（ASC, Jiuwen, STDYW）： * 共同设计模式： 均采用了“检索-规划-生成”的多阶段流水线，并利用上下文提示工程，结合用户画像、商品属性和历史评论（使用平台特定模板）来生成输出。 * 差异化策略与优势： * ASC： 核心策略为协同过滤，集成了偏好对齐引擎，使用MDILU（一种记忆模块）进行相似性搜索，并采用统计均值调整进行评分逻辑计算。其优势在于通过整合用户和商品的平均评分及方差，提高了评分预测的一致性。 * Jiuwen： 采用基于方面的分析策略，其独特模块是方面提取器（Aspect Extractor），使用示例驱动记忆，评分逻辑由示例引导。优势在于能从评论中提取细粒度方面（如服务质量、产品特性），使行为模拟更精准。 * STDYW： 依赖于直接的LLM生成，包含净化模块，使用基础的DILU记忆方式，评分逻辑完全基于LLM输出。优势在于结合了先进的用户-商品建模与知识挖掘，通过复杂推理能力实现高度个性化和情境感知的模拟。 * 赛道二（推荐）前三名团队（Baseline666, RecHackers, DummyAgent）： * 共同工作流程： 均依赖相似信息（用户历史评论、候选商品列表、详细商品信息）来指导排序过程。 * 关键设计要素： * 商品端特征工程： 特别是Baseline666团队，实施了平台特定的特征提取。例如，为Amazon提取商品ID、名称、星级、评论数、描述等；为Yelp聚焦于商品ID、名称、星级、评论数；为Goodreads则包括作者、出版年份、类似书籍等。这确保了跨平台推荐的鲁棒性和适应性。 * 评论端特征工程： 对评论数据进行过滤和选择，以增强用户和商品描述。例如，DummyAgent团队针对不同平台采用不同策略：Yelp关注“有趣”、“酷”、“有用”属性和评论文本；Amazon关注发布日期和购买验证；Goodreads则提取评论日期、投票/评论数、阅读状态等元数据。 * 总结的成功要素： 1) 标准化的智能体工作流程用于生成排序；2) 提取平台特定的商品属性至关重要；3) 优先处理最相关和信息量最大的评论能显著提升效果。
主要结果 本研究通过组织AgentSociety Challenge，取得了以下核心结果： 1. 竞赛成功举办与广泛参与： 竞赛吸引了全球295支团队，收到超过1400份提交，证明了该议题在学术与工业界的高度关注度。 2. 性能显著提升： 参赛者设计的LLM智能体在开发阶段相比基线在赛道一和赛道二分别实现了21.9%和20.3%的性能提升；在最终阶段，面对更严格的混合数据评估，仍分别取得了9.1%和15.9%的提升。这标志着在用户行为模拟和个性化推荐任务上取得了实质性进展。 3. LLM智能体优势验证： 分析发现，基于智能体的推荐方法普遍优于传统的深度学习推荐模型（如NCF），凸显了LLM智能体在此领域的巨大潜力。 4. 模拟环境与数据的有效性得到证实： 通过严谨的相关性分析和泛化能力测试，研究证实了自主构建的交互式环境模拟器以及生成的模拟真实数据是可靠、有效的评估工具。模拟数据不仅能预测真实性能，其引入还能使评估更稳健，并辅助传统模型提升性能。 5. 涌现出多样化的先进设计模式： 通过对顶尖团队方案的案例分析，总结出了多阶段流水线、平台特定特征工程、细粒度方面分析、协同过滤与统计调整结合等有效的LLM智能体设计范式，为后续研究提供了宝贵的设计蓝图。
结论与研究意义 本研究通过设计、实施并深入分析首届AgentSociety Challenge，得出以下结论：LLM智能体在模拟复杂用户行为和构建个性化推荐系统方面具有显著优势和巨大潜力。竞赛不仅催生了多种创新的智能体设计方案，还实质性地推进了用户行为模拟的准确性和推荐质量的提升。
该研究的价值体现在多个层面： * 科学价值： 为LLM智能体在信息检索和用户建模领域的应用建立了一个重要的基准测试平台。它系统性地探索并验证了LLM智能体在此类任务上的可行性与优势，总结了关键的设计原则和技术路径。关于模拟数据有效性和评估稳健性的分析，也为如何设计和评估AI竞赛提供了方法论上的参考。 * 应用价值： 研究成果可直接应用于Web平台，帮助平台更精准地理解用户意图、模拟用户反馈、提供更个性化的推荐服务，从而提升用户体验和平台 engagement。顶尖团队的设计方案为工业界开发实用的LLM推荐助手或用户模拟器提供了可借鉴的架构。 * 社区贡献： 研究者已将竞赛的基准环境、模拟器及相关代码在GitHub上开源（https://tsinghua-fib-lab.github.io/agentsocietychallenge），这极大地促进了该领域的后续研究、开发和比较，对推动整个社区的发展具有重要意义。
研究亮点 1. 首创性竞赛： 这是网络会议（Web Conference）中首个专注于LLM智能体用于用户建模与推荐的竞赛，具有开创性。 2. 系统化与工程化设计： 研究不仅提出了竞赛概念，还完整构建了包含多源数据集、交互式环境模拟器、两阶段评估框架和一套综合量化指标的完整基准测试体系，工作非常系统。 3. 深入的实证分析： 超越简单的成绩排名，对竞赛数据进行了多层次深度分析，特别是对模拟数据有效性的验证（强相关性、更好泛化性、对传统模型的增益），这部分分析科学严谨，构成了论文的核心贡献之一。 4. 详尽的案例洞察： 对优胜方案的拆解分析细致入微，提炼出可迁移的设计模式、特征工程方法和竞争优势来源，为读者提供了极具操作性的技术见解，而非泛泛而谈。 5. 强调评估的稳健性： 通过混合真实与模拟数据、分阶段评估等设计，着力解决算法竞赛中常见的过拟合公开数据问题，提升了竞赛结果的可信度和普适性。
其他有价值内容 论文还提及，LLM智能体相较于传统深度学习模型具有独特优势，如常识推理能力使其能在数据稀疏（如用户历史记录少）的情况下进行少样本预测，以及零样本角色扮演能力使其能模拟多样化情境下的用户行为。这些特性使得LLM智能体特别适用于模拟对上下文敏感且个性化的用户意图与行为。竞赛的设立正是为了弥合这些技术进展与构建实用信息检索/推荐工具之间的鸿沟。
本研究通过一场组织严密、分析深入的竞赛，成功展示了LLM智能体在Web用户建模与推荐领域的强大能力与广阔前景，并为未来的研究和应用奠定了坚实的基础。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问