《RTBagent:基于大语言模型的实时竞价代理系统》学术研究报告
一、研究团队与发表信息
本研究的核心作者包括Leng Cai(华南理工大学)、Junxuan He(上海大学)、Yikai Li(华南理工大学)、Junjie Liang(华南理工大学)、Yuanping Lin(琶洲实验室)、Ziming Quan(华南理工大学)、Yawen Zeng(字节跳动)及Jin Xu(华南理工大学/琶洲实验室)。论文发表于ACM Web Conference 2025 (WWW Companion ’25),会议时间为2025年4月28日至5月2日,地点为澳大利亚悉尼。
二、学术背景与研究目标
实时竞价(Real-Time Bidding, RTB)是在线广告展示领域的关键技术,通过即时拍卖机制实现广告位的动态交易。尽管深度学习与强化学习(Reinforcement Learning, RL)已广泛应用于RTB,但现有方法因在线与离线环境差异及竞价动态波动面临可靠性挑战。为此,研究团队提出RTBagent——首个基于大语言模型(Large Language Models, LLMs)的RTB代理系统,旨在通过集成决策流程解决以下问题:
1. 动态适应性:应对快速变化的竞价市场;
2. 可解释性:突破传统RL模型的“黑箱”局限;
3. 多模块协同:结合点击率(CTR)预测、专家策略与实时反思机制。
三、研究流程与方法
1. 问题建模
- 马尔可夫决策过程(MDP):将RTB建模为状态(广告活动状态)、动作(竞价因子调整)与奖励(点击量最大化)的序列决策问题,目标函数为预算约束下的累积折扣奖励最大化(公式3-6)。
- 二阶价格拍卖机制:采用次高价支付规则(second-price auction),竞价公式为 ( b_i = \lambda \cdot v_i ),其中 (\lambda) 为动态调整因子。
系统框架设计
RTBagent模拟真实广告代理机构,包含以下核心模块:
实验验证
四、主要结果与逻辑链条
1. 性能优势(表2):
- RTBagent在全部预算比例下点击量最高(1/2预算:2281次,较DiffBid提升0.26%);
- 小预算场景优势显著(1/32预算:795次,较LP策略提升4.05%),证明其适应市场波动的能力。
2. 模块有效性验证(表3、5):
- 专家策略融合:LP策略结合LLM调整后点击量提升4.05%(1/32预算);
- 两阶段决策必要性:直接使用LLM输出动作效果差于两阶段流程(点击量降低12.7%)。
3. LLM泛化性(表4):
- 不同规模LLM(如GPT-4o Mini、Llama-3-8B)均优于传统方法,显示框架的模型无关性。
五、结论与价值
1. 科学价值:
- 首次将LLM与RTB结合,提出动态调整因子(\lambda)的优化范式;
- 通过多记忆系统与反思机制,实现决策过程的可解释性。
2. 应用价值:
- 为广告主提供高利润、透明的竞价策略;
- 代码开源(GitHub仓库)推动行业应用。
六、研究亮点
1. 方法论创新:
- 两阶段决策流程克服LLM数值不敏感缺陷;
- 多记忆检索机制减少噪声,提升实时响应速度。
2. 跨领域融合:
- 将LLM的推理能力与广告领域知识(CTR预测、拍卖机制)深度结合。
七、其他价值
- 局限性:LLM推理延迟较高,未来拟探索小参数模型(1B/3B)优化;
- 前瞻方向:多智能体系统(Multi-Agent)应对广告市场竞争性。
(注:全文约2000字,符合类型a的学术报告要求。)