关于《联合优化广告排序与创意选择》的学术研究报告
一、 研究作者、机构与发表信息
本研究由来自阿里巴巴集团(Alibaba Group)的Kaiyi Lin, Xiang Zhang, Feng Li, Pengjie Wang, Qingqing Long, Hongbo Deng, Jian Xu和Bo Zheng共同完成。该研究作为一篇短文(short paper)发表于SIGIR ‘22,即第45届国际计算机学会信息检索研究与发展会议(the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval)。论文于2022年7月7日正式出版,收录于会议论文集。论文为开放获取,由阿里巴巴集团提供支持。
二、 学术背景与研究目的
本研究属于计算广告学(Computational Advertising) 领域,具体聚焦于电子商务在线广告系统中的核心环节——广告创意选择与广告排序。在电商平台(如淘宝)的搜索广告系统中,一个广告活动(ad campaign)下通常包含多个广告组(ad-group),每个广告组又拥有多个创意(creatives,即不同的图文组合)。这些创意虽然指向同一商品,但由于用户偏好各异,其点击率(Click-Through Rate, CTR)表现差异显著。因此,根据实时用户请求,为其选择最具吸引力的广告创意,对于提升广告效果和平台收益至关重要。
传统的广告系统通常采用多阶段级联架构:广告匹配(Ad Matching) -> 广告排序(Ad Ranking) -> 创意选择(Creative Selection)。这种架构将创意选择置于排序阶段之后,即先对所有候选广告进行排序,再从排名靠前的广告中为其各自选择一个最优创意。然而,这种做法存在一个根本性缺陷:排序阶段无法获知最终将展示哪个创意。在计算资源受限的情况下,排序模型无法同时处理每个广告的所有创意组合(会导致候选数量爆炸式增长)。因此,实践中排序模型要么不使用创意信息,要么使用随机或离线选出的热门创意,但这并非最终展示给用户的“最优创意”。这导致排序模型的预测准确性受限,因为创意内容本身是影响用户点击决策的关键因素。
为解决上述问题,本研究提出了一个根本性的架构变革:将创意选择模块前置到排序阶段之前。理想流程变为:广告匹配 -> 创意选择 -> 广告排序。这样,排序阶段就能获得每个广告经过个性化选择后的“最优创意”信息,从而做出更精准的预测。然而,这一变革面临双重挑战:1) 效率问题:创意选择需要处理所有广告的所有创意,候选数量比传统方法(仅处理排序后的Top-K广告的创意)高出一个数量级,计算成本剧增。2) 有效性问题:大量创意曝光不充分,数据稀疏性问题严重,使得基于历史反馈(点击、购买)的传统CTR预测学习方法难以奏效。
本研究旨在提出一种新颖的级联创意选择架构(Cascade Architecture of Creative Selection, CACS),以实现广告内创意选择(Intra-Ad Creative Selection)与广告间排序(Inter-Ad Ranking)的联合优化。其核心目标是:设计一个高效且有效的系统,使创意选择能为下游排序阶段提供最优创意信息,从而整体提升广告系统的性能。
三、 研究方法与工作流程
本研究提出了一套完整的方法论来解决架构变革带来的效率与有效性挑战。其工作流程主要包括以下几个关键部分:
1. 整体架构设计:CACS 研究提出的CACS架构将创意选择模块置于排序模块之前。对于一次用户查询,系统首先从匹配阶段获得数千个广告候选。接着,创意选择模型为每一个广告从其拥有的多个创意中,选出一个最可能吸引当前用户的创意。然后,排序模型接收的不再是“原始广告”,而是“附带了最优创意的广告”,并利用所有可用特征(包括这个最优创意的信息)进行精细排序,最终输出Top-K个广告展示给用户。这种架构使得创意选择的结果能够直接影响排序,实现了两个任务的关联优化。
2. 提升效率的策略:双塔模型与嵌入共享 为应对候选创意数量大增带来的效率压力,研究采用了两种策略: * 经典双塔结构(Two-Tower Structure):创意选择模型采用双塔设计,一塔编码用户/查询特征(查询塔),另一塔编码广告/创意特征(广告塔)。两个塔的输出向量通过简单的内积运算即可得到预测分数,极大地减少了计算开销,满足了在线服务的低延迟要求。 * 创意嵌入共享:创意选择模型中的广告塔所学习到的创意嵌入(Creative Embeddings),会被直接共享给下游的排序模型使用。这样,排序模型无需重新计算创意特征,避免了重复计算,进一步提升了系统整体效率。
3. 提升有效性的核心组件:软标签列表排序蒸馏与自适应丢弃网络 为解决数据稀疏性和学习目标对齐问题,研究提出了两个创新性组件:
a. 软标签列表排序蒸馏(Soft Label List-wise Ranking Distillation) 由于大量创意缺乏充分的曝光和真实的用户反馈标签,直接使用CTR作为训练目标非常困难。本研究将创意选择任务重新定义为学习排序(Learning-to-Rank) 问题,即学习一个广告内部多个创意的相对顺序,而非预测绝对CTR值。 * 教师-学生框架:研究利用已有的、强大的排序模型作为“教师”模型。在离线训练阶段,对于每个广告,教师模型会为所有创意预测一个CTR分数。这个CTR分数并非真实用户反馈,但源于一个强大的、见过更多数据的模型,因此可以作为“软标签(Soft Label)”来指导“学生”——即创意选择模型的学习。 * 列表式损失函数:学生模型(双塔模型)为每个创意预测一个分数。研究者采用列表式(List-wise) 的损失函数,具体是Top-one概率交叉熵。首先,将教师模型给出的各创意CTR软标签(经过温度系数T缩放)和学生模型预测的分数,分别通过Softmax函数转换为一个概率分布(即每个创意被排在第一位的概率)。然后,计算这两个概率分布之间的交叉熵作为损失函数。这样,训练的目标是让学生模型学到的创意排序概率分布,尽可能接近教师模型所体现的排序知识。这种方法有效地将排序模型的“知识”蒸馏到了创意选择模型中,缓解了数据稀疏问题。
b. 自适应丢弃网络(Adaptive Dropout Network) 创意特征通常包含两种模态:ID特征(Creative ID) 和内容特征(Content Features,如图像和标题)。ID特征记忆性强,但对新创意或曝光少的创意泛化能力差;内容特征泛化能力强,但需要模型有能力从中提取有效信息。简单地融合二者(如拼接或注意力机制)在ID特征占主导时,内容特征的作用容易被削弱。 * 网络结构:广告塔内部,对于创意特征的处理分为两个子网络:内容网络和ID网络。内容网络使用注意力机制融合图像和标题的特征。ID网络则生成创意ID的嵌入向量。 * 自适应丢弃机制:这是本研究的核心创新之一。为了解决ID特征过强导致模型忽视内容特征的问题,研究者在训练阶段对ID嵌入向量引入了Dropout操作。但并非使用固定丢弃率,而是设计了一个基于创意曝光次数的自适应丢弃率函数。其公式核心是一个Sigmoid函数,使得曝光量越高的创意,其ID特征被丢弃的概率(在一定阈值内)也越高。这是因为曝光量高的创意,其ID特征已经足够强,强制模型在训练时偶尔“忘记”ID特征,可以迫使其更多地依赖内容特征进行学习,从而增强模型对内容的理解和泛化能力。在推理阶段,则不进行丢弃,但会对保留的ID嵌入进行缩放以保持分布一致。 * 特征融合:最终,将经过自适应丢弃处理后的ID嵌入与内容网络输出的内容嵌入进行逐元素相加(Element-wise Sum),得到最终的创意表征。这种方法以一种简单而有效的方式,平衡了ID特征的记忆性和内容特征的泛化性。
4. 实验设计与评估 研究在淘宝广告平台的真实数据集上进行了离线和在线评估。 * 数据集:从淘宝搜索广告系统收集了约40亿训练样本和5亿测试样本的用户点击历史数据。 * 评估指标: * 离线评估:采用模拟CTR(Simulated CTR, sCTR)。该指标通过回放历史曝光日志来模拟线上效果:对于每一次历史曝光,用模型预测该广告下所有创意的分数,并选择分数最高的创意。如果选中的创意与历史上实际展示的创意一致,则计入一次有效曝光,并累加实际点击。sCTR = 总点击次数 / 总有效曝光次数。 * 在线评估(A/B测试):采用点击率(CTR)、转化率(Conversion Rate, CVR)和千次展示收入(Revenue Per Mile, RPM)以及响应时间(Response Time, RT)作为核心指标。 * 对比方法: * No-CR:排序阶段不使用任何创意选择(即无创意信息或使用默认创意)。 * Post-CR:传统架构,即排序后进行创意选择。 * VAM-HBM:一个先进的创意选择基线方法(混合Bandit模型)。 * 参数设置:模型使用了丰富的特征,包括用户、查询、广告和创意特征。图像特征使用ResNet-50提取,标题特征使用BERT提取。模型使用Adam优化器进行训练。
四、 主要研究结果
实验结果表明,本研究提出的CACS方法在离线和在线评估中均取得了显著提升。
1. 在线评估结果(核心结论) 在线A/B测试结果(如表1所示)有力地证明了新架构的价值: * CACS显著优于传统架构:与将创意选择置于排序之后的Post-CR基线相比,CACS在CTR、CVR和RPM上分别获得了+3.12%、+2.08% 和+2.87% 的相对提升。这直接证明了将创意选择前置,使得排序模型能利用最优创意信息,从而整体提升了系统效果和平台收益。 * 验证了创意选择的必要性:No-CR(无创意选择)效果最差,说明个性化的创意选择对提升广告效果至关重要。 * 效率可接受:尽管CACS需要处理更多候选,但由于采用了高效的双塔模型,其响应时间(RT)仅比基线略有增加(+9.22%),处于可接受范围,实现了效果与效率的平衡。
2. 离线评估结果(深入分析) 离线实验从多个维度验证了所提方法的各个组件的有效性: * 超越现有最佳方法:CACS的sCTR达到了6.151%,优于对比的先进方法VAM-HBM(6.032%)。图3提供了可视化案例,显示CACS排出的创意顺序更接近由强大排序模型预测的CTR真实顺序(Ground Truth)。 * 多模态特征融合的有效性:实验对比了仅使用ID特征、仅使用内容特征以及不同融合方式的效果。结果显示: * 在曝光量低(0-1000)的区间,仅使用内容特征的模型优于仅使用ID特征的模型,体现了内容特征的泛化优势。 * 在曝光量高的区间,ID特征凭借其强大的记忆能力表现更好。 * CACS(ID+内容,自适应丢弃)在所有曝光区间都取得了最佳性能,证明了其能自适应地结合两种特征的优势。 * 自适应丢弃网络的优势:与简单的拼接(concat)、注意力(attention)或门控(gate)等多模态融合方案相比,CACS的自适应丢弃网络在所有曝光区间,尤其是中低曝光区间,取得了显著的sCTR提升(例如在[0,100]区间提升4.56%)。这表明,通过自适应地“削弱”高曝光创意的ID特征影响力,模型更好地学习了内容特征的表征,从而提升了整体泛化能力。 * 参数敏感性分析:研究对自适应丢弃函数中的关键参数进行了分析。如图4所示,最大丢弃率λ存在一个最优值(约0.6),过高或过低都会降低性能。缩放参数α和偏移参数β也需要调优以获得最佳效果(最优值约为α=1.05, β=9.1)。这说明了自适应策略设计的合理性。
五、 研究结论与价值
本研究成功提出并验证了一种名为CACS的新型级联创意选择架构。该架构通过将创意选择阶段前置到排序阶段之前,实现了广告内创意选择与广告间排序的联合优化,打破了传统管道式架构中两个环节相互隔离的局限。
研究的科学价值在于:1) 首次系统性地提出并解决了在排序前进行创意选择所面临的效率与有效性双重挑战。2) 创新性地将排序蒸馏思想应用于创意选择任务,利用强大的排序模型作为教师来生成软标签,有效缓解了数据稀疏性问题。3) 提出了自适应丢弃网络,为平衡推荐/广告系统中ID特征的记忆性与内容特征的泛化性提供了一种新颖且有效的解决方案。
研究的应用价值极为显著:该方法已成功部署于淘宝广告平台,并带来了线上关键业务指标(CTR, CVR, RPM)的显著提升,证明了其在实际工业级大规模广告系统中的有效性和可行性。它为在线广告、推荐系统等需要处理多模态候选物品排序的场景提供了新的架构思路和技术方案。
六、 研究亮点
七、 其他有价值内容
论文在引言部分清晰梳理了工业界常见的实践及其局限性,为研究动机提供了扎实的背景。实验部分设计严谨,不仅对比了整体性能,还对多模态特征、不同融合方案、参数敏感性等进行了细致的消融实验和分析,使结论非常具有说服力。此外,论文明确指出了共同第一作者和通讯作者,符合学术规范。所提出的方法虽然针对广告创意选择,但其核心思想——前置子选择以优化主排序、利用蒸馏解决数据稀疏、自适应融合ID与内容特征——对于其他类似的信息检索和推荐任务(如商品变体选择、短视频封面选择等)也具有重要的借鉴意义。