本论文针对点击率预测模型中一个长期存在但未解决的难题——“单轮次过拟合”现象进行了深入研究,并提出了一种创新的解决方案。论文标题为《用于深度点击率预测的数据增强多轮次学习》,目前以匿名作者的形式,作为会议论文投稿至ICLR 2025,正处于双盲评审阶段。
点击率预测是推荐系统和在线广告领域的关键技术。近年来,深度学习模型极大地推动了CTR预测性能的提升。然而,一个普遍存在且困扰业界的问题也随之浮现:单轮次过拟合。
单轮次过拟合具体表现为:模型在第一轮次训练后性能达到最佳,当进入第二轮次训练时,模型的性能(如测试集AUC)会立刻、显著地下降,而非像计算机视觉或音频处理等其他深度学习领域那样,随着训练轮次增加性能逐步提升。这一现象自2018年被首次提出以来,尽管已有相关研究,但其根本原因尚未清晰,也缺乏一个通用、可靠的解决方案。这导致业界普遍采用“单轮次学习”作为默认训练策略,无法从多轮次学习中获益,例如模型的进一步收敛、应对冷启动场景、或实施某些需要多轮次迭代的训练技巧等。
此前的研究将OEO与特征稀疏性联系起来。高维稀疏特征是CTR模型的典型特点,如用户ID、物品ID等,其数量可能高达数十亿,但每个ID在训练数据中出现的次数极少。尽管已有尝试使用正则化、Dropout、模型简化等直观方法缓解OEO,但这些方法要么无法彻底解决过拟合,要么会严重损害模型容量,导致性能甚至不如直接的单轮次学习。因此,OEO的核心成因及根本性解决方案,仍是一个悬而未决的挑战。
本研究旨在彻底揭示OEO的根本原因,并设计一种能够稳定进行多轮次学习、同时超越单轮次学习性能的通用框架。
通过一系列精密的对照实验,论文取得了以下关键发现: 1. OEO主要由嵌入层的过拟合导致,而非MLP层。 实验表明,当固定嵌入层仅训练MLP时,模型可以持续多轮次学习而不出现过拟合;反之,若固定MLP仅训练嵌入层,则过拟合立即发生。即使重新初始化MLP参数,也无法阻止OEO;而重新初始化嵌入层参数,则能有效避免性能下降,并使测试性能随轮次稳定提升。 2. 嵌入层在第一轮训练后就已经过拟合。 在增量学习场景下,即使用在数据集D1上训练好的嵌入层作为起点,在数据集D2上进行多轮次学习,同样会发生严重的过拟合。这表明,即使仅训练了一轮,嵌入层参数已经“记住”了训练数据的某些信息,变得“问题化”。 3. 嵌入层过拟合的是嵌入向量的“绝对位置”,而非其“相对关系”。 实验发现,在不同的训练轮次中,最终的嵌入向量在空间中的绝对位置差异很大(余弦相似度低),但由这些不同嵌入向量训练出的MLP却依然能够良好工作,且MLP参数本身在不同轮次间趋于收敛。这揭示了CTR模型MLP层的关键作用:它学习的是一个匹配函数,其关注的重点是不同嵌入向量之间的相对关系(例如,用户兴趣与物品特性如何交互),而非每个嵌入向量在空间中的确切坐标。
基于以上发现,研究者得出结论:OEO的本质是,由于数据的高度稀疏性,嵌入层对每个稀少出现的ID对应的样本产生了“记忆”。当第二轮次遇到相同ID的样本时,这种记忆导致模型迅速过度适应训练集,丧失了泛化能力。而MLP层由于处理的是所有样本聚合后的稠密特征,过拟合风险较低,且具备学习通用“关系模式”的能力。
为了解决OEO问题,研究者提出了多轮次数据增强学习框架。该框架的核心思想是:通过切断嵌入层对已见数据的“记忆”,并将不同初始化嵌入空间视为对MLP层的一种数据增强,从而实现稳定、有效的多轮次学习。
MEDA框架针对两种工业界常见场景设计了具体算法: 1. 非增量MEDA:适用于一次性使用完整数据集训练模型。 * 核心操作:在每一轮训练开始时,随机重新初始化整个嵌入层的参数。MLP层的参数则继承上一轮结束时的状态。 * 工作流程:对于第r轮训练,使用随机初始化的嵌入层Er和继承自第r-1轮的MLP参数θ{r-1}作为起点,在训练集上执行一轮标准训练,得到更新后的嵌入层Ẽ_r和MLP参数θ̃_r。重复此过程k轮。最终使用的模型参数是第k轮训练结束后的结果(θ̃_k, Ẽ_k)。 * 原理与优势:随机初始化确保了新一轮的嵌入层不包含对任何已见样本的“记忆”,从根本上避免了嵌入层过拟合。同时,MLP层在不同轮次中接触的是同一批ID经过不同嵌入空间映射后的特征,这相当于对MLP层进行了数据增强,使其学习更鲁棒的“相对关系”匹配函数。与单轮次学习相比,MEDA并未丢失信息,因为它同样使用了一个只训练一轮的最终嵌入层,但MLP层却获得了更多轮次的训练。
研究者在多个公开数据集和业务数据集上进行了广泛的实验,验证了MEDA的有效性和优越性。
1. 实验设置: * 数据集:公开数据集Amazon和Taobao;业务数据集短视频订单数据集和短视频搜索LTV数据集。 * 模型:在多种主流CTR模型上测试,包括基础的DNN、DIN、DIEN、MIMN、ADFM。 * 基线方法:传统的单轮次学习,以及此前研究中提出的用于缓解OEO的方法,如ID哈希、批量归一化、L2正则化/MBA-Reg等。 * 评价指标:AUC(主要)和损失函数。
2. 主要实验结果: * 彻底解决OEO,性能稳定提升:在所有数据集和模型上,直接进行多轮次学习(不使用MEDA)均在第二轮开始时出现AUC骤降。而MEDA则成功地使测试AUC随着训练轮次的增加而稳定提升,从未出现明显的过拟合下降。 * 显著超越单轮次学习:仅进行2轮MEDA训练,其性能就 consistently 超过了单轮次学习。在公开数据集上,测试AUC的提升幅度从0.8%到4.6%不等。即使在业务大数据集上,也取得了0.24%至0.64%的显著提升。 * 优于现有缓解方法:实验复现并对比了ID哈希、BN、L2正则化等方法。结果表明,这些方法要么在多轮次下依然过拟合,要么为了抑制过拟合而过度限制了模型容量,导致最终性能不如直接的单轮次学习。MEDA在所有对比中均表现最优。 * 数据增强效果验证:研究通过削减训练数据量来模拟冷启动场景。结果显示,MEDA仅用一部分数据,通过多轮次训练,就能达到甚至超过单轮次学习使用全量数据的性能。例如,在Taobao数据集上,ADFM模型使用1/8的数据训练3轮,其AUC就超过了使用全量数据训练1轮的结果。这强有力地证明了MEDA通过改变嵌入空间,为MLP层创造了有效的数据增强。 * MLP收敛性验证:参数分析表明,随着MEDA轮次增加,不同轮次间的MLP参数方向(余弦相似度)越来越接近,证明MLP确实在向一个更优的“匹配函数”收敛。而不同轮次最终的嵌入向量之间绝对位置差异巨大,印证了“相对关系更重要”的假设。 * 在线A/B测试成功:将增量MEDA部署在一个大型工业视频广告平台的排序模块中,进行了为期9天的在线实验。结果表明,相比基线(单轮次学习),MEDA带来了测试AUC提升0.14%、用户留存率提升6.6%、平台收益提升0.91% 的显著业务收益。这标志着MEDA是首个在大规模稀疏模型中解决多轮次学习过拟合问题的、可靠且具备实用价值的方案。
论文还从差分隐私的角度为MEDA的有效性提供了理论支撑。OEO的本质是嵌入层“记忆”了单个数据样本。差分隐私理论可以量化控制从学习参数中获取的关于任何单个输入样本的信息量。
非增量MEDA在每轮开始时将嵌入层完全随机初始化,这等价于在上一轮训练好的嵌入参数上添加了无穷大的噪声。从差分隐私的角度看,这实现了完美的0-差分隐私,意味着新的嵌入参数完全不包含关于上一轮任何特定样本的信息,从而从根本上解决了“记忆”问题。
同时,MEDA的数据增强属性也得到了解释:通过改变嵌入空间的初始化,相当于对分类特征(ID)进行了不同的线性投影,而CTR标签和ID值本身保持不变。对于MLP层而言,输入特征发生了变化但标签不变,这正是数据增强的一种形式。其提高性能的原理类似于模型集成。
本研究首次明确指出并验证了嵌入层过拟合是导致CTR模型单轮次过拟合现象的根本原因,并创新性地提出了MEDA框架作为通用解决方案。MEDA通过重新初始化(非增量)或维护多组嵌入层(增量)来切断嵌入层对数据的记忆,同时将不同嵌入空间下的训练视为对MLP层的数据增强。
本研究的价值和意义体现在: * 科学价值:深化了对深度CTR模型训练动力学的理解,揭示了在高维稀疏数据下,嵌入层与MLP层不同的学习行为与过拟合特性,提出了“相对关系重于绝对位置”的重要见解。 * 方法论创新:提供了首个被验证的、通用的、可靠的多轮次学习策略,打破了CTR领域长期以来“只能训练一轮”的禁忌,为利用多轮次学习的潜在优势打开了大门。 * 应用价值: * 提升模型性能:稳定提升CTR预测精度。 * 降低数据与计算成本:在冷启动或数据受限场景下,用更少的数据通过多轮次MEDA达到同等甚至更好的效果。 * 赋能高级训练技巧:使得依赖多轮次迭代的技术(如无监督领域自适应、标签噪声校正等)在CTR模型中的应用成为可能。 * 已验证的工业实效:成功的在线A/B测试证明了其在真实大规模系统中的有效性与业务价值。