基于神经架构搜索的自动多任务学习框架在推荐系统中的应用

分享自：

基于神经架构搜索的自动多任务学习框架在推荐系统中的应用

期刊:Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24)DOI:10.1145/3637528.3671715

【点击此处】阅读全文、收藏及针对性提问

类型a：学术研究报告
作者及机构
 本研究的核心作者包括Shen Jiang、Guanghui Zhu*（通讯作者）、Yue Wang、Chunfeng Yuan和Yihua Huang，均来自南京大学国家软件新技术重点实验室。研究论文《Automatic Multi-Task Learning Framework with Neural Architecture Search in Recommendations》发表于ACM SIGKDD 2024会议（KDD ‘24），会议时间为2024年8月25日至29日，地点为西班牙巴塞罗那。
学术背景
 研究领域为推荐系统中的多任务学习（Multi-Task Learning, MTL）。多任务学习通过共享多个任务的知识提升整体性能，但面临“负迁移”（negative transfer）的核心挑战——即任务间相关性低时，共享参数可能导致性能下降。现有MTL模型主要基于混合专家（Mixture-of-Experts, MoE）结构，通过设计专家共享模式和特征选择缓解负迁移，但存在两个局限：1）人工设计的共享模式难以普适不同任务相关性；2）专家子网络架构同质化限制了模型表现。为此，作者提出AutoMTL框架，首次将神经架构搜索（Neural Architecture Search, NAS）引入多任务推荐系统，自动搜索最优专家架构、共享模式和特征选择方案。
研究流程与方法
 1. 搜索空间设计
 - 双层级搜索空间（DESAN）：
 - 外层：探索专家共享模式（如跨层连接）和特征选择方案（通过概率激活机制筛选输入特征）。
 - 内层：搜索专家子网络的异构架构（如不同层数的MLP或跳跃连接）。
 - 模块化设计：包含特征选择模块（集成因子分解机FM进行特征交互）、MoE模块（动态聚合专家输出）和专家模块（通过混合操作块堆叠构建）。
搜索算法（PD-DARTS）
渐进离散化策略：在搜索过程中逐步固定架构参数（如选择概率最高的操作或连接），避免传统NAS需重新训练子网络的开销。
 
单层优化：采用单级优化联合训练超网权重和架构参数，提升效率与稳定性。
 
概率激活机制：通过Sigmoid函数控制专家或特征的激活概率，利用直通估计器（Straight-Through Estimator）计算梯度。
 
实验验证
数据集：覆盖5个公开推荐数据集（如UserBehavior-2017、AliCCP），任务数2-7个，样本量从52万至8531万。
 
基线模型：对比Shared-Bottom、MMoE、PLE等6种MTL模型，以AUC为主要指标。
 
实现细节：专家子网络候选操作包括MLP（16-1024维）、跳跃连接等；嵌入维度16-32；超网训练采用多任务损失加权和。
 
主要结果
 1. 性能优势
 - AutoMTL在全部数据集上平均AUC显著优于基线（如UserBehavior-2017提升0.0019，QB-Video提升0.0065），且对低相关任务（合成数据实验）表现更鲁棒。
 - 案例研究显示，搜索出的架构具有异构专家（如混合MLP-16和MLP-1024）和动态共享模式（见图5-8），验证了数据自适应性。
算法效率
PD-DARTS的搜索耗时与训练单个模型相当（GPU小时级），渐进离散化策略减少40%训练时间。
 
消融实验
移除特征选择模块（w/o FS）导致AUC下降0.002-0.015，证实其缓解负迁移的作用；异构专家架构（vs 同质）提升性能0.003-0.008。
 
结论与价值
 1. 科学价值
 - 首次将NAS与MoE结合，为解决MTL负迁移提供了自动化框架；DESAN搜索空间的理论表达力涵盖现有MoE模型（如MMoE、PLE）。
 2. 应用价值
 - 开源代码可直接用于工业推荐场景（如短视频多行为预测），搜索出的架构为人工设计提供了新思路（如分层专家共享）。
 3. 局限性
 - 扩展搜索空间（如加入卷积操作）未显著提升性能，表明当前推荐任务更依赖MLP架构。
研究亮点
 1. 方法论创新：PD-DARTS通过渐进离散化解决了NAS在MTL中的训练效率问题。
 2. 可解释性：搜索出的架构揭示了任务相关性对专家共享模式的影响（高相关任务偏好共享专家）。
 3. 实践指导：案例中发现的“浅层专家+深层任务塔”模式为后续模型设计提供了实证依据。
其他发现
 - 专家数量增加（4-12个）对性能影响微弱，说明AutoMTL能自适应调整共享模式以匹配任务需求。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问