分享自:

基于神经架构搜索的自动多任务学习框架在推荐系统中的应用

期刊:Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24)DOI:10.1145/3637528.3671715

类型a:学术研究报告

作者及机构
本研究的核心作者包括Shen Jiang、Guanghui Zhu*(通讯作者)、Yue Wang、Chunfeng Yuan和Yihua Huang,均来自南京大学国家软件新技术重点实验室。研究论文《Automatic Multi-Task Learning Framework with Neural Architecture Search in Recommendations》发表于ACM SIGKDD 2024会议(KDD ‘24),会议时间为2024年8月25日至29日,地点为西班牙巴塞罗那。

学术背景
研究领域为推荐系统中的多任务学习(Multi-Task Learning, MTL)。多任务学习通过共享多个任务的知识提升整体性能,但面临“负迁移”(negative transfer)的核心挑战——即任务间相关性低时,共享参数可能导致性能下降。现有MTL模型主要基于混合专家(Mixture-of-Experts, MoE)结构,通过设计专家共享模式和特征选择缓解负迁移,但存在两个局限:1)人工设计的共享模式难以普适不同任务相关性;2)专家子网络架构同质化限制了模型表现。为此,作者提出AutoMTL框架,首次将神经架构搜索(Neural Architecture Search, NAS)引入多任务推荐系统,自动搜索最优专家架构、共享模式和特征选择方案。

研究流程与方法
1. 搜索空间设计
- 双层级搜索空间(DESAN)
- 外层:探索专家共享模式(如跨层连接)和特征选择方案(通过概率激活机制筛选输入特征)。
- 内层:搜索专家子网络的异构架构(如不同层数的MLP或跳跃连接)。
- 模块化设计:包含特征选择模块(集成因子分解机FM进行特征交互)、MoE模块(动态聚合专家输出)和专家模块(通过混合操作块堆叠构建)。

  1. 搜索算法(PD-DARTS)

    • 渐进离散化策略:在搜索过程中逐步固定架构参数(如选择概率最高的操作或连接),避免传统NAS需重新训练子网络的开销。
    • 单层优化:采用单级优化联合训练超网权重和架构参数,提升效率与稳定性。
    • 概率激活机制:通过Sigmoid函数控制专家或特征的激活概率,利用直通估计器(Straight-Through Estimator)计算梯度。
  2. 实验验证

    • 数据集:覆盖5个公开推荐数据集(如UserBehavior-2017、AliCCP),任务数2-7个,样本量从52万至8531万。
    • 基线模型:对比Shared-Bottom、MMoE、PLE等6种MTL模型,以AUC为主要指标。
    • 实现细节:专家子网络候选操作包括MLP(16-1024维)、跳跃连接等;嵌入维度16-32;超网训练采用多任务损失加权和。

主要结果
1. 性能优势
- AutoMTL在全部数据集上平均AUC显著优于基线(如UserBehavior-2017提升0.0019,QB-Video提升0.0065),且对低相关任务(合成数据实验)表现更鲁棒。
- 案例研究显示,搜索出的架构具有异构专家(如混合MLP-16和MLP-1024)和动态共享模式(见图5-8),验证了数据自适应性。

  1. 算法效率

    • PD-DARTS的搜索耗时与训练单个模型相当(GPU小时级),渐进离散化策略减少40%训练时间。
  2. 消融实验

    • 移除特征选择模块(w/o FS)导致AUC下降0.002-0.015,证实其缓解负迁移的作用;异构专家架构(vs 同质)提升性能0.003-0.008。

结论与价值
1. 科学价值
- 首次将NAS与MoE结合,为解决MTL负迁移提供了自动化框架;DESAN搜索空间的理论表达力涵盖现有MoE模型(如MMoE、PLE)。
2. 应用价值
- 开源代码可直接用于工业推荐场景(如短视频多行为预测),搜索出的架构为人工设计提供了新思路(如分层专家共享)。
3. 局限性
- 扩展搜索空间(如加入卷积操作)未显著提升性能,表明当前推荐任务更依赖MLP架构。

研究亮点
1. 方法论创新:PD-DARTS通过渐进离散化解决了NAS在MTL中的训练效率问题。
2. 可解释性:搜索出的架构揭示了任务相关性对专家共享模式的影响(高相关任务偏好共享专家)。
3. 实践指导:案例中发现的“浅层专家+深层任务塔”模式为后续模型设计提供了实证依据。

其他发现
- 专家数量增加(4-12个)对性能影响微弱,说明AutoMTL能自适应调整共享模式以匹配任务需求。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com