分享自:

基于神经架构搜索的自动多任务学习框架在推荐系统中的应用

期刊:Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24)DOI:10.1145/3637528.3671715

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于神经架构搜索的自动多任务学习框架在推荐系统中的应用研究

一、作者与发表信息
本研究由南京大学软件新技术国家重点实验室的Shen Jiang、Guanghui Zhu*(通讯作者)、Yue Wang、Chunfeng Yuan和Yihua Huang合作完成,发表于ACM SIGKDD国际知识发现与数据挖掘会议(KDD ‘24),会议时间为2024年8月25日至29日,地点为西班牙巴塞罗那。论文标题为《Automatic Multi-Task Learning Framework with Neural Architecture Search in Recommendations》。

二、学术背景与研究目标
研究领域为多任务学习(Multi-Task Learning, MTL)在推荐系统中的应用。多任务学习通过共享任务间的知识提升整体性能,但面临负迁移(Negative Transfer)的挑战——即任务间相关性不足时,共享参数可能导致性能下降。现有方法(如基于混合专家(Mixture-of-Experts, MoE)的模型)依赖人工设计专家共享模式和特征选择方案,但单一共享模式难以适应不同数据集和任务的复杂关联。此外,同质化的专家架构进一步限制了模型性能。

本研究提出AutoMTL框架,通过神经架构搜索(Neural Architecture Search, NAS)自动设计最优的专家子网络架构、共享模式和特征选择方案,旨在解决以下问题:
1. 如何动态适应不同任务间的复杂相关性;
2. 如何通过异构专家架构提升模型表达能力;
3. 如何高效搜索大规模推荐场景下的多任务模型结构。

三、研究流程与方法
研究分为四个核心步骤:

  1. 搜索空间设计(DESAN)

    • 双层级搜索空间:外层探索专家共享模式和特征选择方案,内层优化专家子网络架构。
    • 模块化设计
      • 特征选择模块:通过概率激活机制(概率由Sigmoid函数生成)筛选任务相关特征,并引入因子分解机(Factorization Machine, FM)生成交互特征。
      • 混合专家模块(MoE):动态聚合专家输出,门控网络(Gating Network)权重由任务相关性决定。
      • 专家模块:每个专家子网络由混合操作块(Mixture-of-Operations Block)堆叠而成,候选操作包括跳连(Skip-Connection)、线性层和不同规模的MLP(如MLP-16至MLP-1024)。
  2. 搜索算法(PD-DARTS)

    • 渐进离散化策略:在搜索过程中逐步冻结高置信度的架构参数(通过归一化熵评估),避免重训练开销。
    • 单层优化:联合优化超级网络权重和架构参数,相比DARTS的双层优化更高效稳定。
    • 概率激活机制:专家共享模式和特征选择通过伯努利采样实现,梯度估计采用直通估计器(Straight-Through Estimator, STE)。
  3. 实验验证

    • 数据集:在五个公开推荐数据集(如AliCCP、KuaiRand-Pure)上测试,涵盖2-7个任务,样本量从8.5万至8500万。
    • 基线模型:对比Shared-Bottom、MMoE、PLE等人工设计模型,以及SNR、AESM2等NAS方法。
    • 评估指标:以各任务的AUC(Area Under Curve)和平均AUC为主,0.001级提升视为显著。
  4. 架构分析与案例研究

    • 通过可视化搜索得到的架构(如图5-8),分析不同数据集的专家共享模式和子网络异构性。例如,KuaiRand-Pure数据集的专家包含MLP-1024和线性层,而AliCCP偏好轻量级MLP-16。

四、主要结果与逻辑链条
1. 性能优势:AutoMTL在全部数据集上平均AUC超越最优基线(如AliCCP提升0.6398 vs. 0.6333),证明NAS设计的架构能自适应任务相关性。
2. 消融实验
- 移除特征选择模块(w/o FS)导致平均AUC下降1.3%,验证了任务特定特征的重要性;
- 强制专家同质化(hom.exp)使性能降低2.1%,凸显异构架构的价值。
3. 效率分析:PD-DARTS的搜索耗时与训练单个模型相当(GPU小时级),适合工业级推荐系统。
4. 负迁移缓解:在合成数据上,任务相关性为0时,AutoMTL的MSE(0.1218)显著低于MMoE(0.5043),表明其鲁棒性。

五、结论与价值
1. 科学价值
- 提出首个面向多任务推荐的NAS框架,解决了共享模式与架构设计的耦合问题;
- 证明渐进离散化和单层优化在NAS中的有效性。
2. 应用价值
- 为推荐系统提供自动化建模工具,减少人工调参成本;
- 搜索得到的架构(如分层专家共享)可指导人工模型设计。

六、研究亮点
1. 创新性方法:DESAN搜索空间首次统一了专家共享模式、特征选择和异构架构搜索;
2. 高效算法:PD-DARTS通过渐进离散化将搜索效率提升一个数量级;
3. 可解释性:案例研究揭示了数据特性与架构选择的关系(如高相关性任务偏好共享专家)。

七、其他贡献
- 开源代码(GitHub)和公开数据集(如QB-Video)促进社区复现;
- 扩展实验证明搜索空间可兼容卷积等操作,为跨领域应用提供可能。


此报告全面涵盖了研究的背景、方法、结果与意义,适合学术界和工业界读者理解其创新性与实用性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com