类型a:学术研究报告
作者及机构
本研究的核心作者包括Shen Jiang、Guanghui Zhu*(通讯作者)、Yue Wang、Chunfeng Yuan和Yihua Huang,均来自南京大学国家软件新技术重点实验室。研究论文《Automatic Multi-Task Learning Framework with Neural Architecture Search in Recommendations》发表于ACM SIGKDD 2024会议(KDD ‘24),会议时间为2024年8月25日至29日,地点为西班牙巴塞罗那。
学术背景
研究领域为推荐系统中的多任务学习(Multi-Task Learning, MTL)。多任务学习通过共享多个任务的知识提升整体性能,但面临“负迁移”(negative transfer)的核心挑战——即任务间相关性低时,共享参数可能导致性能下降。现有MTL模型主要基于混合专家(Mixture-of-Experts, MoE)结构,通过设计专家共享模式和特征选择缓解负迁移,但存在两个局限:1)人工设计的共享模式难以普适不同任务相关性;2)专家子网络架构同质化限制了模型表现。为此,作者提出AutoMTL框架,首次将神经架构搜索(Neural Architecture Search, NAS)引入多任务推荐系统,自动搜索最优专家架构、共享模式和特征选择方案。
研究流程与方法
1. 搜索空间设计
- 双层级搜索空间(DESAN):
- 外层:探索专家共享模式(如跨层连接)和特征选择方案(通过概率激活机制筛选输入特征)。
- 内层:搜索专家子网络的异构架构(如不同层数的MLP或跳跃连接)。
- 模块化设计:包含特征选择模块(集成因子分解机FM进行特征交互)、MoE模块(动态聚合专家输出)和专家模块(通过混合操作块堆叠构建)。
搜索算法(PD-DARTS)
实验验证
主要结果
1. 性能优势
- AutoMTL在全部数据集上平均AUC显著优于基线(如UserBehavior-2017提升0.0019,QB-Video提升0.0065),且对低相关任务(合成数据实验)表现更鲁棒。
- 案例研究显示,搜索出的架构具有异构专家(如混合MLP-16和MLP-1024)和动态共享模式(见图5-8),验证了数据自适应性。
算法效率
消融实验
结论与价值
1. 科学价值
- 首次将NAS与MoE结合,为解决MTL负迁移提供了自动化框架;DESAN搜索空间的理论表达力涵盖现有MoE模型(如MMoE、PLE)。
2. 应用价值
- 开源代码可直接用于工业推荐场景(如短视频多行为预测),搜索出的架构为人工设计提供了新思路(如分层专家共享)。
3. 局限性
- 扩展搜索空间(如加入卷积操作)未显著提升性能,表明当前推荐任务更依赖MLP架构。
研究亮点
1. 方法论创新:PD-DARTS通过渐进离散化解决了NAS在MTL中的训练效率问题。
2. 可解释性:搜索出的架构揭示了任务相关性对专家共享模式的影响(高相关任务偏好共享专家)。
3. 实践指导:案例中发现的“浅层专家+深层任务塔”模式为后续模型设计提供了实证依据。
其他发现
- 专家数量增加(4-12个)对性能影响微弱,说明AutoMTL能自适应调整共享模式以匹配任务需求。