分享自:

自适应任务间融合网络在推荐系统中的多任务学习

期刊:Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '23)DOI:10.1145/3580305.3599769

基于自适应任务间融合网络(AdaTT)的多任务学习推荐系统研究

作者及机构
该研究由Meta AI和Meta Platforms, Inc.的Danwei Li、Zhengyu Zhang、Siyang Yuan、Mingze Gao、Weilin Zhang、Chaofei Yang、Xi Liu和Jiyan Yang共同完成,发表于2023年8月6-10日在美国长滩举行的第29届ACM SIGKDD知识发现与数据挖掘会议(KDD ‘23)论文集。

学术背景
本研究属于机器学习与推荐系统交叉领域,聚焦多任务学习(Multi-Task Learning, MTL)的核心挑战。在推荐系统中,同时优化多个目标任务(如视频观看率、点赞率等)是提升用户体验的关键,但传统MTL方法存在两大瓶颈:
1. 任务间关系建模不足:现有方法(如MMoE、PLE)通过共享专家模块间接传递知识,难以捕捉任务间动态关联;
2. 任务特定知识与共享知识平衡问题:过度共享会导致负迁移(negative transfer),而过度独立则丧失跨任务正则化优势。

为此,作者提出自适应任务间融合网络(Adaptive Task-to-Task Fusion Network, AdaTT),旨在通过多级融合机制显式建模任务间交互,同时保留任务特异性。

研究方法与流程
1. 模型架构设计
- 核心组件
- 任务特定融合单元:每个任务配备独立专家模块(task-specific experts),通过门控机制(gating mechanism)动态融合其他任务的知识
- 共享融合单元(可选):学习跨任务的通用特征表示
- 残差机制:将任务特定学习(NativeExpertLF模块)与共享学习(AllExpertGF模块)解耦,公式为:
math f_t^l(x) = \text{AllExpertGF}_t^l(E^l, G_t^l) + \text{NativeExpertLF}_t^l(E_t^l)
- 多级融合:分层处理不同语义级别的特征,底层捕捉细粒度关联,高层学习抽象模式

  1. 实验设计

    • 数据集
      • 工业级短视频推荐数据集(700亿训练样本+100亿测试样本)
      • 公开基准UCI Census Income Dataset(299285样本)
    • 任务分组
      • 组1:低相关性的消费任务(观看)与参与任务(点赞)
      • 组2:高相关性的双消费任务
      • 组3:5个异构任务(含回归与分类)
    • 基线模型:Shared-Bottom、MMoE、PLE、Cross-Stitch等
    • 评估指标:分类任务用归一化熵(Normalized Entropy, NE),回归任务用MSE
  2. 创新方法

    • 直接任务对任务融合:区别于PLE通过共享专家间接传递知识,AdaTT允许任务间直接交互
    • 分离式融合模块:NativeExpertLF(线性融合)专注任务特定知识,AllExpertGF(门控融合)学习残差共享知识
    • 计算优化:通过零填充实现单矩阵乘法,效率提升显著

主要结果
1. 性能对比
- 在消费+参与任务组中,AdaTT相比Shared-Bottom降低NE达0.526%(消费任务)和0.845%(参与任务),优于PLE的0.482%/0.698%
- 对高相关性任务组,AdaTT仍保持0.487%/0.443%的NE提升,证明其鲁棒性
- 五任务场景下,MSE与NE综合改善幅度达0.664%-0.766%

  1. 消融实验

    • 移除NativeExpertLF模块导致性能下降(NE增加0.107%-0.222%),验证残差设计的必要性
    • 可视化显示:底层融合区分任务类型(消费/参与),高层融合出现知识交叉复用
  2. 超参数研究

    • 专家数量从1增至4时,稀疏任务(如参与)收益更显著(NE改善0.398%)
    • 融合层级增至5层(2048→1024→512→256→128)仍持续提升效果

结论与价值
1. 科学价值
- 提出任务关系建模新范式:通过显式任务对任务交互替代传统共享专家模式
- 理论贡献:证明分离式融合模块对平衡任务特异性与共享知识的有效性

  1. 应用价值
    • 工业部署效果:在Meta短视频推荐中实现点击率与用户停留时长双提升
    • 通用性:在UCI数据集三任务上AUC达0.8744-0.9786,优于基线3%-5%

研究亮点
1. 方法创新性
- 首创新型融合单元结构,兼具门控灵活性与残差稳定性
- 多级融合机制实现层次化知识迁移

  1. 工程突破

    • 单专家场景下通过零padding实现计算优化,支持千亿级数据训练
    • 模块化设计兼容异构任务(分类/回归)
  2. 可解释性

    • 权重可视化揭示:底层区分任务类型,高层实现知识复用,符合认知逻辑

该研究为复杂推荐场景中的多目标优化提供了新思路,其设计原则也可拓展至计算机视觉、自然语言处理等MTL应用领域。代码已开源于GitHub(https://github.com/facebookresearch/adatt),推动行业技术迭代。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com