作者及机构
该研究由Meta AI和Meta Platforms, Inc.的Danwei Li、Zhengyu Zhang、Siyang Yuan、Mingze Gao、Weilin Zhang、Chaofei Yang、Xi Liu和Jiyan Yang共同完成,发表于2023年8月6-10日在美国长滩举行的第29届ACM SIGKDD知识发现与数据挖掘会议(KDD ‘23)论文集。
学术背景
本研究属于机器学习与推荐系统交叉领域,聚焦多任务学习(Multi-Task Learning, MTL)的核心挑战。在推荐系统中,同时优化多个目标任务(如视频观看率、点赞率等)是提升用户体验的关键,但传统MTL方法存在两大瓶颈:
1. 任务间关系建模不足:现有方法(如MMoE、PLE)通过共享专家模块间接传递知识,难以捕捉任务间动态关联;
2. 任务特定知识与共享知识平衡问题:过度共享会导致负迁移(negative transfer),而过度独立则丧失跨任务正则化优势。
为此,作者提出自适应任务间融合网络(Adaptive Task-to-Task Fusion Network, AdaTT),旨在通过多级融合机制显式建模任务间交互,同时保留任务特异性。
研究方法与流程
1. 模型架构设计
- 核心组件:
- 任务特定融合单元:每个任务配备独立专家模块(task-specific experts),通过门控机制(gating mechanism)动态融合其他任务的知识
- 共享融合单元(可选):学习跨任务的通用特征表示
- 残差机制:将任务特定学习(NativeExpertLF模块)与共享学习(AllExpertGF模块)解耦,公式为:
math f_t^l(x) = \text{AllExpertGF}_t^l(E^l, G_t^l) + \text{NativeExpertLF}_t^l(E_t^l)
- 多级融合:分层处理不同语义级别的特征,底层捕捉细粒度关联,高层学习抽象模式
实验设计
创新方法
主要结果
1. 性能对比
- 在消费+参与任务组中,AdaTT相比Shared-Bottom降低NE达0.526%(消费任务)和0.845%(参与任务),优于PLE的0.482%/0.698%
- 对高相关性任务组,AdaTT仍保持0.487%/0.443%的NE提升,证明其鲁棒性
- 五任务场景下,MSE与NE综合改善幅度达0.664%-0.766%
消融实验
超参数研究
结论与价值
1. 科学价值
- 提出任务关系建模新范式:通过显式任务对任务交互替代传统共享专家模式
- 理论贡献:证明分离式融合模块对平衡任务特异性与共享知识的有效性
研究亮点
1. 方法创新性
- 首创新型融合单元结构,兼具门控灵活性与残差稳定性
- 多级融合机制实现层次化知识迁移
工程突破
可解释性
该研究为复杂推荐场景中的多目标优化提供了新思路,其设计原则也可拓展至计算机视觉、自然语言处理等MTL应用领域。代码已开源于GitHub(https://github.com/facebookresearch/adatt),推动行业技术迭代。