基于神经架构搜索的自动多任务学习框架在推荐系统中的应用

分享自：
基于神经架构搜索的自动多任务学习框架在推荐系统中的应用

期刊:Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24)DOI:10.1145/3637528.3671715
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
基于神经架构搜索的自动多任务学习框架在推荐系统中的应用研究
一、作者与发表信息
 本研究由南京大学软件新技术国家重点实验室的Shen Jiang、Guanghui Zhu*（通讯作者）、Yue Wang、Chunfeng Yuan和Yihua Huang合作完成，发表于ACM SIGKDD国际知识发现与数据挖掘会议（KDD ‘24），会议时间为2024年8月25日至29日，地点为西班牙巴塞罗那。论文标题为《Automatic Multi-Task Learning Framework with Neural Architecture Search in Recommendations》。
二、学术背景与研究目标
 研究领域为多任务学习（Multi-Task Learning, MTL）在推荐系统中的应用。多任务学习通过共享任务间的知识提升整体性能，但面临负迁移（Negative Transfer）的挑战——即任务间相关性不足时，共享参数可能导致性能下降。现有方法（如基于混合专家（Mixture-of-Experts, MoE）的模型）依赖人工设计专家共享模式和特征选择方案，但单一共享模式难以适应不同数据集和任务的复杂关联。此外，同质化的专家架构进一步限制了模型性能。
本研究提出AutoMTL框架，通过神经架构搜索（Neural Architecture Search, NAS）自动设计最优的专家子网络架构、共享模式和特征选择方案，旨在解决以下问题：
 1. 如何动态适应不同任务间的复杂相关性；
 2. 如何通过异构专家架构提升模型表达能力；
 3. 如何高效搜索大规模推荐场景下的多任务模型结构。
三、研究流程与方法
 研究分为四个核心步骤：
搜索空间设计（DESAN）
双层级搜索空间：外层探索专家共享模式和特征选择方案，内层优化专家子网络架构。
 
模块化设计：
 特征选择模块：通过概率激活机制（概率由Sigmoid函数生成）筛选任务相关特征，并引入因子分解机（Factorization Machine, FM）生成交互特征。
 
混合专家模块（MoE）：动态聚合专家输出，门控网络（Gating Network）权重由任务相关性决定。
 
专家模块：每个专家子网络由混合操作块（Mixture-of-Operations Block）堆叠而成，候选操作包括跳连（Skip-Connection）、线性层和不同规模的MLP（如MLP-16至MLP-1024）。
 
搜索算法（PD-DARTS）
渐进离散化策略：在搜索过程中逐步冻结高置信度的架构参数（通过归一化熵评估），避免重训练开销。
 
单层优化：联合优化超级网络权重和架构参数，相比DARTS的双层优化更高效稳定。
 
概率激活机制：专家共享模式和特征选择通过伯努利采样实现，梯度估计采用直通估计器（Straight-Through Estimator, STE）。
 
实验验证
数据集：在五个公开推荐数据集（如AliCCP、KuaiRand-Pure）上测试，涵盖2-7个任务，样本量从8.5万至8500万。
 
基线模型：对比Shared-Bottom、MMoE、PLE等人工设计模型，以及SNR、AESM2等NAS方法。
 
评估指标：以各任务的AUC（Area Under Curve）和平均AUC为主，0.001级提升视为显著。
 
架构分析与案例研究
通过可视化搜索得到的架构（如图5-8），分析不同数据集的专家共享模式和子网络异构性。例如，KuaiRand-Pure数据集的专家包含MLP-1024和线性层，而AliCCP偏好轻量级MLP-16。
 
四、主要结果与逻辑链条
 1. 性能优势：AutoMTL在全部数据集上平均AUC超越最优基线（如AliCCP提升0.6398 vs. 0.6333），证明NAS设计的架构能自适应任务相关性。
 2. 消融实验：
 - 移除特征选择模块（w/o FS）导致平均AUC下降1.3%，验证了任务特定特征的重要性；
 - 强制专家同质化（hom.exp）使性能降低2.1%，凸显异构架构的价值。
 3. 效率分析：PD-DARTS的搜索耗时与训练单个模型相当（GPU小时级），适合工业级推荐系统。
 4. 负迁移缓解：在合成数据上，任务相关性为0时，AutoMTL的MSE（0.1218）显著低于MMoE（0.5043），表明其鲁棒性。
五、结论与价值
 1. 科学价值：
 - 提出首个面向多任务推荐的NAS框架，解决了共享模式与架构设计的耦合问题；
 - 证明渐进离散化和单层优化在NAS中的有效性。
 2. 应用价值：
 - 为推荐系统提供自动化建模工具，减少人工调参成本；
 - 搜索得到的架构（如分层专家共享）可指导人工模型设计。
六、研究亮点
 1. 创新性方法：DESAN搜索空间首次统一了专家共享模式、特征选择和异构架构搜索；
 2. 高效算法：PD-DARTS通过渐进离散化将搜索效率提升一个数量级；
 3. 可解释性：案例研究揭示了数据特性与架构选择的关系（如高相关性任务偏好共享专家）。
七、其他贡献
 - 开源代码（GitHub）和公开数据集（如QB-Video）促进社区复现；
 - 扩展实验证明搜索空间可兼容卷积等操作，为跨领域应用提供可能。
此报告全面涵盖了研究的背景、方法、结果与意义，适合学术界和工业界读者理解其创新性与实用性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问