多任务学习综述

分享自：
多任务学习综述

期刊:IEEE Transactions on Knowledge and Data Engineering
本文是由Yu Zhang（南方科技大学与鹏城实验室）和Qiang Yang（香港科技大学）共同撰写的一篇综述文章，发表在 ieee transactions on knowledge and data engineering 期刊上。文章的主题是对多任务学习 (Multi-Task Learning, MTL) 这一机器学习范式进行全面的综述，内容覆盖了算法建模、应用和理论分析等多个维度。
文章首先概述了MTL的基本概念。MTL旨在通过联合学习多个相关任务，利用一个任务中包含的有用信息来帮助提高所有任务的泛化性能。其早期的动机之一是缓解数据稀疏问题，即每个任务的标记数据有限，通过聚合所有任务的数据来获得更准确的模型。即使在“大数据”时代，深度MTL模型也常能比单任务学习获得更好的性能，因为它可以利用来自不同任务的更多数据来学习更鲁棒和通用的表示。
文章随后区分了MTL与其他相关学习范式的异同。重点区别了：1) 迁移学习 (Transfer Learning)：MTL平等对待所有任务，旨在共同提升所有任务的性能；而迁移学习侧重于提升特定目标任务的性能，知识流动主要是从源任务到目标任务。2) 多标签学习 (Multi-Label Learning) 与多输出回归 (Multi-Output Regression)：在MTL中，不同任务通常拥有不同的数据，而在多标签学习中，同一数据点关联多个标签，所有任务共享训练和测试数据。3) 多视图学习 (Multi-View Learning)：多视图学习是使用数据的多个特征集来服务于同一个任务的单任务学习，与MTL处理多个不同任务的设定不同。文章通过图示清晰地阐明了这些区别。
在核心的算法建模部分，文章提出了一个系统的分类法，将MTL模型分为五大类别，并详细阐述了每一类的特点。
1. 特征学习方法 (Feature Learning Approach) 这类方法假设不同任务共享一个基于原始特征的共同特征表示。可进一步细分为： * 特征变换方法 (Feature Transformation Approach)：学习到的表示是原始特征的线性或非线性变换。早期代表如多层前馈神经网络，其隐藏层输出可视为任务的共同特征表示。其他方法包括：多任务特征学习 (MTFL) 方法，通过2,1范数正则化学习特征协方差；多任务稀疏编码方法；以及近年来利用深度神经网络学习非线性共同特征的各类深度MTL模型。深度模型又可细分为三类：共享前几层的常见架构；使用对抗学习使学到的特征表示对所有任务不可区分的模型（如对抗性多任务网络）；以及学习不同但相关的特征表示的模型（如交叉缝合网络，Cross-Stitch Network），后者通过学习特征层面的任务关系矩阵来实现知识共享。 * 特征选择方法 (Feature Selection Approach)：从原始特征中选择一个子集作为共同表示。核心思想是利用p,q范数（如2,1范数）实现特征级的组稀疏性，即选择对所有任务都重要的特征。为了获得更稀疏的特征子集，提出了诸如Capped-p,1正则化、多级LASSO等方法。此外，也有利用树状结构先验信息或稀疏先验（如广义马蹄先验）设计的贝叶斯模型来实现特征选择。
2. 低秩方法 (Low-Rank Approach) 该方法的出发点是任务间的相关性会导致任务参数矩阵W具有低秩特性。代表性工作包括：假设任务参数共享一个低秩子空间（Wi = Ui + Θ^T Vi）的模型；以及使用迹范数 (Trace Norm) 作为正则项来直接强制W低秩的凸优化方法。这些方法也被扩展到深度模型中，通过张量迹范数对全连接层的参数张量进行正则化。
3. 任务聚类方法 (Task Clustering Approach) 该方法假设多个任务可以形成若干簇，每个簇内的任务彼此相似。这可以看作是聚类算法在任务层面的扩展。代表性工作包括：基于任务间泛化精度矩阵进行任务分组的早期方法；为任务特定参数分配混合高斯先验的贝叶斯神经网络；利用狄利克雷过程 (Dirichlet Process) 实现非参数化任务聚类的贝叶斯方法；以及在线性模型框架下，通过设计特殊的正则项（如结构稀疏正则化）来诱导任务参数聚类的凸优化方法。一些方法（如基于狄利克雷过程的方法和某些结构稀疏正则化方法）能够自动确定任务簇的数量。此方法可视化强，但通常只能捕捉簇内的正相关性。
4. 任务关系学习方法 (Task Relation Learning Approach) 此类方法旨在从数据中自动学习任务间的定量关系（如相似性、协方差）。早期研究常将任务关系作为先验信息给定。后续研究则聚焦于从数据中学习。代表性方法包括：多任务高斯过程 (MTGP)，通过定义包含任务协方差核函数的先验来学习任务关系；多任务关系学习 (MTRL) 模型，为参数矩阵W赋予矩阵变量正态先验 (W ~ MN(0, I, Ω))，并通过优化同时学习W和任务协方差矩阵Ω；将MTRL扩展至高阶任务关系学习、稀疏任务关系学习以及深度网络（通过张量变量正态先验）的工作；以及在局部学习方法（如k近邻）中学习非对称任务关系的工作。此方法提高了模型的可解释性。
5. 分解方法 (Decomposition Approach) 该方法将参数矩阵W分解为两个或多个组件矩阵之和 (W = Σ W_k)。通过为不同的组件设计不同的正则项（如一个组件稀疏，另一个低秩或列稀疏），可以建模更复杂的任务结构，例如捕获共享特征、识别异常任务、或实现分层任务聚类。此方法可视为其他参数化方法的扩展，具有更强的建模能力，但需要仔细确定组件的数量。
文章接着比较了这些不同方法的特点。特征学习方法学习通用特征，但对异常任务敏感；低秩方法强大但主要适用于线性模型；任务聚类方法直观但可能忽略簇间负相关；任务关系学习方法可解释性强；分解方法建模能力最强但更复杂。
文章还介绍了常用的MTL基准数据集（如School, Sarcos, Sentiment, Landmine等），并通过表格对比了各类方法在代表性数据集上的性能。实验结果表明，MTL模型在大多数情况下优于单任务学习，验证了MTL的有效性。不同数据集因其内在结构（如是否存在明显的任务簇）而适用于不同的MTL方法。对于图像数据集，深度MTL模型因其强大的特征学习能力表现更佳。
为了从另一个角度理解MTL，文章提出了基于正则化方法的另一种分类法： * 基于特征协方差的学习：统一形式为 min L(W,b) + λ/2 tr(W^T Θ^{-1} W) + f(Θ)，其中Θ建模特征间的协方差。 * 基于任务关系的学习：统一形式为 min L(W,b) + λ/2 tr(W Ω^{-1} W^T) + g(Ω)，其中Ω建模任务间的关系。 这个分类框架有助于更深入地理解许多正则化MTL模型的内在联系。
文章还探讨了MTL的其他设置，如异构特征MTL（任务特征空间不同）、将多分类任务纳入MTL框架的方法（如转化为二分类、利用线性判别分析、学习标签对应关系或使用张量建模），以及处理多模态（张量）数据的方法。
在优化技术方面，文章总结了用于求解MTL模型的三大类方法：梯度下降法及其变种（如用于深度模型的随机梯度下降、梯度归一化GradNorm、梯度手术Gradient Surgery）、块坐标下降法 (Block Coordinate Descent, BCD)（常用于交替优化任务参数和关系参数）以及近端方法 (Proximal Method)（用于处理非光滑目标函数，可加速收敛或便于分布式计算）。
文章在最后一部分简要概述了MTL与其他学习范式的结合，以利用额外信息（如未标记数据）或提升其他范式的性能，包括半监督学习、主动学习、无监督学习、强化学习、多视图学习和图模型。
本文作为一篇全面的MTL综述，其重要价值和意义在于： 1. 系统性与结构性：首次从算法建模的角度，为纷繁复杂的MTL方法提出了一个清晰、系统、结构化的五大分类法（特征学习、低秩、任务聚类、任务关系学习、分解），并详细阐述了每一类的原理、代表性工作和演进关系，为研究者和实践者提供了极佳的“地图”和导航。 2. 深度与广度兼备：不仅覆盖了经典的浅层模型，也深入探讨了前沿的深度MTL模型及其细分类型（如对抗学习、交叉缝合网络）。同时，将视角扩展到理论分析、优化技术、基准数据集、性能比较、与其他范式的区别和融合等多个维度，构建了关于MTL的完整知识体系。 3. 深刻的洞察与比较：文章不仅罗列方法，更对各类方法的特性、优缺点、适用场景进行了精辟的比较和分析。提出的基于特征协方差和任务关系的统一正则化框架，揭示了不同模型深层次的联系，具有理论洞察力。 4. 实践指导性：通过展示不同方法在多样化的基准数据集上的性能对比，为读者根据具体问题选择合适模型提供了实证参考。对优化技术的总结也极具实用价值。 5. 前瞻性：文章在综述现有工作的基础上，也指出了未来可能的研究方向，如更灵活的任务关系建模、理论与方法的进一步结合、在更大规模和更复杂场景下的应用等，对推动领域发展具有启发性。
总而言之，这篇综述是MTL领域里程碑式的文献，它系统性地梳理、归纳并深化了对MTL领域的理解，既是初学者的优秀入门指南，也是资深研究者不可或缺的参考手册，对推动多任务学习理论的发展和应用实践的深入具有重要价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问