本文档属于类型a,即报告了一项原创性研究。以下是基于文档内容生成的学术报告:
渐进式深度集成架构搜索算法研究
作者与机构
本研究由朱光辉、祁加豪、朱振南、袁春风和黄宜华共同完成。作者单位包括南京大学计算机软件新技术全国重点实验室和南京大学计算机科学与技术系。研究发表于《计算机学报》(Chinese Journal of Computers)第46卷第10期,2023年10月。
学术背景
深度学习(Deep Learning)在图像处理、语音识别和文本分析等领域取得了巨大成功,但其核心模型——深度神经网络(Deep Neural Network, DNN)存在数据需求高、计算开销大、超参数调优难等问题。特别是对于表格型数据,DNN的表现并不总是最优。近年来,深度集成学习模型(如深度森林,Deep Forest)因其无需反向传播训练、计算开销小、模型复杂度自适应确定等优势,逐渐受到学术界和工业界的关注。然而,现有的深度集成模型主要以深度森林为主,架构较为单一,基学习器的数量和集成方式较为固定,难以在不同数据集上均取得优异性能。因此,本研究旨在探索更高效的深度集成学习模型架构设计方法,提出了一种基于代理模型的渐进式深度集成架构搜索算法(Proxy Model-based Progressive Architecture Search, PMPAS)。
研究流程
本研究主要分为以下几个步骤:
1. 深度集成架构的形式化定义
通过对现有深度集成学习模型的分析,研究者首先对深度集成架构进行了形式化定义。深度集成架构由多个基学习器(Base Learner)组成,基学习器从特征空间映射到输出空间,并通过增广算子(Augmentation Operator)将输入数据与基学习器的输出拼接,生成新的数据集。
2. 搜索空间的设计
研究者提出了两种全新的深度集成架构搜索空间:基于完全并行的搜索空间(Fully Parallel Search Space)和基于有向无环图的搜索空间(Directed Acyclic Graph-based Search Space)。完全并行搜索空间中,每一层的基学习器相互独立;有向无环图搜索空间中,每一层的基学习器通过有向无环图连接,形成复杂的集成结构。
3. 渐进式搜索算法的设计
基于上述搜索空间,研究者提出了基于代理模型的渐进式搜索算法。该算法从简单到复杂逐步探索搜索空间,并采用神经网络代理模型(Surrogate Model)指导搜索过程,以降低模型评估的开销。具体而言,算法首先在简单的架构上进行搜索,逐步增加架构的复杂度,并通过代理模型预测候选架构的性能,从而减少实际评估的次数。
4. 算法复杂度分析
研究者从时间复杂度和空间复杂度两个方面对PMPAS算法进行了分析,证明了该算法的高效性。
5. 实验验证
研究者在公开的表格型数据集(包括23个分类数据集和10个回归数据集)上进行了大量实验。实验结果表明,通过PMPAS算法搜索得到的深度集成架构在性能上不仅优于现有的集成学习模型、深度学习模型和以深度森林为代表的深度集成学习模型,还优于现有的自动化模型选择算法(如Auto-Sklearn)。随着时间预算的增加,PMPAS算法的性能优势更加明显。
主要结果
1. 搜索空间设计的有效性
基于完全并行和基于有向无环图的搜索空间能够涵盖多种深度集成架构,为探索新的集成模型提供了基础。
2. 渐进式搜索算法的高效性
渐进式搜索算法通过逐步增加架构复杂度和使用代理模型,显著降低了搜索过程中的计算开销。实验结果表明,该算法能够在较短的时间内找到性能优异的深度集成架构。
3. 实验结果的优越性
在分类和回归任务中,PMPAS算法搜索得到的架构在多个数据集上均取得了最佳性能,证明了该算法在实际应用中的有效性。
结论与意义
本研究提出了一种高效的深度集成架构搜索方法PMPAS,填补了深度集成学习模型自动化搜索领域的空白。通过形式化定义深度集成架构、设计新的搜索空间和提出渐进式搜索算法,研究者为深度集成学习模型的自动化设计提供了新的思路。该研究不仅具有重要的学术价值,还为实际应用中的模型设计提供了高效的工具,特别是在表格型数据的建模任务中具有广泛的应用前景。
研究亮点
1. 首个面向深度集成学习模型的架构搜索方法
PMPAS是首个专门针对深度集成学习模型的自动化架构搜索算法,填补了该领域的研究空白。
2. 创新的搜索空间设计
基于完全并行和基于有向无环图的搜索空间为探索新的深度集成架构提供了灵活的基础。
3. 高效的渐进式搜索算法
渐进式搜索算法通过逐步增加复杂度和使用代理模型,显著降低了搜索过程中的计算开销。
4. 广泛的实验验证
研究者在多个公开数据集上进行了大量实验,验证了PMPAS算法的优越性和普适性。
其他有价值的内容
研究者还开源了PMPAS算法的实现代码,地址为https://github.com/pasalab/pmpas,为其他研究者提供了进一步研究和应用的工具。
以上是本文档的详细学术报告,涵盖了研究的背景、流程、结果、结论及亮点,为相关领域的研究者提供了全面的参考。