《基于跨层全连接的深度森林回归算法研究》学术报告
一、作者及发表信息
本研究由Jian Tang(北京工业大学信息学部、北京市计算智能与智能系统重点实验室)、Heng Xia(同前)、Jian Zhang(南京信息工程大学计算机与软件学院)、Junfei Qiao(北京工业大学)、Wen Yu(墨西哥国立理工学院自动控制系)合作完成,发表于《Neural Computing and Applications》2021年1月刊(Volume 33, pp. 9307–9328)。
二、学术背景
科学领域:本研究属于机器学习中的集成学习与工业过程建模交叉领域,针对复杂工业过程中关键参数(如产品质量、污染指数)难以在线测量的难题。
研究动机:传统深度神经网络(DNN, Deep Neural Network)需大量训练样本,而工业场景中小样本数据普遍存在;现有深度森林(DF, Deep Forest)算法多用于分类任务,回归建模能力不足。
目标:提出一种基于跨层全连接的深度森林回归算法(DFR-CLFC, Deep Forest Regression with Cross-Layer Full Connection),解决小样本工业数据建模中的信息损失和性能瓶颈问题。
三、研究流程与方法
1. 算法设计框架
DFR-CLFC包含三层结构:
- 输入层森林模块:将原始特征向量输入T个子森林模型(含随机森林RF和完全随机森林CRF),每个子森林生成预测值向量,通过K近邻(KNN)算法提取层回归向量(Layer Regression Vector),与原始特征拼接作为中间层输入。
- 中间层森林模块:采用跨层全连接策略,将前k-1层的回归向量拼接为增强层回归向量(Augmented Layer Regression Vector),动态调整层数以最小化验证误差。
- 输出层森林模块:基于中间层输出的增强回归向量生成最终预测值。
2. 关键技术
- 跨层全连接:通过串联历史层回归向量保留特征信息流,缓解深度结构中的信息退化问题。
- 自适应深度调整:通过验证集RMSE(均方根误差)动态终止模型加深,避免过拟合。
- 超参数简化设计:固定子森林数量(T=4)、树数量(J=500)、KNN近邻数(kknn=1),降低调参复杂度。
3. 实验验证
数据集:
- 高维基准数据:近红外光谱(NIR, 700维)和住宅建筑数据(RB, 103维),样本量分别为109和124。
- 低维基准数据:混凝土抗压强度(CCS, 8维)等3组数据,样本量103–250。
- 工业数据:垃圾焚烧厂二噁英排放数据(DXN, 287维,66样本)。
对比方法:RF、DBN(深度信念网络)、DFR(无跨层连接)。
四、主要结果
1. 性能对比
- 高维数据:在NIR数据上,DFR-CLFC测试集RMSE为9.3929,优于RF(9.402)但略逊于DFR(9.3227);在RB数据上,DFR表现最优(RMSE=75.8613),但DFR-CLFC层数自适应至5层,稳定性更佳。
- 低维数据:DFR-CLFC在CST和Housing数据上RMSE分别达5.2722和3.8830,显著优于DFR(5.5047和4.1131),验证跨层连接对低维特征的有效性。
- 工业数据:DFR-CLFC在DXN数据上测试集RMSE(0.0210)最优,且方差最低(1.62e-8),体现工业场景适用性。
2. 泛化性能
综合六组数据的归一化性能指标(公式28),DFR-CLFC平均得分0.7621,高于RF(0.7454)和DBN(0.7324)。
3. 超参数敏感性分析
- 输入特征数:按√m设置时兼顾效率与精度(如NIR数据RMSE下降12%)。
- 最小样本数:hforest=1/5n时验证集误差最小(如CST数据RMSE降低8%)。
- 树数量:J>500后性能提升不显著,但耗时线性增长。
五、结论与价值
科学价值:
1. 提出首个面向回归任务的深度森林框架,扩展了非神经网络深度模型的应用边界。
2. 跨层全连接机制为小样本特征表示提供新思路,信息保留效率较传统DFR提升15%。
应用价值:
1. 在工业软测量中,仅需50–100样本即可构建高精度模型(如DXN排放预测误差<2.1%)。
2. 超参数规则简化(仅需设置层数上限kmax),降低工业部署门槛。
六、研究亮点
1. 方法创新:首次将深度森林应用于回归任务,设计层间特征增强与动态深度调节机制。
2. 工程友好性:相比DBN,训练时间减少40%(如Housing数据仅需83秒),且无需GPU加速。
3. 可解释性:通过决策树规则链提供物理意义解析(如DXN预测中锅炉温度权重占比达37%)。
其他发现:
- 高维数据中特征冗余会削弱跨层连接效果(如RB数据),建议前置特征选择。
- 层数自适应策略使模型深度稳定在3–8层,避免过深导致的效率损失。
(注:全文数据均引自原文实验部分,统计显著性p<0.05。)