基于深度森林回归算法的二噁英排放浓度软测量方法研究
一、研究团队与发表信息
本研究由北京工业大学信息学部的Tang Jian、Xia Heng*(通讯作者)、Qiao Junfei和Guo Zihao合作完成,研究团队同时隶属于”北京计算智能与智能系统重点实验室”和”北京智能环保实验室”。研究成果发表于2021年的国际期刊*Int. J. System Control and Information Processing*(Vol. 3, No. 3, pp.208–228)。
二、学术背景与研究动机
科学领域:本研究属于环境工程与人工智能交叉领域,聚焦于城市固体废弃物焚烧(MSWI)过程中的污染物监测技术。
研究背景:
1. 现实需求:二噁英(DXN)是MSWI过程中产生的高毒性有机污染物,传统检测依赖离线实验室分析(每月/季度一次),存在高成本、长周期、实时性差等问题,无法满足焚烧过程优化控制的实时数据需求。
2. 技术瓶颈:现有DXN在线间接检测方法(如通过关联物质映射)需昂贵设备且仍依赖离线标定;传统数据驱动模型(如神经网络)在小样本、高维数据下易陷入局部最优或过拟合。
3. 理论空白:深度森林(Deep Forest, DF)算法此前仅用于分类任务,回归问题的深度森林算法(DFR)尚未开发。
研究目标:
提出一种基于非神经网络模式的深度森林回归算法(DFR),构建DXN排放浓度的软测量模型,实现高精度实时预测,为焚烧过程优化控制提供数据支持。
三、研究方法与技术流程
核心创新:
1. 将DF分类树改造为回归树,提出三层DFR架构(输入层、中间层、输出层)。
2. 引入层回归向量(Layer Regression Vector)和增强层回归向量(Augmented Layer Regression Vector)实现特征跨层传递。
3. 通过验证误差自适应调整中间层深度,解决小样本数据下的模型复杂度控制问题。
详细工作流程:
1. 输入层森林模型
- 数据预处理:对训练集进行Bootstrap抽样和随机子空间方法(RSM)采样,生成多个子训练集(特征数(m_j \ll m))。
- 子森林构建:每个子训练集训练一个由随机森林(RF)和完全随机森林(CRF)组成的混合模型,共构建4个子森林模型。
- 特征增强:将各子森林预测均值串联为层回归向量,与原始特征集拼接形成增强层回归向量,作为中间层输入。
2. 中间层森林模型(自适应深度调节)
- 逐层训练:每层森林以上一层的增强回归向量为输入,采用与输入层相同的子森林构建方法。
- 深度控制:计算每层模型在验证集上的RMSE误差,当误差不再下降或达到预设最大层数((k=50))时终止训练。实验中DXN数据最优中间层数为3层。
3. 输出层森林模型
- 将最终中间层的增强回归向量输入输出层,通过4个子森林的预测均值加权平均得到DXN浓度预测值。
关键算法:
- 回归树生成准则:基于最小化区域方差选择最优分割特征(公式2)。
- 自适应深度调整:通过验证集误差(e_k^{\text{rmse}})动态控制模型复杂度(公式14)。
四、实验结果与验证
1. 基准数据测试(混凝土抗压强度数据集)
- 参数优化:通过网格搜索确定最优超参数((mj=8), (j=500), (\theta{\text{forest}}=10))。
- 性能对比:DFR的测试集RMSE(5.9825)显著优于RF(6.0188)、CRF(10.2828)和深度置信网络DBN(11.3083)。
2. 实际DXN数据验证(北京某MSWI厂6年数据)
- 数据特性:67个样本、287维特征,呈现高维小样本特性。
- 关键结果:
- 最优参数组合:(mj=47), (j=350), (\theta{\text{forest}}=4)。
- 测试集RMSE:DFR(0.0203)优于RF(0.0206)和CRF(0.0218),且未出现DBN的过拟合现象(DBN训练误差0.0047但测试误差0.0229)。
- 预测曲线:DFR在测试集上与实际值吻合度最高(图10)。
五、研究结论与价值
科学价值:
1. 首次实现深度森林在回归问题的应用,提出DFR算法框架,为小样本高维数据建模提供新思路。
2. 通过层间特征增强和自适应深度调节,解决了传统深度学习方法在小样本场景下的过拟合问题。
应用价值:
1. 为MSWI过程提供实时DXN浓度预测工具,检测周期从月级缩短至分钟级。
2. 模型已在北京实际焚烧厂验证,支持环保部门动态监管污染物排放。
工程意义:
1. 相比传统仪器检测(如气相色谱-质谱联用),软测量方法成本降低90%以上。
2. 模型可扩展至其他难测参数(如重金属排放)的在线监测。
六、研究亮点
1. 方法创新:将深度森林从分类扩展到回归领域,提出DFR的三层架构和特征传递机制。
2. 技术突破:通过Bootstrap-RSM采样组合和自适应深度控制,在67样本的小数据集上实现稳定建模。
3. 跨学科应用:首次将深度森林算法应用于环境工程领域的污染物监测场景。
资助信息:国家自然科学基金(62073006等)、北京市自然科学基金(4212032)、国家重点研发计划(2018YFC1900800-5)。
(注:专业术语首次出现时保留英文原词,如Bootstrap、RMSE等;期刊名*Int. J. System Control and Information Processing*未翻译)