学术研究报告:基于随机森林与梯度提升决策树的垃圾焚烧二噁英排放浓度软测量方法
一、作者与发表信息
本研究的作者包括Heng Xia、Jian Tang、Junfei Qiao、Aijun Yan和Zihao Guo,均来自北京工业大学信息技术学院及北京市计算智能与智能系统重点实验室。研究论文发表于2020年的IEEE会议论文集《2020 Chinese Control and Decision Conference (CCDC)》,标题为《Soft Measuring Method of Dioxin Emission Concentration for MSWI Process Based on RF and GBDT》。
二、学术背景与研究目标
科学领域:研究属于环境工程与工业过程控制的交叉领域,聚焦于城市固体废物焚烧(Municipal Solid Waste Incineration, MSWI)过程中二噁英(Dioxin, DXN)排放的实时监测与优化控制。
研究背景:
1. 问题现状:中国现有300余座MSWI电厂,其中2/3采用炉排式焚烧炉。由于垃圾成分复杂,焚烧过程多依赖人工控制,导致污染物(尤其是DXN)排放超标问题突出。DXN具有高毒性和化学稳定性,是引发“邻避效应”的主因之一。
2. 技术瓶颈:传统DXN检测依赖离线实验分析,成本高、周期长(需数天),无法实现实时优化控制。现有在线间接测量方法(如关联指标映射)存在仪器成本高、预测精度不足等问题。
3. 研究目标:开发一种基于小样本高维数据的DXN排放浓度软测量模型,结合随机森林(Random Forest, RF)与梯度提升决策树(Gradient Boosting Decision Tree, GBDT)的优势,实现高精度实时预测。
三、研究方法与流程
1. 数据准备与预处理
- 数据来源:某垃圾焚烧厂的6个子系统(发电系统、公共电气系统、焚烧炉系统等)的67组过程数据,包括287个输入特征(如温度、气体浓度)和DXN浓度(ng/Nm³)输出。
- 数据集划分:45组训练数据,22组测试数据。
2. 模型构建(ENRFGBDT方法)
研究提出集成RF与GBDT的混合模型(ENRFGBDT),分三阶段实现:
- 阶段1:RF子模型构建
- 随机采样:通过Bootstrap方法从训练集中生成多个子样本(样本量同原始数据,允许重复)。
- 特征选择:每个子样本随机选取15个特征(远低于原始287维),构建分类与回归树(CART)模型。
- 参数优化:基于袋外误差(OOB Error)确定最优树数量(5棵)和特征数(15个),最小化RMSE至1.071。
阶段2:GBDT残差学习
阶段3:模型集成
3. 实验验证
- 对比方法:独立RF模型(RMSE=0.030)、独立GBDT模型(RMSE=0.035)。
- 性能指标:ENRFGBDT在训练集和测试集的RMSE分别为0.0148和0.0284,优于单一模型。
四、研究结果与逻辑贡献
1. RF的降维优势:RF通过随机特征选择有效缓解高维数据灾难,其OOB误差(1.071)显著低于GBDT(0.035),证明其对噪声和异常值的鲁棒性。
2. GBDT的精度提升:GBDT通过残差迭代将RF子模型的预测误差进一步降低23.5%(从0.030至0.028),验证了串行优化的有效性。
3. 集成模型性能:ENRFGBDT在测试集上误差比GBDT降低19.4%,且训练时间可控,满足工业实时性需求。
五、结论与价值
1. 科学价值:
- 提出首个结合RF与GBDT的DXN软测量框架,解决了小样本高维数据建模难题。
- 证明了“并行降维(RF)+串行优化(GBDT)”策略在工业数据中的普适性。
2. 应用价值:
- 为MSWI电厂提供低成本、高精度的DXN实时监测方案,助力排放达标与自动化控制。
- 方法可扩展至其他高维工业过程(如化工、冶金)的污染物预测。
六、研究亮点
1. 方法创新:首次将RF的随机特征选择与GBDT的残差学习结合,兼具降维与精度提升双重优势。
2. 工程适配性:模型仅需67组样本和10个特征即可实现高精度预测,适用于数据稀缺的工业场景。
3. 开源贡献:实验代码与参数设置公开,为后续研究提供基准。
七、其他价值
研究得到国家自然科学基金(61573364、61873009)和北京市重点实验室资助,数据来自实际工厂,具有强工程可信度。未来可探索模型参数自动优化与多污染物协同预测。