分享自:

基于扩展、插值和选择的小样本城市固体废物焚烧二恶英排放预测

期刊:journal of environmental chemical engineeringDOI:10.1016/j.jece.2022.108314

基于小样本扩展、插值与选择的生活垃圾焚烧二噁英排放预测研究学术报告

作者与发表信息

本研究由Jian Tang(北京工业大学信息学部、北京市智慧环保重点实验室)、Heng Xia(同前)、Loai Aljerf(大马士革大学化学系有机工业重点实验室)、Dandan Wang(北京工业大学)及Prince Onyedinma Ukaogo(阿比亚州立大学纯化学与工业化学系分析/环境单元)合作完成,发表于Journal of Environmental Chemical Engineering第10卷(2022年),文章编号108314,在线发布于2022年7月26日。

学术背景

研究领域与问题

本研究属于环境工程与数据建模交叉领域,聚焦生活垃圾焚烧(Municipal Solid Waste Incineration, MSWI)过程中二噁英(Dioxin, DXN)排放的软测量预测。二噁英因高毒性被称为“世纪之毒”,其排放浓度是MSWI运行的重要环境指标。然而,传统检测方法(如离线检测和在线间接检测)存在成本高、周期长、实时性差等问题,而数据驱动建模面临小样本挑战——实际工厂中二噁英真实样本稀缺且分布不平衡。

研究目标

提出一种基于扩展-插值-选择的小样本建模方法(EIS-SSM),通过生成高质量虚拟样本扩充数据集,构建高精度二噁英排放预测模型,解决小样本条件下模型性能不足的问题。

研究流程与方法

1. 领域扩展(Domain Expansion)

改进的Mega-Trend-Diffusion (MTD)算法用于确定样本输入/输出的可行域上下限:
- 输入处理:以原始样本最大值((x{\text{max}}))和最小值((x{\text{min}}))为扩展中心,结合领域先验知识(如物理意义约束)计算扩展边界((x{\text{vsg-max}})和(x{\text{vsg-min}}))。
- 输出处理:将输出分为高((y{\text{high}}))和低((y{\text{low}}))两部分,分别计算均值后确定扩展边界(公式S1-S2)。
- 效果:在基准数据集中,输入特征扩展率为18%-105%,整体空间扩展率62.11%;输出扩展率为37.43%。

2. 混合插值生成虚拟样本(Hybrid Interpolation)

通过线性插值(Linear Interpolation, LI)非线性插值(Nonlinear Interpolation, NI)结合生成候选样本:
- 非线性插值(NI):基于随机权重神经网络(Random Weight Neural Network, RWNN)实现。隐藏层权重随机初始化,通过广义逆矩阵计算输出层权重,生成插值矩阵(公式1-4)。
- 线性插值(LI):在扩展域内以等间隔插入数据,结合RWNN映射输出(公式S5-S6)。
- 异常样本删除:根据边界条件(公式S7-S9)剔除超出可行域的虚拟样本。在基准数据中,平均删除率为45.91%。

3. 虚拟样本选择(Virtual Sample Selection)

采用多目标粒子群优化(Multi-Objective PSO, MOPSO)筛选最优虚拟样本:
- 编码设计:每个粒子维度对应一个候选样本,决策变量值∈(0,1),通过阈值((\theta_{\text{select}}))决定是否选择样本。
- 优化目标:最小化虚拟样本数量与模型误差(RMSE)。引入改进的反向学习策略,根据样本可靠性((\lambda_n))动态调整选择概率(公式17-18)。
- 结果:在基准数据中,MOPSO平均筛选率44.63%,最终扩展率637.5%。

4. 模型构建与验证

  • 混合数据集:将最优虚拟样本集((r{\text{vsg}}))与原始小样本((r{\text{small}}))合并,训练RWNN预测模型。
  • 实验设计
    • 基准数据集(混凝土抗压强度数据):40个小样本,验证方法普适性。
    • 实际DXN数据集:34个工业样本,输入特征18维。
  • 对比方法:包括无虚拟样本生成(No-VSG)、线性插值(LN-VSG)、非线性插值(N-VSG)等。

主要结果

基准数据实验结果

  • 性能提升:EIS-SSM的测试RMSE为11.902,较No-VSG(22.984)提升48.22%,较现有扩展方法(如M-VSG)提升13.68%。
  • 样本分布:虚拟样本有效填补原始数据空缺区间(如输出区间0-10、输入特征1区间0-100),MOPSO筛选后冗余样本减少54.93%。

DXN工业数据实验结果

  • 性能提升:测试RMSE从0.0802降至0.0221,提升72.44%,方差最低(0.2×10⁻⁴)。
  • 扩展效果:输入特征扩展率20%-100%,整体空间扩展率70.99%;输出扩展率64.20%。

结果逻辑链

  1. 领域扩展为插值提供合理边界,避免生成无效样本;
  2. 混合插值结合线性与非线性方法,覆盖数据分布稀疏区域;
  3. MOPSO筛选平衡样本数量与模型性能,提升计算效率;
  4. RWNN模型利用混合数据集增强泛化能力,验证了方法的工业适用性。

结论与价值

科学价值

  • 提出首个将多目标优化与虚拟样本生成结合的二噁英排放预测框架,为解决小样本问题提供新思路。
  • 改进的MTD扩展与混合插值策略可推广至其他高成本、低样本量的工业过程建模。

应用价值

  • 为MSWI工厂提供实时、低成本的二噁英排放监控工具,助力环保达标。
  • 方法已在实际工厂数据中验证,RMSE降低72.44%,具备工程落地潜力。

研究亮点

  1. 方法创新:首次将MOPSO引入虚拟样本选择,优化了“质量-数量”权衡。
  2. 技术融合:结合领域知识(MTD)与数据驱动技术(RWNN),提升生成样本的物理合理性。
  3. 工业验证:在DXN数据集上实现显著性能提升,解决了小样本建模的核心难点。

其他价值

  • 提出的评估指标ρ(单位虚拟样本对模型性能的平均贡献)为同类研究提供了量化比较基准。
  • 开源基准数据集和代码(未明确提及但可推测)有助于方法复现与推广。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com