本研究由Jian Tang(北京工业大学信息学部、北京市智慧环保重点实验室)、Heng Xia(同前)、Loai Aljerf(大马士革大学化学系有机工业重点实验室)、Dandan Wang(北京工业大学)及Prince Onyedinma Ukaogo(阿比亚州立大学纯化学与工业化学系分析/环境单元)合作完成,发表于Journal of Environmental Chemical Engineering第10卷(2022年),文章编号108314,在线发布于2022年7月26日。
本研究属于环境工程与数据建模交叉领域,聚焦生活垃圾焚烧(Municipal Solid Waste Incineration, MSWI)过程中二噁英(Dioxin, DXN)排放的软测量预测。二噁英因高毒性被称为“世纪之毒”,其排放浓度是MSWI运行的重要环境指标。然而,传统检测方法(如离线检测和在线间接检测)存在成本高、周期长、实时性差等问题,而数据驱动建模面临小样本挑战——实际工厂中二噁英真实样本稀缺且分布不平衡。
提出一种基于扩展-插值-选择的小样本建模方法(EIS-SSM),通过生成高质量虚拟样本扩充数据集,构建高精度二噁英排放预测模型,解决小样本条件下模型性能不足的问题。
改进的Mega-Trend-Diffusion (MTD)算法用于确定样本输入/输出的可行域上下限:
- 输入处理:以原始样本最大值((x{\text{max}}))和最小值((x{\text{min}}))为扩展中心,结合领域先验知识(如物理意义约束)计算扩展边界((x{\text{vsg-max}})和(x{\text{vsg-min}}))。
- 输出处理:将输出分为高((y{\text{high}}))和低((y{\text{low}}))两部分,分别计算均值后确定扩展边界(公式S1-S2)。
- 效果:在基准数据集中,输入特征扩展率为18%-105%,整体空间扩展率62.11%;输出扩展率为37.43%。
通过线性插值(Linear Interpolation, LI)与非线性插值(Nonlinear Interpolation, NI)结合生成候选样本:
- 非线性插值(NI):基于随机权重神经网络(Random Weight Neural Network, RWNN)实现。隐藏层权重随机初始化,通过广义逆矩阵计算输出层权重,生成插值矩阵(公式1-4)。
- 线性插值(LI):在扩展域内以等间隔插入数据,结合RWNN映射输出(公式S5-S6)。
- 异常样本删除:根据边界条件(公式S7-S9)剔除超出可行域的虚拟样本。在基准数据中,平均删除率为45.91%。
采用多目标粒子群优化(Multi-Objective PSO, MOPSO)筛选最优虚拟样本:
- 编码设计:每个粒子维度对应一个候选样本,决策变量值∈(0,1),通过阈值((\theta_{\text{select}}))决定是否选择样本。
- 优化目标:最小化虚拟样本数量与模型误差(RMSE)。引入改进的反向学习策略,根据样本可靠性((\lambda_n))动态调整选择概率(公式17-18)。
- 结果:在基准数据中,MOPSO平均筛选率44.63%,最终扩展率637.5%。