基于ELM算法的在线学习模型

分享自：
基于ELM算法的在线学习模型

期刊:智能计算机与应用DOI:10.20169 / j.issn.2095-2163.240615
本文档属于类型a，即报告了一项原创性研究。以下是对该研究的学术报告：
作者及研究机构
 本文由吕超、董育宁和邱晓晖共同撰写，三位作者均来自南京邮电大学通信与信息工程学院。该研究发表于2024年6月的《智能计算机与应用》（Intelligent Computer and Applications）期刊第14卷第6期。
学术背景
 随着网络应用程序的多样化，网络流量分类面临新的挑战。传统方法难以在动态环境中准确识别已知类和新类流量，并实现模型的在线更新。针对这一问题，本文提出了一种基于极限学习机（Extreme Learning Machine, ELM）的在线学习模型，旨在解决开集流识别（Open Set Flow Recognition, OSFR）中的三个关键问题：新类检测、新类标记和模型更新。ELM算法因其快速学习和逼近能力强等特点，被选为该模型的核心算法。
研究流程
 研究分为以下几个步骤：
 1. 新类检测与已知类识别：
 - 使用ELM算法构建二分类器（h0）和多分类器（he）。
 - 通过距离度量（dmin）选择辅助训练样本，设定阈值β进行新类检测。
 - 对于测试样本，若h0判定为正样本且dmin ≤ β，则进入he进行细分类；否则判定为新类样本，进入新类处理模块。
新类处理模块：
收集足够的新类样本，并从无标签数据集中筛选辅助训练样本（dmin ∈ (β, β+ε]）。
 
使用新类样本和辅助训练样本训练新的二分类器（hni），并将其串联在h0与新类处理模块之间。
 
模型更新：
当新类二分类器数量达到设定值（即初始已知类数量m）时，进行整体更新。
 
使用初始已知类和缓存中的样本重新训练h0和he，替换原有分类器，并清空所有hni，实现增量学习。
 
研究对象与实验
 研究使用了两个真实网络流数据集：南邮数据集（NY）和ISCX Non-VPN数据集（ISCX）。每个数据集包含多个流量类别，实验分为四个阶段，依次增加新类。实验采用五折交叉验证，评估指标包括查准率（P）、查全率（R）、F1值（F1_score）和开集总体准确率（NA）。
主要结果
 1. 新类检测与已知类分类性能：
 - 在两个数据集上，本文方法的已知类F1值和开集总体准确率（NA）均达到0.9以上。
 - 随着更新次数的增加，分类性能略有下降，但在整体更新后，性能下降幅度较小（2%-4%）。
与对比方法的比较：
 与ASG方法和CD-OSR方法相比，本文方法在已知类F1值和NA上表现更优，尤其在更新后性能下降较小。
 
在时间性能方面，本文方法的训练时间、在线分类时间和模型更新时间均显著优于对比方法。
 
结论
 本文提出的基于ELM的在线学习模型在开集流识别任务中表现出色，能够有效检测新类并实现模型的在线更新。与现有方法相比，本文方法在分类性能和时间性能上均有显著优势。然而，该方法在阈值选择和缓存样本纯度方面仍存在一定局限性，未来可进一步优化。
研究亮点
 1. 提出了一种基于ELM距离度量的新类检测方法，有效提升了新类检测能力。
 2. 设计了一种模型更新方法，通过串联二分类器降低更新时间，仅在满足条件时进行整体更新。
 3. 在真实数据集上的实验结果表明，本文方法在分类性能和时间性能上均优于现有方法。
其他有价值内容
 本文还详细探讨了阈值β的选择和辅助训练样本的筛选方法，为后续研究提供了重要参考。此外，本文提出的模型更新方法为在线学习领域提供了一种新的思路，具有广泛的应用潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问