本文由 Muhammad Fahim 和 Alberto Sillitti 撰写,作者分别隶属于俄罗斯 Innopolis University 信息系统研究所,文章已被 IEEE Access 接受发表,DOI 为 10.1109/ACCESS.2019.2921912,发表于未来一期期刊中。
本文是一篇系统性文献综述,主题为“互联网环境中异常检测、分析与预测技术的研究综述” (Anomaly Detection, Analysis, and Prediction Techniques in IoT Environment: A Systematic Literature Review)。文章的研究时间跨度为 2000 年至 2018 年,重点关注智能居住环境、交通运输系统、医疗系统、智能物体和工业系统中的异常检测技术,主要目的是梳理现有研究成果,总结挑战和研究空白,并为研究人员和实践者提供设计未来系统的指导。
异常检测技术在智能系统中可减少系统风险、避免未知问题并降低停机时间。异常往往伴随着环境数据、物体数据的异常行为表现,例如工业系统中资源浪费、航空系统中关键事件发生前的表现等。文献综述得出以下研究领域的重要观测:
作者系统总结统计方法与机器学习方法的应用。这些方法为不同的应用场景提供了独特的技术优势:
统计学方法以其计算成本低的优点被广泛应用于不同领域,包括:
机器学习方法致力于自动化和鲁棒性异常模式的检测与预测:
作者基于文献研究结果,详细分析了上述五个领域中的具体成果,并结合实验数据进行详尽说明。
智能居住环境:
利用运动传感器、光照传感器及门磁传感器等监测住户行为异常。例如,单类 SVM 和多类 SVM 主要用于行为特征的自动分类与评估,有效检测不同住户间的异常交互活动。
智能交通系统:
以航空数据为例,统计降维技术(如 PCA)被应用于处理高维飞行数据集,而支持向量机和强化学习则用于交通监控和无人机操作的异常行为校正。
智能物体:
垃圾桶与停车管理数据被用于构建简单阈值检测与空间-时间聚类模型,进一步结合规则生成方法以提升智能设备行为分析的透明度与精准度。
医疗系统:
提出了针对心电图数据的递增式学习模式与图模型方法,并结合历史记录进行电子病历分析,显现出精准的患者管理能力。
工业系统:
极限学习机(Extreme Learning Machine, ELM)等高效算法被用于获取大规模工业数据流,以实现风力发电机和化工流程等工业场景中的实时预警与异常检测。
本文通过回顾现有文献,系统列举了异常检测的技术局限: 1. 数据获取困难:系统的真实运行数据因隐私、法律、可接触性等问题难以获取。 2. 复杂且不平衡的数据:部分异常类别数据数量稀缺,其过度优化在实际中易引发分类偏见,例如智能居住环境中的稀有行为。 3. 统计方法局限:传统统计方法难以处理当前范围内传感器生成的高维复杂数据集。 4. 深度学习研究不足:深度学习虽在其他领域取得成功,但其已应用于异常检测领域的方法多为初步且未充分实验。 5. 缺乏预防性方法:目前大多数方法侧重于异常检测,鲜有涉及异常预测或预防的研究。 6. 算法的透明性不足:许多现有的模型被视为“黑箱”,需要开发更透明的算法以增加用户信任度。
本文为异常检测领域的研究者梳理了全面的技术状态与趋势,通过总结现有文献提出研究挑战与空白,展示了异常识别领域的跨学科多样性和潜在应用价值。文章的系统综述有助于推动智能环境、医疗、交通及工业系统的研究应用,同时对于先进机器学习技术的跨领域运用具有里程碑意义。