分享自:

MorStreaming: 一种用于流数据的多输出回归系统

期刊:IEEE Transactions on Systems, Man, and Cybernetics: SystemsDOI:10.1109/TSMC.2021.3102978

学术研究报告:MoRStreaming——面向流数据的多输出回归系统

作者与发表信息

本文由Hang Yu(IEEE会员)、Jie Lu(IEEE会士)和Guangquan Zhang共同完成,三位作者均来自澳大利亚悉尼科技大学(University of Technology Sydney)的澳大利亚人工智能研究所(Australian Artificial Intelligence Institute)。研究发表于IEEE Transactions on Systems, Man, and Cybernetics: Systems期刊2022年8月第52卷第8期。

学术背景

研究领域:本文属于流数据挖掘(streaming data mining)多输出回归(multioutput regression)的交叉领域,聚焦于动态数据环境下的实时预测问题。

研究动机:随着大数据时代的到来,流数据(如传感器数据、实时交易记录等)的持续生成对传统批量学习方法提出了挑战。现有多输出回归方法(如全局方法global methods和局部方法local methods)通常依赖批量处理,无法适应流数据的在线学习(online learning)需求,且难以处理输出变量间的动态相关性。此外,流数据的概念漂移(concept drift)特性进一步增加了建模复杂度。

研究目标
1. 提出一种适用于流数据的多输出回归系统MoRStreaming,支持在线学习和动态结构调整。
2. 通过基于实例的模型(instance-based model)自适应规则(adaptive rules)解决输出变量间的相关性建模问题。
3. 在保证预测精度的同时,降低计算和存储开销。


研究方法与流程

1. 实例学习算法(Learning Instances)

核心思想:通过拓扑网络动态维护一组代表性实例(instances),替代原始流数据以减少存储需求。

关键技术
- 拓扑网络构建:基于自组织增量神经网络(SOINN)改进,仅需手动设置两个参数(学习周期样本数λ、边寿命agemax)。
- 实例更新机制
- 对每个新输入数据z(t),计算其与现有实例的欧氏距离,选择最近邻(winner)次近邻(second winner)
- 若距离超过阈值,则将z(t)插入网络作为新实例;否则更新邻近实例的权重(式11-12)。
- 通过边年龄(edge age)控制网络拓扑结构的动态调整,删除老化边以剔除噪声。

创新点
- 提出加权隶属度μi(t)(式4),量化输入数据与实例的接近程度,优于SOINN的硬分配策略。
- 参数λ与规则学习周期同步,实现自适应的实例淘汰机制(算法1第29-32行)。

2. 结构化输出学习(Learning Structured Outputs)

核心问题:输出变量间的相关性可能随概念漂移变化,且不同输入区域可能对应不同的相关性模式。

解决方案
- 规则集(Rule Set):将输出结构转化为形如a → c的规则,其中:
- 前提a:输入属性的逻辑组合(如x1 ≤ v)。
- 结论c:输出变量的相关性模式(如{y1, y2}相关,y3独立)。
- 规则生成与扩展
- 使用Hoeffding界(式17)确定最佳分割点,通过方差比(VR, 式14)评估分割对输出相关性的影响。
- 若分割显著提升局部相关性(式18),则扩展规则;否则生成互补规则(式19)覆盖剩余输出。

创新点
- 结合均值-方差比(MVR)(式13)与Hoeffding界,实现流数据下的在线规则学习。
- 通过Page-Hinckley(PH)检测(第IV-D节)识别冗余规则,适应概念漂移。

3. 基于实例的预测模型(Instance-based Prediction Model)

预测流程
1. 对输入,匹配覆盖其的规则rl,筛选符合规则的实例fl
2. 根据输出相关性模式选择预测函数:
- 若输出独立,使用核回归(式20)
- 若输出相关,使用多输出核函数(式21)整合共变量信息。
3. 对多规则覆盖的情况,加权聚合预测结果(式22)。


主要实验结果

人工数据集验证

  • 数据集:2dplanes(静态)、friedd(同步概念漂移)、friedasyncd(异步概念漂移)、mv(含噪声)。
  • 对比方法
    • MoRStreaming-L/G:局部/全局策略变体。
    • MoRStreaming-K:基于KNN的实例学习版本。
  • 结果
    • 预测精度:MoRStreaming在friedd和mv上的ARMSE(平均均方根误差)比局部策略低15%,比全局策略低9%(表II)。
    • 计算效率:模型大小(表III)和运行时间(表IV)均优于对比方法,尤其在mv数据集上内存占用减少30%。

真实数据集验证

  • 数据集:bicycles(共享单车需求)、eunite03(玻璃质量)、scm1d/scm20d(供应链价格预测)等。
  • 对比方法:包括MTR-HTmean(规则基)、ISOUP-Tree(决策树基)等。
  • 结果
    • traffic flowsydney trains等输出相关性明确的数据集上,MoRStreaming的ARMSE显著优于其他方法(表VII)。
    • 模型大小仅为单输出方法(如IBLStreams)的1/5(表X),验证其存储效率。

结论与价值

科学价值
1. 提出首个结合拓扑实例学习动态规则生成的流数据多输出回归框架,解决了输出结构动态建模的难题。
2. 通过理论证明(如Hoeffding界保障规则质量)和实验验证,为流数据挖掘提供了新方法论。

应用价值
- 适用于实时预测场景(如交通流量、供应链价格),支持高维输出与概念漂移环境。
- 系统已开源,可扩展至其他流式任务(如分类、聚类)。

研究亮点

  1. 方法创新
    • 将输出结构转化为可在线学习的规则集,突破传统局部/全局方法的局限。
    • 提出加权实例更新机制,提升拓扑网络对噪声的鲁棒性。
  2. 工程贡献
    • 仅需手动设置λ和agemax两个参数,降低了调优复杂度。
    • 代码实现高效,时间复杂度O(n²)(第III-E节),适合大规模流数据。

其他有价值内容

  • 概念漂移处理:通过PH检测和实例淘汰机制实现双重适应(第IV-D节)。
  • 未来方向:拟引入过拟合预防机制和异常检测模块(第V节)。

(报告字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com