本文由Hang Yu(IEEE会员)、Jie Lu(IEEE会士)和Guangquan Zhang共同完成,三位作者均来自澳大利亚悉尼科技大学(University of Technology Sydney)的澳大利亚人工智能研究所(Australian Artificial Intelligence Institute)。研究发表于IEEE Transactions on Systems, Man, and Cybernetics: Systems期刊2022年8月第52卷第8期。
研究领域:本文属于流数据挖掘(streaming data mining)与多输出回归(multioutput regression)的交叉领域,聚焦于动态数据环境下的实时预测问题。
研究动机:随着大数据时代的到来,流数据(如传感器数据、实时交易记录等)的持续生成对传统批量学习方法提出了挑战。现有多输出回归方法(如全局方法global methods和局部方法local methods)通常依赖批量处理,无法适应流数据的在线学习(online learning)需求,且难以处理输出变量间的动态相关性。此外,流数据的概念漂移(concept drift)特性进一步增加了建模复杂度。
研究目标:
1. 提出一种适用于流数据的多输出回归系统MoRStreaming,支持在线学习和动态结构调整。
2. 通过基于实例的模型(instance-based model)和自适应规则(adaptive rules)解决输出变量间的相关性建模问题。
3. 在保证预测精度的同时,降低计算和存储开销。
核心思想:通过拓扑网络动态维护一组代表性实例(instances),替代原始流数据以减少存储需求。
关键技术:
- 拓扑网络构建:基于自组织增量神经网络(SOINN)改进,仅需手动设置两个参数(学习周期样本数λ、边寿命agemax)。
- 实例更新机制:
- 对每个新输入数据z(t),计算其与现有实例的欧氏距离,选择最近邻(winner)和次近邻(second winner)。
- 若距离超过阈值,则将z(t)插入网络作为新实例;否则更新邻近实例的权重(式11-12)。
- 通过边年龄(edge age)控制网络拓扑结构的动态调整,删除老化边以剔除噪声。
创新点:
- 提出加权隶属度μi(t)(式4),量化输入数据与实例的接近程度,优于SOINN的硬分配策略。
- 参数λ与规则学习周期同步,实现自适应的实例淘汰机制(算法1第29-32行)。
核心问题:输出变量间的相关性可能随概念漂移变化,且不同输入区域可能对应不同的相关性模式。
解决方案:
- 规则集(Rule Set):将输出结构转化为形如a → c的规则,其中:
- 前提a:输入属性的逻辑组合(如x1 ≤ v)。
- 结论c:输出变量的相关性模式(如{y1, y2}相关,y3独立)。
- 规则生成与扩展:
- 使用Hoeffding界(式17)确定最佳分割点,通过方差比(VR, 式14)评估分割对输出相关性的影响。
- 若分割显著提升局部相关性(式18),则扩展规则;否则生成互补规则(式19)覆盖剩余输出。
创新点:
- 结合均值-方差比(MVR)(式13)与Hoeffding界,实现流数据下的在线规则学习。
- 通过Page-Hinckley(PH)检测(第IV-D节)识别冗余规则,适应概念漂移。
预测流程:
1. 对输入x̂,匹配覆盖其的规则rl,筛选符合规则的实例fl。
2. 根据输出相关性模式选择预测函数:
- 若输出独立,使用核回归(式20);
- 若输出相关,使用多输出核函数(式21)整合共变量信息。
3. 对多规则覆盖的情况,加权聚合预测结果(式22)。
科学价值:
1. 提出首个结合拓扑实例学习与动态规则生成的流数据多输出回归框架,解决了输出结构动态建模的难题。
2. 通过理论证明(如Hoeffding界保障规则质量)和实验验证,为流数据挖掘提供了新方法论。
应用价值:
- 适用于实时预测场景(如交通流量、供应链价格),支持高维输出与概念漂移环境。
- 系统已开源,可扩展至其他流式任务(如分类、聚类)。
(报告字数:约2000字)