分享自:

动态结构嵌入的在线多输出回归方法

期刊:IEEE Transactions on Pattern Analysis and Machine IntelligenceDOI:10.1109/tpami.2018.2794446

基于动态结构嵌入的在线多输出回归方法MORES研究

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的详细学术报告:

作者及发表信息

本研究由Changsheng Li(电子科技大学计算机科学与工程学院及大数据研究中心)、Fan Wei(斯坦福大学数学系)、Weishan Dong(百度搜索)、Xiangfeng Wang(华东师范大学软件工程学院)、Qingshan Liu(南京信息工程大学信息与控制学院B-DAT实验室)和Xin Zhang(IBM研究院)共同完成。论文发表于IEEE Transactions on Pattern Analysis and Machine Intelligence期刊,2019年2月第41卷第2期。

学术背景

该研究属于机器学习领域,具体聚焦于在线多输出回归(online multiple-output regression)问题。随着数据流(如金融市场在线交易、互联网流量等)的广泛应用,传统批处理模式的多输出回归方法面临计算复杂度高、内存需求大等问题。现有在线学习方法如PA(Passive-Agressive)算法和IS-PLS未能充分挖掘输出间的相关性信息,且对残差误差的结构缺乏建模。因此,本研究旨在开发一种能够动态学习回归系数结构和残差结构的新型在线多输出回归方法。

研究的主要目标包括: 1. 动态学习回归系数变化的结构 2. 利用残差误差的结构提高预测精度 3. 通过改进的协方差矩阵提取必要信息 4. 引入遗忘因子适应数据流的演化特性 5. 开发高效的优化算法和在线特征值分解算法

研究方法与流程

1. 问题建模

研究首先定义了在线多输出回归的基本框架:在第t轮,学习者观察到一个实例xt∈R^d,基于当前模型Pt-1∈R^(m×d)预测多个输出yt∈R^m,然后接收真实响应yt∈R^m并更新模型。预测形式为:yt+1 = Pt*xt+1 + εt+1,其中Pt为回归系数矩阵,εt+1为残差向量。

2. 目标函数设计

研究提出了创新的目标函数:

(pt,vt,gt) = argmin(p,v,g) [‖p-pt-1‖_v^2 + αℓ(p,g,St) + βDf(v,vt-1) + ρDf(v,I) + ηDf(g,I)] 

其中: - 第一项使用马氏距离(Mahalanobis distance)度量回归系数变化 - 第二项ℓ(p,g,St)为预测误差函数,采用带遗忘因子μ的加权设计 - 后三项为调节项,保证矩阵的正定性

研究特别设计了三个改进的协方差矩阵Ct,yy、Ct,xy和Ct,xx来增量存储历史信息,避免了全数据加载。这些矩阵通过递归方式更新:

Ct,yy = μCt-1,yy + ytyt^T Ct,xy = μCt-1,xy + xtyt^T Ct,xx = μCt-1,xx + xtxt^T 

3. 优化算法开发

研究采用交替优化策略求解目标函数:

(1) 优化回归系数矩阵Pt

给定vt-1和gt-1,通过求解矩阵方程获得Pt。对于高维输入,开发了基于Frequent Directions(FD)算法的在线特征值分解方法,将复杂度从O(d^3)降至O(dl^2),其中l为草图尺寸。

(2) 优化回归系数结构矩阵vt

采用闭合形式解:

vt = [1/(β+ρ)(βvt-1^-1 + ρI + M)]^-1 

其中M=(pt-pt-1)(pt-pt-1)^T。研究证明vt始终正定且特征值在0和1之间。

(3) 优化残差结构矩阵gt

同样获得闭合形式解:

gt = (I + η/α N)^-1 

其中N为残差协方差矩阵。研究证明gt也是正定的。

4. 实验验证

研究在两个合成数据集和三个真实数据集(股票价格预测、Barrett WAM机器人逆动力学、气象预测)上验证方法有效性,比较算法包括IS-PLS、ELLA、OMTL、PA-I和PA-II等。

实验设计: 1. 参数设置:β=ρ=1,η=100,α从{10^-2,…,10^4}调优,μ从0到1以0.1步长调优 2. 评价指标:平均绝对误差(MAE) 3. 重复实验:10次随机顺序实验取平均

主要研究结果

1. 合成数据集实验结果

在模拟数据上: - 证明了Pt收敛于真实系数矩阵(图1a) - 展示了方法能有效学习回归系数差异的相关性(表1a)和残差误差的相关性(表1b) - 当数据分布变化时(t>500),方法能自适应学习新的结构(表1e-1h)

2. 真实数据集结果

(1) 股票预测

  • MORES显著优于其他方法,平均MAE比次优的ELLA降低15.3%
  • 在IBM、Yahoo、Microsoft、Apple和Oracle上分别提升11.0%、32.4%、34.8%、13.0%和29.4%
  • 展示了良好的收敛性(图1b)和适应数据演化的能力(图2d)

(2) 机器人逆动力学

  • MORES平均MAE比ELLA和OMTL分别降低22.3%和51.0%
  • 验证了各组件有效性(图3a):动态学习残差结构(RRE)比无结构学习(WRL)更好;完整MORES优于仅使用损失函数(LFP)
  • 确定了最优遗忘因子μ=0.9(图3b)
  • 在添加不同水平噪声(σ=0.1,0.5,1)时表现出强鲁棒性(表4)

(3) 气象预测

  • MORES平均MAE比PA-I、PA-II、IS-PLS、SOMOR、OMTL和ELLA分别降低27.7%、27.1%、60.4%、27.4%、27.8%和10.3%
  • 在不同模型更新频率(n=1,2,4,6,8,10)下均保持最佳性能(表6)

3. 效率分析

  • 在三个真实数据集上达到2000+实例/秒的处理速度
  • 比ELLA快12-20倍(图5)
  • 在线特征值分解方法(MORES_appro)比原始方法快22倍,同时保持相当精度(图6)

研究结论与价值

科学价值

  1. 提出了首个能同时动态学习回归系数结构和残差结构的在线多输出回归框架
  2. 开发了高效的在线优化算法和特征值分解技术
  3. 理论上证明了方法在理想条件下的收敛性
  4. 为流数据环境下多输出预测问题提供了系统解决方案

应用价值

  1. 在金融预测(股票价格)、机器人控制(逆动力学)、气象预报等领域展示了优越性能
  2. 实际部署时可处理高速数据流(>2000实例/秒)
  3. 对噪声数据和概念漂移具有强鲁棒性
  4. 内存效率高,适合长期运行的流式应用

研究亮点

  1. 双结构学习:同时建模回归系数变化结构和残差误差结构,充分利用输出间相关性
  2. 高效增量学习:通过改进的协方差矩阵实现无损数据压缩,避免全数据加载
  3. 时间自适应:引入遗忘因子μ适应数据流演化特性
  4. 算法创新:开发了基于FD的在线特征值分解,处理高维输入
  5. 理论保障:证明了矩阵的正定性和方法的收敛性

其他有价值的内容

  1. 参数敏感性分析(图4)显示方法对β、ρ、η不敏感,便于实际应用
  2. 提供了处理高维输出的策略建议(通过相关性聚类将输出分组)
  3. 与IS-PLS、OMTL等方法进行了深入对比,突出了本方法的优势
  4. 开源了算法实现,促进方法推广应用
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com