分享自:

多源异构数据融合技术的比较研究

期刊:Procedia Computer ScienceDOI:10.1016/j.procs.2024.08.198

研究报告

作者与发表信息

该研究的标题为“Comparative Research on Multi-Source Heterogeneous Data Fusion Technologies”,第一作者为Wen Long,合作者包括Jing Gao和Man Guo。他们分别隶属于University of Chinese Academy of Sciences的School of Economics and Management、Chinese Academy of Sciences的Research Center on Fictitious Economy & Data Science以及Key Laboratory of Big Data Mining & Knowledge Management。文章发表于《Procedia Computer Science》第242卷(2024年),由Elsevier B.V.出版,并属于开放获取文章(CC BY-NC-ND 4.0)。


研究背景

本研究属于金融数据融合与股票价格预测领域。近年来,金融领域的研究表明,股票价格波动不仅受到结构化市场数据(如交易量、成交量等)的影响,还受非结构化的新闻数据(如财经新闻文本)的显著影响。然而,仅依靠单一数据源进行股票价格的趋势预测容易带来信息偏差,导致模型预测效果受限。现有研究大多将新闻媒体中的文本信息提取为结构化的指标,例如频率统计或情绪分析,但此过程中会丢失大量语义层面的信息。

本研究旨在解决这一问题,构建一个能够综合多源异构数据的预测模型。目标是通过有效的数据融合技术,充分挖掘市场数据与新闻数据中的隐含信息,从而提高股票价格趋势的预测准确性。


研究方法与流程

研究采用了三个核心步骤进行分析:数据收集与预处理、模型构建与训练,以及模型比较与评估。

1. 数据收集与样本选择

研究选取了上证50指数成分股作为研究对象,分析时间范围为2018年1月1日至2020年12月31日。由于新上市股票波动较大,共剔除了在2016年1月1日后上市的公司,并排除了因缺乏相关新闻数据而无法参与研究的个股,最终研究样本共计37支股票。

  • 市场数据:选取了四类常用指标作为输入变量,包括每日股票收益率(log收益率)、交易量(TV)、换手率(TR)和总市值(ME)。
  • 新闻数据:从UQER数据库收集了上述37支股票的496,014条新闻报道,包含时间、标题、摘要及正文内容。在预处理阶段,对新闻文本进行了去噪、分词、停用词去除等操作,并通过词袋模型表示新闻文本,随后使用 $\chi^2$ 统计方法从稀疏矩阵中提取重要特征词并降维。
2. 模型构建与算法创新

为应对结构化数据与非结构化数据的直接融合挑战,研究提出了一种基于“多视角学习”(multi-view learning)技术的MVL-SVM模型,具体采用了基于多核学习(multi-kernel learning)的支持向量机算法。以下是该算法的构建与逻辑:

  • 模型设计:MVL-SVM通过融合多视角学习与支持向量机,建立了市场数据与新闻数据的多核学习框架。采用线性核函数与高斯核函数结合,分别处理结构化市场数据与非结构化新闻数据,以实现最佳信息提取。
  • 权重优化:通过网格搜索与交叉验证方法,寻找数据融合过程中最佳核权重($\beta_1$ 和 $\beta_2$)。
  • 目标函数:通过优化Lagrange对偶问题,获得模型的权重参数 $\alpha^$ 和偏置值 $b^$,进而用于预测任务。
3. 性能评估与模型比较

研究基于不同的实验配置对模型进行了全面评估:

  • 实验设置:考虑两种滞后时间(lag)模型:(1)滞后0日模型,利用当日新闻与前一日市场数据预测当日股价表现;(2)滞后1日模型,利用当日新闻与前一日市场数据预测次日股价表现。
  • 比较参数:对比了市场数据模型(SVMmd)、单新闻数据模型(SVMfn)、简单连接多源数据模型(SVMmv)与多视角学习模型(MVL-SVM)的预测准确性。在每项实验中,分别采用不同的训练/测试集比例(60%/40%、75%/25%、90%/10%)。

研究结果

1. MVL-SVM模型的效果

MVL-SVM模型的预测精度显著高于其他模型。在滞后0日与滞后1日的实验中,其预测准确率均稳定保持在84%-87%之间。相比之下,单数据源模型(如SVMfn和SVMmd)在不同实验配置下呈现出更高的不稳定性。

2. 指数建模法与直接融合法的对比

研究还对比了两种数据融合方式的效果: - 指数建模法:将新闻文本数据按频率或情绪指数转化为结构化指标后,进行数据融合。情绪指数基于BERT模型构建,构建过程中情绪分类的准确率为87.13%。然而,采用此方式进行预测时,预测准确率仅为52%-54%。 - 直接融合法:直接融合新闻稀疏矩阵与市场数据,预测准确率达到87.41%,较指数建模法高出30%以上。

3. 模型稳定性分析

MVL-SVM相比传统SVM模型表现出更高的预测稳定性。当训练集比例发生变化时,MVL-SVM的预测准确率波动范围仅为2.37%,而SVMfn的平均波动率达到8.79%。


研究结论与价值

通过本研究,作者提出了一种创新的多源异构数据融合方法,并证明了其在股票价格趋势预测中的高效性与实用性。MVL-SVM模型通过多视角学习框架直接融合市场数据与新闻文本,解决了信息丢失问题,与现有基于指标建模的方法相比,预测准确率显著提高30%以上。

该研究的主要贡献包括: 1. 提供了一种直接融合多源异构数据的新方法,为解决文本信息丢失问题提供了可行途径。 2. 发掘了新闻文本与市场数据集成对股票预测的潜在价值。 3. 展示了利用多视角学习提升预测模型稳定性与准确性的潜力。

在应用层面,该研究为构建更加智能、高效的金融数据分析工具奠定了基础,并对股票市场预测、量化投资和多源金融数据研究具有重要意义。


研究亮点

  1. 模型创新性:引入了多视角学习与多核学习结合的SVM模型,在金融数据融合领域具有新颖性。
  2. 数据处理全面性:采用了高维稀疏矩阵、特征降维、核权重优化等多种技术,对数据融合提供了更科学的路径。
  3. 预测准确率显著提升:基于直接融合方法的MVL-SVM模型预测准确率大幅领先于传统方法。

参考文献

论文引用了多个经典文献(如Deng等2011年、Lin等2022年)与技术算法(如BERT模型),从理论与实证层面丰富了研究基础。这些文献内容也为未来的深入研究提供了宝贵思路。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com