多源异构数据融合技术的比较研究

分享自：
多源异构数据融合技术的比较研究

期刊:Procedia Computer ScienceDOI:10.1016/j.procs.2024.08.198
研究报告作者与发表信息该研究的标题为“Comparative Research on Multi-Source Heterogeneous Data Fusion Technologies”，第一作者为Wen Long，合作者包括Jing Gao和Man Guo。他们分别隶属于University of Chinese Academy of Sciences的School of Economics and Management、Chinese Academy of Sciences的Research Center on Fictitious Economy & Data Science以及Key Laboratory of Big Data Mining & Knowledge Management。文章发表于《Procedia Computer Science》第242卷（2024年），由Elsevier B.V.出版，并属于开放获取文章（CC BY-NC-ND 4.0）。
研究背景本研究属于金融数据融合与股票价格预测领域。近年来，金融领域的研究表明，股票价格波动不仅受到结构化市场数据（如交易量、成交量等）的影响，还受非结构化的新闻数据（如财经新闻文本）的显著影响。然而，仅依靠单一数据源进行股票价格的趋势预测容易带来信息偏差，导致模型预测效果受限。现有研究大多将新闻媒体中的文本信息提取为结构化的指标，例如频率统计或情绪分析，但此过程中会丢失大量语义层面的信息。
本研究旨在解决这一问题，构建一个能够综合多源异构数据的预测模型。目标是通过有效的数据融合技术，充分挖掘市场数据与新闻数据中的隐含信息，从而提高股票价格趋势的预测准确性。
研究方法与流程研究采用了三个核心步骤进行分析：数据收集与预处理、模型构建与训练，以及模型比较与评估。
1. 数据收集与样本选择研究选取了上证50指数成分股作为研究对象，分析时间范围为2018年1月1日至2020年12月31日。由于新上市股票波动较大，共剔除了在2016年1月1日后上市的公司，并排除了因缺乏相关新闻数据而无法参与研究的个股，最终研究样本共计37支股票。
市场数据：选取了四类常用指标作为输入变量，包括每日股票收益率（log收益率）、交易量（TV）、换手率（TR）和总市值（ME）。
新闻数据：从UQER数据库收集了上述37支股票的496,014条新闻报道，包含时间、标题、摘要及正文内容。在预处理阶段，对新闻文本进行了去噪、分词、停用词去除等操作，并通过词袋模型表示新闻文本，随后使用 $\chi^2$ 统计方法从稀疏矩阵中提取重要特征词并降维。
2. 模型构建与算法创新为应对结构化数据与非结构化数据的直接融合挑战，研究提出了一种基于“多视角学习”（multi-view learning）技术的MVL-SVM模型，具体采用了基于多核学习（multi-kernel learning）的支持向量机算法。以下是该算法的构建与逻辑：
模型设计：MVL-SVM通过融合多视角学习与支持向量机，建立了市场数据与新闻数据的多核学习框架。采用线性核函数与高斯核函数结合，分别处理结构化市场数据与非结构化新闻数据，以实现最佳信息提取。
权重优化：通过网格搜索与交叉验证方法，寻找数据融合过程中最佳核权重（$\beta_1$ 和 $\beta_2$）。
目标函数：通过优化Lagrange对偶问题，获得模型的权重参数 $\alpha^$ 和偏置值 $b^$，进而用于预测任务。
3. 性能评估与模型比较研究基于不同的实验配置对模型进行了全面评估：
实验设置：考虑两种滞后时间（lag）模型：（1）滞后0日模型，利用当日新闻与前一日市场数据预测当日股价表现；（2）滞后1日模型，利用当日新闻与前一日市场数据预测次日股价表现。
比较参数：对比了市场数据模型（SVMmd）、单新闻数据模型（SVMfn）、简单连接多源数据模型（SVMmv）与多视角学习模型（MVL-SVM）的预测准确性。在每项实验中，分别采用不同的训练/测试集比例（60%/40%、75%/25%、90%/10%）。
研究结果1. MVL-SVM模型的效果MVL-SVM模型的预测精度显著高于其他模型。在滞后0日与滞后1日的实验中，其预测准确率均稳定保持在84%-87%之间。相比之下，单数据源模型（如SVMfn和SVMmd）在不同实验配置下呈现出更高的不稳定性。
2. 指数建模法与直接融合法的对比研究还对比了两种数据融合方式的效果： - 指数建模法：将新闻文本数据按频率或情绪指数转化为结构化指标后，进行数据融合。情绪指数基于BERT模型构建，构建过程中情绪分类的准确率为87.13%。然而，采用此方式进行预测时，预测准确率仅为52%-54%。 - 直接融合法：直接融合新闻稀疏矩阵与市场数据，预测准确率达到87.41%，较指数建模法高出30%以上。
3. 模型稳定性分析MVL-SVM相比传统SVM模型表现出更高的预测稳定性。当训练集比例发生变化时，MVL-SVM的预测准确率波动范围仅为2.37%，而SVMfn的平均波动率达到8.79%。
研究结论与价值通过本研究，作者提出了一种创新的多源异构数据融合方法，并证明了其在股票价格趋势预测中的高效性与实用性。MVL-SVM模型通过多视角学习框架直接融合市场数据与新闻文本，解决了信息丢失问题，与现有基于指标建模的方法相比，预测准确率显著提高30%以上。
该研究的主要贡献包括： 1. 提供了一种直接融合多源异构数据的新方法，为解决文本信息丢失问题提供了可行途径。 2. 发掘了新闻文本与市场数据集成对股票预测的潜在价值。 3. 展示了利用多视角学习提升预测模型稳定性与准确性的潜力。
在应用层面，该研究为构建更加智能、高效的金融数据分析工具奠定了基础，并对股票市场预测、量化投资和多源金融数据研究具有重要意义。
研究亮点模型创新性：引入了多视角学习与多核学习结合的SVM模型，在金融数据融合领域具有新颖性。
数据处理全面性：采用了高维稀疏矩阵、特征降维、核权重优化等多种技术，对数据融合提供了更科学的路径。
预测准确率显著提升：基于直接融合方法的MVL-SVM模型预测准确率大幅领先于传统方法。
参考文献论文引用了多个经典文献（如Deng等2011年、Lin等2022年）与技术算法（如BERT模型），从理论与实证层面丰富了研究基础。这些文献内容也为未来的深入研究提供了宝贵思路。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问