该研究的标题为“Comparative Research on Multi-Source Heterogeneous Data Fusion Technologies”,第一作者为Wen Long,合作者包括Jing Gao和Man Guo。他们分别隶属于University of Chinese Academy of Sciences的School of Economics and Management、Chinese Academy of Sciences的Research Center on Fictitious Economy & Data Science以及Key Laboratory of Big Data Mining & Knowledge Management。文章发表于《Procedia Computer Science》第242卷(2024年),由Elsevier B.V.出版,并属于开放获取文章(CC BY-NC-ND 4.0)。
本研究属于金融数据融合与股票价格预测领域。近年来,金融领域的研究表明,股票价格波动不仅受到结构化市场数据(如交易量、成交量等)的影响,还受非结构化的新闻数据(如财经新闻文本)的显著影响。然而,仅依靠单一数据源进行股票价格的趋势预测容易带来信息偏差,导致模型预测效果受限。现有研究大多将新闻媒体中的文本信息提取为结构化的指标,例如频率统计或情绪分析,但此过程中会丢失大量语义层面的信息。
本研究旨在解决这一问题,构建一个能够综合多源异构数据的预测模型。目标是通过有效的数据融合技术,充分挖掘市场数据与新闻数据中的隐含信息,从而提高股票价格趋势的预测准确性。
研究采用了三个核心步骤进行分析:数据收集与预处理、模型构建与训练,以及模型比较与评估。
研究选取了上证50指数成分股作为研究对象,分析时间范围为2018年1月1日至2020年12月31日。由于新上市股票波动较大,共剔除了在2016年1月1日后上市的公司,并排除了因缺乏相关新闻数据而无法参与研究的个股,最终研究样本共计37支股票。
为应对结构化数据与非结构化数据的直接融合挑战,研究提出了一种基于“多视角学习”(multi-view learning)技术的MVL-SVM模型,具体采用了基于多核学习(multi-kernel learning)的支持向量机算法。以下是该算法的构建与逻辑:
研究基于不同的实验配置对模型进行了全面评估:
MVL-SVM模型的预测精度显著高于其他模型。在滞后0日与滞后1日的实验中,其预测准确率均稳定保持在84%-87%之间。相比之下,单数据源模型(如SVMfn和SVMmd)在不同实验配置下呈现出更高的不稳定性。
研究还对比了两种数据融合方式的效果: - 指数建模法:将新闻文本数据按频率或情绪指数转化为结构化指标后,进行数据融合。情绪指数基于BERT模型构建,构建过程中情绪分类的准确率为87.13%。然而,采用此方式进行预测时,预测准确率仅为52%-54%。 - 直接融合法:直接融合新闻稀疏矩阵与市场数据,预测准确率达到87.41%,较指数建模法高出30%以上。
MVL-SVM相比传统SVM模型表现出更高的预测稳定性。当训练集比例发生变化时,MVL-SVM的预测准确率波动范围仅为2.37%,而SVMfn的平均波动率达到8.79%。
通过本研究,作者提出了一种创新的多源异构数据融合方法,并证明了其在股票价格趋势预测中的高效性与实用性。MVL-SVM模型通过多视角学习框架直接融合市场数据与新闻文本,解决了信息丢失问题,与现有基于指标建模的方法相比,预测准确率显著提高30%以上。
该研究的主要贡献包括: 1. 提供了一种直接融合多源异构数据的新方法,为解决文本信息丢失问题提供了可行途径。 2. 发掘了新闻文本与市场数据集成对股票预测的潜在价值。 3. 展示了利用多视角学习提升预测模型稳定性与准确性的潜力。
在应用层面,该研究为构建更加智能、高效的金融数据分析工具奠定了基础,并对股票市场预测、量化投资和多源金融数据研究具有重要意义。
论文引用了多个经典文献(如Deng等2011年、Lin等2022年)与技术算法(如BERT模型),从理论与实证层面丰富了研究基础。这些文献内容也为未来的深入研究提供了宝贵思路。