分享自:

基于NVM的物联网时间序列数据分层异构索引研究

期刊:2024 IEEE International Conference on Systems, Man, and Cybernetics (SMC)

这篇文档属于类型a,即报告了一项原创性研究。以下是基于文档内容的学术报告:

主要作者及机构

本研究的主要作者包括Tao Cai、Jianfei Dai、Tianle Lei、Zeyu Huang、Dejiao Niu和Qiangqiang Ni,均来自江苏大学计算机科学与通信工程学院。该研究于2024年10月6日至10日在IEEE国际系统、人与控制论会议(SMC)上发表。

学术背景

本研究的科学领域为物联网(IoT)时间序列数据存储系统,特别是针对非易失性存储器(NVM)的索引优化。当前,大多数时间序列数据存储系统基于HDD或SSD设计,这些索引无法充分利用NVM的性能优势,且未针对IoT时间序列数据的特性进行优化。IoT时间序列数据具有大规模、高生成频率、固定时间间隔、高重复率等特点,通常以压缩格式存储,主要查询条件为生成时间戳。这些特性对数据存储和管理提出了巨大挑战。现有的B+树和LSM-tree等索引结构在存储开销、写入性能和时间戳查询优化方面存在不足,且未充分利用NVM的高读写速度和字节寻址特性。因此,本研究旨在设计一种适用于IoT时间序列数据和NVM的分层异构索引,以提升存储和查询效率。

研究流程

本研究分为多个步骤,具体如下:

  1. 分层异构索引设计
    首先,研究团队设计了一种分层异构索引结构,将IoT时间序列数据压缩为数据块,并将多个数据块组成块组,以降低管理复杂度。每个块组内使用跳表(Skip List)索引数据块,同时提取块组的时间信息,构建基于TS-Radix树的全局索引。这种分层异构索引结构能够适应IoT时间序列数据和NVM的特性。

  2. 有序跳表构建策略
    针对跳表索引节点生成随机性的问题,研究团队提出了一种有序构建策略。该策略根据数据块的压缩率(block_compression)和块组的压缩率(group_compression)预测索引节点的生成,并通过公式计算索引生成因子(index_weight),以确定索引节点的层级。该策略能够适应不同数据块密度的不均匀性,提高跳表索引的效率。

  3. 跳表压缩与重建策略
    为了减少跳表在NVM中的存储开销,研究团队设计了一种压缩与重建策略。在数据块写入NVM后,删除跳表的高层级索引节点,仅保留第二层节点,并将第一层节点存储在每个数据块中。当需要查询时,根据第二层节点在DRAM中重建跳表。该策略有效减少了跳表的存储空间占用,并延长了NVM的使用寿命。

  4. TS-Radix树设计
    研究团队设计了一种TS-Radix树,用于替代Bloom Filter(布隆过滤器)识别目标块组。TS-Radix树利用时间戳前缀的高相似性,支持精确匹配、范围查询和扫描操作,并避免了Bloom Filter的误判问题。其查询复杂度为O(k),显著提高了查询效率和稳定性。

  5. 原型实现与性能评估
    研究团队在Intel Optane DC持久内存驱动中实现了上述策略,并开发了一个名为HHIMTSMS的原型系统。为了验证其性能,研究团队构建了InfluxDB、OpenTSDB和KairosDB的原型系统,并使用YCSB-TS测试工具进行对比测试。测试环境包括Intel Xeon Platinum 8222L CPU、128GB内存和2×128GB Intel Optane DC持久内存。

主要结果

  1. 随机查询性能
    在均匀分布和Zipfian分布下,HHIMTSMS的随机查询吞吐量均显著优于其他系统。在均匀分布下,HHIMTSMS的吞吐量比InfluxDB提高22.7%至34.1%,比OpenTSDB提高189.8%,比KairosDB提高42.1%至82.1%。在Zipfian分布下,HHIMTSMS的吞吐量比InfluxDB提高42.8%,比OpenTSDB提高208.5%,比KairosDB提高91.8%。此外,随着数据规模从100万增加到2000万,HHIMTSMS的吞吐量仅下降17.4%,表现出更高的稳定性。

  2. 扫描性能
    在扫描测试中,HHIMTSMS的吞吐量比InfluxDB提高29.1%至43.6%,比OpenTSDB提高117.4%至262.4%,比KairosDB提高44.8%至68.1%。随着数据规模增加,HHIMTSMS的吞吐量仅下降9.8%,表现出更好的稳定性。

结论

本研究设计了一种基于NVM的分层异构IoT时间序列数据索引HHIMTSMS,通过有序跳表构建策略、跳表压缩与重建策略以及TS-Radix树,显著提升了随机查询和扫描性能。实验结果表明,HHIMTSMS在吞吐量和稳定性方面均优于现有系统,为大规模IoT时间序列数据的高效存储和查询提供了新的解决方案。

研究亮点

  1. 创新性索引设计:本研究首次提出了一种适用于NVM的分层异构索引结构,能够有效管理大规模IoT时间序列数据。
  2. 高效查询性能:通过有序跳表构建策略和TS-Radix树,HHIMTSMS在随机查询和扫描性能上均实现了显著提升。
  3. 稳定性:随着数据规模增加,HHIMTSMS的性能下降幅度较小,表现出更高的稳定性。

其他价值

本研究不仅为IoT时间序列数据存储系统提供了新的索引设计思路,还为NVM在数据管理领域的应用提供了实践参考。此外,研究团队开发的HHIMTSMS原型系统为相关领域的研究和开发提供了重要的技术基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com