分享自:

基于混合NVM存储系统的范围键值存储PMDB

期刊:IEEE Transactions on ComputersDOI:10.1109/tc.2022.3202755

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


PMDB:基于范围的键值存储在混合NVM-存储系统中的设计与实现

一、研究作者与发表信息
本研究由Baoquan Zhang、Haoyu Gong和David H.C. Du(IEEE Fellow)共同完成,他们均来自美国明尼苏达大学计算机科学与工程系。研究论文发表于2023年5月的《IEEE Transactions on Computers》期刊上。

二、学术背景
随着非易失性内存(Non-Volatile Memory, NVM)技术的快速发展,NVM有望在未来取代DRAM成为主内存。然而,由于数据规模的急剧增长,大部分数据仍需存储在传统存储设备(如SSD或HDD)中。因此,研究如何在NVM与传统存储设备组成的混合系统中高效设计和实现键值存储(Key-Value Store, KV Store)具有重要意义。

现有的键值存储设计在性能上存在权衡:基于日志结构合并树(Log-Structured Merge Tree, LSM-Tree)的设计在写入性能上表现优异,但在读取和范围查询(Range Query)上效率较低;而基于单层存储结构的设计(如SLM-DB)虽然读取性能较好,但在写入和范围查询之间存在显著的性能权衡。为了同时优化写入、读取和范围查询性能,本研究提出了PMDB(Range-Based Key-Value Store),一种基于范围的键值存储系统,专为混合NVM-存储系统设计。

三、研究流程与方法
1. 研究目标与设计思路
PMDB的核心目标是在混合NVM-存储系统中实现高效的写入、读取和范围查询性能。为此,PMDB采用了以下设计思路:
- 基于范围的数据管理:将数据按不相交的键范围分区存储,每个分区在NVM中维护一个独立的写入缓冲区(Memtable)。
- 轻量级NVM索引:在NVM中构建轻量级索引,结合二叉搜索树和区间过滤树(Interval Filter Tree, IFTree)来优化查询效率。
- 两阶段压缩(Compaction):通过分区压缩和范围压缩减少数据重写次数,提升写入性能。

  1. 系统架构与实现
    PMDB的系统架构包括以下主要组件:

    • 分区与键范围管理:将键空间划分为多个不相交的范围,每个分区在NVM中维护一个Memtable。分区的数量随着数据插入动态增加,但受NVM空间限制。
    • 两阶段压缩机制
      • 分区压缩:当分区的Memtable写满后,将其刷新到存储中的暂存空间(Stash Space),并在暂存空间积累一定数量的SST(Sorted String Table)后触发分区压缩。
      • 范围压缩:当某个键范围内的SST数量达到阈值时,触发范围压缩,生成更小的键范围。
    • 轻量级NVM索引:使用二叉搜索树索引分区和键范围,并结合IFTree优化重叠SST的查询效率。IFTree通过布隆过滤器(Bloom Filter)减少不必要的存储读取。
  2. 实验与评估
    研究通过以下实验验证PMDB的性能:

    • 随机写入与读取实验:比较PMDB与现有系统(如SLM-DB和MatrixKV)在随机写入和读取性能上的表现。
    • 范围查询实验:评估PMDB在短范围查询(Range8)和长范围查询(Range64)中的性能。
    • 混合工作负载实验:模拟实际工作负载,测试PMDB在混合操作(写入、读取和范围查询)中的表现。
    • 恢复与空间开销实验:测量PMDB在系统恢复和存储空间使用上的效率。

四、研究结果
1. 随机写入与读取性能
PMDB在随机写入性能上显著优于SLM-DB和MatrixKV,写入延迟降低了50.14%至54.89%,吞吐量提高了2.02至2.28倍。在随机读取性能上,PMDB的读取延迟降低了51.81%至61.54%,吞吐量提高了2.06至2.61倍。

  1. 范围查询性能
    在短范围查询(Range8)中,PMDB的吞吐量比SLM-DB提高了16.82%;在长范围查询(Range64)中,PMDB的吞吐量与MatrixKV接近,比SLM-DB提高了7.23%。

  2. 混合工作负载性能
    在混合工作负载中,PMDB的吞吐量比SLM-DB和MatrixKV分别提高了1.16至1.54倍和1.51至1.62倍。

  3. 恢复与空间开销
    PMDB的系统恢复时间小于1秒,且NVM空间开销比SLM-DB减少了55.67%。

五、研究结论
PMDB通过在混合NVM-存储系统中引入基于范围的数据管理和轻量级NVM索引,成功实现了高效的写入、读取和范围查询性能。实验结果表明,PMDB在混合工作负载中的性能优于现有系统,是唯一能够同时优化三种操作的键值存储系统。

六、研究亮点
1. 创新性设计:PMDB首次在混合NVM-存储系统中采用基于范围的数据管理和两阶段压缩机制,显著减少了数据重写次数。
2. 轻量级索引:通过结合二叉搜索树和IFTree,PMDB在NVM中构建了高效的轻量级索引,优化了查询效率。
3. 广泛适用性:PMDB的设计可应用于多种实际场景,如大数据存储、流处理平台和机器学习管道。

七、其他价值
PMDB的研究为未来混合存储系统的设计提供了新的思路,特别是在NVM与传统存储设备的高效协同方面。其设计理念和方法论可推广到其他存储系统优化中,具有重要的学术和应用价值。


以上是对PMDB研究的详细学术报告,涵盖了研究的背景、方法、结果、结论及其科学价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com