本文介绍了一项关于数据市场(data marketplace)中私有信息检索(Private Information Retrieval, PIR)的研究,提出了一种名为PAI的新型客户端预处理PIR框架,旨在解决现有PIR技术在效率、功能和易用性方面的不足。该研究由Shuaishuai Li、Weiran Liu、Liqiang Peng、Cong Zhang、Xinwei Gao、Aiping Liang、Lei Zhang、Dongdai Lin和Yuan Hong等作者共同完成,发表在《Proceedings of the VLDB Endowment》期刊上。
数据市场是一个用于交易高质量和私有领域数据的关键平台。数据卖方(服务器)拥有一个私有的键值数据库,并为数据买方(客户端)提供私有查询服务。这种功能与基于关键字的对称隐私私有信息检索(Keyword-based Symmetric Private Information Retrieval, KSPIR)密切相关。现有的客户端预处理PIR模型虽然支持快速的在线检索,但仍存在客户端存储和在线成本较高、仅支持公共数组数据库、实现复杂等问题。为了解决这些缺陷,研究团队提出了PAI框架,旨在实现恒定的在线时间、通信和客户端存储。
PAI框架的核心设计在于离线阶段(预处理),包括以下三个关键步骤: 1. 数据库编码与置换:使用两个随机编码算法分别对索引和条目进行编码,同时对数据库进行随机置换,使得编码后的数据库在服务器看来是伪随机的,同时允许客户端在在线阶段进行检索和解码。 2. 客户端参与的数据库编码:引入离线交互,使得数据库编码和置换由服务器和客户端共同执行。 3. 通过流算法减少带宽:为了降低离线交互的带宽,数据库被表示为二维矩阵,行和列分别进行编码和置换,从而将离线带宽降低到𝑂(√𝑛)。
在在线阶段,客户端发送编码后的索引给服务器,服务器找到并返回匹配的编码值,客户端可以高效解码并得到最终结果。
PAI框架在在线查询时间、通信和客户端存储方面表现出色。实验结果表明,PAI的在线查询时间仅为约1毫秒,通信开销为1KB,适用于大规模键值数据库(如𝑛=2^24)。PAI框架还支持KSPIR和可收费的KSPIR(Chargeable KSPIR, CKSPIR),并在实验中展示了其优越的在线查询性能。
PAI框架通过创新的编码和置换技术,显著降低了PIR的在线成本,适用于数据市场中的实时键值检索。其高效性和易用性使其成为非专业PIR开发者的理想选择。此外,PAI的开源实现和广泛实验验证了其在实际应用中的可行性。
PAI框架的开源实现和实验数据已公开,供其他研究者和开发者参考和使用。研究团队还提供了PAI、Piano和Spam的KSPIR变体的具体实现,并与现有的KSPIR方案进行了对比,展示了PAI在在线查询性能上的显著优势。
PAI框架为数据市场中的私有信息检索提供了一种高效、易用的解决方案,具有重要的科学和应用价值。