分享自:

个性化本地差分隐私的多维数据聚合研究

期刊:security and communication networksDOI:10.1155/2021/6684179

个性化本地差分隐私的多维数据聚合研究学术报告

第一作者及研究机构
本研究的通讯作者为Zhihua Xia(邮箱:xia_zhihua@163.com),团队成员包括Zixuan Shen、Zhihua Xia和Peipeng Yu,均来自南京信息工程大学计算机与软件学院(School of Computer and Software, Nanjing University of Information Science and Technology)。该研究于2021年1月28日发表在期刊《Security and Communication Networks》(2021卷,文章ID 6684179),隶属于Hindawi出版社,开放获取(Creative Commons Attribution License)。

学术背景与研究目标
本研究属于隐私保护计算领域,聚焦于本地差分隐私(Local Differential Privacy, LDP)技术在大数据多维数据聚合中的应用。随着企业和机构对高维众源数据(crowdsourced data)的收集需求增长,数据所有者的隐私保护成为核心挑战。传统LDP方案虽能保护数据,但忽视了用户对不同数据维度的个性化隐私需求。例如,用户可能对“年龄”维度要求高隐私保护,而对“兴趣爱好”维度接受较低保护。现有LDP协议通常由服务器统一分配隐私预算(privacy budget),无法满足这种差异化需求。

为此,作者提出个性化本地差分隐私(Personalized LDP, PLDP)框架,旨在解决以下问题:
1. 如何让数据所有者自主分配隐私预算至不同数据维度?
2. 如何在满足个性化隐私的前提下,实现高精度的多维数据联合分布估计?
3. 如何设计高效的扰动机制与聚合算法以支持实际应用?

研究流程与方法
研究分为四个核心环节:

1. PLDP框架设计

  • 隐私预算分配:服务器设定全局平均隐私预算(ε_average),数据所有者根据自身需求将总预算(ε_total = m × ε_average)分配到m个非空数据维度。例如,用户可对敏感维度分配高预算(低噪声),对非敏感维度分配低预算(高噪声)。
  • 安全保证:用户无需向服务器上报预算分配细节,仅提交扰动后的数据和总预算,避免隐私泄露。

2. 扰动机制开发(PMOUE算法)

作者提出个性化多优化一元编码(Personalized Multiple Optimized Unary Encoding, PMOUE)算法,其核心步骤包括:
- 编码阶段:将每个数据维度(如“性别=男”)编码为二进制向量(如[0,1,0])。
- 扰动阶段:根据分配的隐私预算ε_i,按概率翻转二进制位:
- 若原值为1,以概率p=0.5保持1;
- 若原值为0,以概率q=1/(e^ε_i +1)翻转成1。
- 理论证明:PMOUE满足ε_total-PLDP,即总隐私预算约束下的差分隐私。

3. 多维数据聚合算法

针对服务器端数据稀疏性问题(用户可能缺失部分维度),研究提出两种场景的聚合方案:
- 场景1(目标维度存在于部分记录)
1. 分组校准:将包含目标k维度的记录分组,统计扰动后数据的“1”比特数,通过最大似然估计校准频数。
2. Lasso回归:构建候选值矩阵(Cartesian积编码),利用Lasso回归解决稀疏性问题,估计联合分布。
- 场景2(目标维度无完整记录)
1. 属性划分:基于信息熵(information entropy)将k维属性划分为两组(如A1和A2),最大化两组独立性。
2. 分布合成:分别估计A1和A2的分布,通过乘法原理合成联合分布。

4. 实验验证

在四个真实数据集(Adult、Abalone、Bank Marketing、Car Evaluation)上对比PLDP与传统LDP方案(如LoPub):
- 准确性:PLDP在平均变异距离(AVD)指标上与传统方案相当(如k=2时AVD≈0.28)。
- 效率:PLDP的聚合时间显著低于LoPub(如k=4时,PLDP耗时3秒,LoPub需迭代扫描数据)。
- 个性化优势:通过加权隐私预算(ε_w)证明PLDP提供更强的隐私保障(ε_w < ε_total)。

主要结果与结论
1. 理论贡献
- 提出PLDP框架,扩展了LDP的个性化能力,支持用户自主分配隐私预算。
- 证明PMOUE算法满足ε_total-PLDP,且无需上报预算分配细节。
2. 技术贡献
- 结合Lasso回归与信息熵的聚合算法,有效解决高维稀疏数据估计问题。
- 实验显示PLDP在保持实用性的同时,隐私保护强度优于传统LDP。
3. 应用价值
- 适用于医疗、金融等需兼顾数据效用与隐私的场景,如苹果Emoji使用分析、微软用户行为统计。

研究亮点
1. 个性化隐私预算分配:首次在LDP中引入用户主导的隐私预算分配机制。
2. 高效聚合算法:通过非迭代式Lasso回归降低计算复杂度,适合大规模数据。
3. 理论严密性:严格证明PMOUE的隐私保障性质,提出ε_w量化真实隐私水平。

其他价值
- 开源数据验证:全部实验基于公开数据集,结果可复现。
- 跨领域适用性:方法可扩展至其他需局部隐私保护的分布式计算场景。

本研究为多维数据隐私保护提供了兼顾个性化与实用性的新思路,未来可进一步探索动态隐私预算分配与更复杂的依赖关系建模。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com