分享自:

保护隐私的分散式POMDP策略迭代方法

期刊:AAAI Conference on Artificial Intelligence (AAAI-18)

类型a:学术研究报告

多智能体决策中的隐私保护政策迭代算法研究

作者及机构
本研究的作者为 Feng Wu(中国科学技术大学计算机科学与技术学院)、Shlomo Zilberstein(美国麻省大学阿默斯特分校信息与计算机科学学院)和 Xiaoping Chen(中国科学技术大学计算机科学与技术学院)。研究成果发表于 2018 年的《The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18)》。

学术背景
本研究属于人工智能领域,特别是多智能体系统(multi-agent systems)部分可观测马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process, Dec-POMDP)的交叉研究。

研究动机:在现实应用中,多个智能体(agents)需要协作完成复杂任务,例如医疗健康、电子商务、传感器网络等。然而,这些智能体可能隶属于不同组织,各自拥有敏感的私有数据(如本地观测信息、行为策略、模型参数等)。当前 Dec-POMDP 求解算法通常假设所有智能体的模型信息完全公开,但在隐私敏感场景下,这一假设不成立。因此,如何在协作规划过程中保护智能体的隐私成为重要挑战。

研究目标:提出首个隐私保护政策迭代算法(Privacy-Preserving Policy Iteration, P3I),以确保在 Dec-POMDP 框架下实现智能体隐私(agent privacy)、模型隐私(model privacy)和决策隐私(decision privacy)。

研究流程
1. 问题建模与理论基础
- Dec-POMDP 形式化描述:智能体集合、状态空间、联合动作、转移函数、观测函数、奖励函数等。
- 隐私分类:定义了三种隐私类型:
- 智能体隐私(agent privacy):隐藏非邻居智能体的身份或存在性。
- 模型隐私(model privacy):保护智能体的本地状态、动作、观测等模型参数。
- 决策隐私(decision privacy):防止其他智能体推断决策规则。
- 使用公钥同态加密系统(public-key homomorphic cryptosystem)(如 Paillier 密码)保护通信数据。

  1. 算法设计

    • 通过分布式消息传递实现隐私保护,智能体按链式结构排列,仅与邻居通信。
    • 主要步骤:
      • 初始化:每个智能体随机初始化本地策略(基于有限状态控制器,FSC)。
      • 多轮试验(trials):智能体执行当前策略,记录本地信息(控制器节点、动作、观测、奖励)。
      • 安全值估计(secure value estimation)
      • 每个智能体计算其局部奖励的加密值 ( e_{pk}(v_i^k) )。
      • 通过同态加密的乘法性质,链式聚合加密的总奖励 ( e_{pk}(v^k) )。
      • 安全策略改进(secure policy improvement)
      • 使用交叉熵方法(Cross-Entropy, CE)优化策略。
      • 通过随机掩码(random masking)随机置换(random permutation)保护试验数据的隐私。
      • 仅解密掩码后的值以筛选最优试验(top-n_b),避免暴露真实奖励。
  2. 隐私分析

    • 智能体隐私:链式通信确保非邻居智能体无法推断其他智能体的存在。
    • 模型隐私:加密奖励和随机化操作防止模型参数泄露。
    • 决策隐私:策略更新仅依赖本地数据,无需共享决策规则。
  3. 实验验证

    • 测试问题:6 个 Dec-POMDP 基准问题(如 dec-tiger、box pushing、mars rovers)。
    • 结果
      • 算法正确性:P3I 与普通 CE 方法(DICE)策略性能一致。
      • 运行时间:加密/解密操作占主要开销(约 7000 秒),但通过并行化可降至 400 秒。
      • 扩展性:运行时间与试验数量呈线性关系。

主要结果与逻辑关系
- 安全值估计:同态加密确保奖励聚合过程的隐私性(Proposition 1)。
- 策略改进:随机掩码和置换使筛选最优试验时无需解密真实值(Proposition 3)。
- 隐私保护:理论证明 P3I 满足三种隐私定义(Propositions 5–7)。

结论与价值
1. 科学价值
- 首次将隐私保护技术引入 Dec-POMDP 求解框架,填补了多智能体规划在隐私安全领域的空白。
- 提出基于同态加密和分布式计算的轻量级隐私保护方案,避免了通用安全多方计算(SMC)的高复杂度。
2. 应用价值
- 适用于医疗协作、跨企业传感器网络等隐私敏感场景。
- 为多组织协作的智能系统提供了可扩展的隐私保护范式。

研究亮点
1. 方法创新
- 结合同态加密与 CE 方法,实现了高效的隐私保护策略优化。
- 链式通信与随机化技术降低了隐私泄露风险。
2. 理论贡献
- 明确定义了 Dec-POMDP 中的隐私类型,并给出形式化证明。

其他价值
- 开源实现基于 Paillier 密码,可供后续研究复现。
- 提出了未来方向:将隐私保护技术集成到其他 Dec-POMDP 求解器中。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com