无需数据揭示秘密：图神经网络是否可能通过无数据模型提取攻击被利用？

分享自：
无需数据揭示秘密：图神经网络是否可能通过无数据模型提取攻击被利用？

期刊:33rd USENIX Security Symposium
针对图神经网络的数据无关模型窃取攻击：StealGNN框架研究
一、 研究团队、发表期刊与时间
本研究报告由来自北京邮电大学的庄原鑫（Yuanxin Zhuang）、石川（Chuan Shi）、张萌妹（Mengmei Zhang），来自宾夕法尼亚州立大学的陈静辉（Jinghui Chen），来自索尼人工智能研究院（Sony AI）的吕令婕（Lingjuan Lyu），来自华中科技大学的周攀（Pan Zhou），以及来自里海大学（Lehigh University）的孙立超（Lichao Sun）共同完成。该研究以论文“Unveiling the Secrets without Data: Can Graph Neural Networks be Exploited through Data-Free Model Extraction Attacks?”的形式，发表于第33届USENIX安全研讨会（USENIX Security Symposium）的会议论文集。该会议于2024年8月14日至16日在美国费城举行。
二、 学术背景与研究目的
图神经网络（Graph Neural Networks， GNNS）已成为处理图结构数据（如社交网络、生物分子网络、推荐系统）的核心技术，并在医疗、金融、生物信息等关键领域得到广泛应用。与许多深度学习模型一样，训练强大的GNN模型需要依赖大规模、通常包含敏感信息的数据集。同时，模型所有者可能通过API提供查询服务，或共享预训练模型供下游任务使用，这引发了模型知识产权（Intellectual Property, IP）的安全担忧。
模型窃取攻击（Model Extraction Attacks）旨在通过向目标模型（受害者模型）发送查询并收集其输出，来训练一个功能相近的替代模型（Surrogate Model），从而窃取模型的参数、架构或行为。然而，现有的针对GNN的模型窃取攻击研究普遍基于一个不现实的假设：攻击者能够获取受害者模型训练数据的某些信息，例如节点特征、图结构或影子数据集。在实际场景中，由于隐私和安全考虑，这些原始训练数据往往是高度保密且无法访问的。此外，先前的研究大多集中于节点分类（Node Classification）任务，而忽略了同样至关重要的链路预测（Link Prediction）任务，且主要关注特定场景（如仅适用于训练时可见节点的转导式GNNs或适用于新节点的归纳式GNNs）。
因此，本研究的核心目的是填补这一空白，探索并验证在数据无关（Data-Free）场景下对GNNs进行模型窃取攻击的可行性。具体而言，本研究旨在设计一个无需任何真实图数据（包括节点特征和图结构）即可实施的攻击框架，使其能够应对最困难的黑盒、硬标签（Hard-Label）攻击设置，并同时适用于节点分类和链路预测两种主要图任务，从而全面评估GNN模型在现实威胁下所面临的知识产权风险。
三、 详细研究流程与方法
本研究提出了一种名为StealGNN的开创性数据无关模型窃取攻击框架。其核心思想是使用一个可训练的图生成器（Graph Generator）来合成查询用的图数据，而非依赖真实数据。整个攻击流程围绕生成器与替代模型的对抗性训练展开。
1. 威胁模型设定： * 攻击者设置： 采用最具挑战性的黑盒攻击。攻击者对受害者模型的架构、参数、超参数一无所知，仅能通过查询API获得预测结果（本研究聚焦于仅能获得预测类别“硬标签”的场景）。 * 攻击者目标： 训练一个替代模型，使其在功能上（预测准确性、决策边界）与受害者模型高度相似。
2. StealGNN攻击框架工作流程： 攻击框架包含两个核心组件：图生成器（$M_g$）和替代模型（$M_s$）。受害者模型（$M_v$）是待窃取的黑盒目标。 * 数据流： 首先，从标准正态分布中采样一个随机噪声向量$z$。图生成器$M_g$接收$z$，生成一个合成图$G$。接着，将$G$同时输入受害者模型$M_v$和替代模型$M_s$，得到各自的输出（$M_v$输出硬标签$\vec{y}_v$，$M_s$输出软标签/概率分布$\vec{p}_s$）。 * 训练过程： 采用类似生成对抗网络（GAN）的交替训练策略。 * 训练替代模型： 固定生成器，使用交叉熵损失函数训练替代模型$M_s$，使其预测$\vec{p}_s$尽可能接近受害者模型的硬标签$\vec{y}v$。损失函数为 $L{M_s} = CE(M_s(G;\theta_s), M_v(G;\theta_v))$。 * 训练图生成器： 固定替代模型，训练生成器$M_g$以最大化替代模型与受害者模型之间的差异（即最小化替代模型的损失，或最大化某种不一致性），从而鼓励生成器产生对模型提取“有价值”（能暴露模型间差异）的图数据。
3. 图生成器的设计与类型： 图生成器由特征生成器和结构生成器两部分组成。 * 特征生成器（$M_{gf}$）： 一个全连接网络，将噪声向量$z$映射为指定节点数$n$和特征维度$d$的节点特征矩阵$F$。 * 结构生成器（$M_{ga}$）： 本研究设计了两种类型： * 余弦相似度生成器： 基于生成的节点特征$F$，计算节点间的余弦相似度作为邻接矩阵的初始权重，并通过阈值$\tau$进行稀疏化处理（大于阈值则边存在，否则不存在）。该方法无需额外训练参数。 * 全参数化生成器： 直接学习一个可优化的参数矩阵$\thetaa \in R^{n \times n}$作为邻接矩阵的基础。通过激活函数、对称化处理和归一化操作，得到合法的邻接矩阵$A{fp}$。此外，引入一个自监督训练任务（类似于去噪自编码器），使用一个辅助GNN模型$h$对添加噪声的特征进行重构，以驱动结构生成器学习有意义的图结构，损失函数为$L_{denoise}$。这使生成器能产生更复杂多样的图结构。
4. 三种梯度更新策略（攻击类型）： 由于无法直接获取受害者模型的梯度来更新生成器，本研究基于生成器参数更新时的梯度来源，提出了三种攻击类型： * 类型 I 攻击： 梯度通过替代模型和一个对受害者模型的梯度估计反向传播。使用零阶梯度估计方法（Zeroth-Order Gradient Estimation），通过向生成图添加微小扰动并查询受害者模型输出的变化来近似其梯度。结合替代模型的梯度，共同更新生成器。 * 类型 II 攻击： 梯度仅通过替代模型反向传播。随着替代模型逐渐模仿受害者模型，其梯度可被视为受害者模型梯度的合理近似，用于更新生成器。 * 类型 III 攻击： 同时训练两个替代模型。生成器的训练目标是最大化这两个替代模型在生成图上的预测不一致性（通过计算其预测的标准差作为损失）。这种不一致性迫使生成器产生那些至少能让一个替代模型从受害者模型学到新知识的“信息丰富”的图，避免生成过于简单、无助于学习的图。
5. 实验设置与评估： * 数据集： 使用四个公开基准图数据集：Cora, PubMed, Amazon-Computers (A-Computers), OGB-Arxiv。 * 受害者与替代模型： 选用广泛使用的GNN模型（GCN, GAT, GraphSage）作为受害者模型和替代模型的基础架构。 * 基线方法： 包括使用真实数据进行提取、使用未经训练的随机噪声生成图进行提取。 * 评估指标： 使用准确性（替代模型在真实测试集上的分类/预测准确率）和保真度（替代模型与受害者模型在测试集上预测结果的一致性比例）来衡量攻击效果。 * 任务范围： 在归纳式和转导式（见附录）场景下，分别评估了节点分类和链路预测任务的攻击效果。
四、 主要研究结果
1. 核心攻击性能（表3，节点分类-归纳场景）： 实验结果表明，StealGNN在所有三种攻击类型下均取得了显著成效。 * 与基线对比： 使用真实数据的提取方法效果最佳，但其假设不现实。使用随机图的方法效果很差，证明了无引导的随机生成无法有效提取知识。而StealGNN的三种攻击方法均大幅超越随机图基线，并接近甚至在某些情况下超越了使用真实数据的效果（表中红色字体部分）。 * 攻击类型比较： 总体而言，类型 III 攻击表现最为稳健和优异，在多数数据集和模型组合上取得了最高的准确性。这得益于其利用两个替代模型的不一致性来引导生成器产生更具信息量的查询图。 * 结构生成器比较： 全参数化生成器（$a{fp}$）通常优于余弦相似度生成器（$a{cos}$）和仅含自环的简单结构（$e$）。全参数化方法因其能通过自监督学习生成更多样化的图结构，从而促进了更有效的知识迁移。 * 任务普适性（表4，链路预测）： StealGNN在链路预测任务上也表现出色，其替代模型能够较好地模仿受害者模型的链路预测能力，证明了该框架对不同图任务的广泛适用性。
2. 模型分析结果： * 生成图的作用量化（图3）： 通过逐步混合真实数据与生成数据进行提取实验，发现需要相当大比例（例如在Cora数据集上约需40%）的真实数据，才能达到与纯数据无关的StealGNN攻击（0%真实数据）相当的准确率。这强有力地证明了生成图在知识提取过程中扮演了关键角色，有效弥补了真实数据的缺失。 * 受害者与替代模型架构不匹配的鲁棒性（图4）： 即使攻击者使用的替代模型架构（如GAT）与未知的受害者模型架构（如GraphSage）不同，StealGNN仍然能够成功提取出高性能的替代模型，显示了其在实际未知环境下的实用性和鲁棒性。 * 替代模型容量影响（图5）： 替代模型的容量（层数、隐藏单元数）影响提取效果。容量适中的模型（如2层256隐藏单元）通常表现最好，而过小的容量会限制其学习受害者模型复杂功能的能力。
3. 参数分析结果： * 生成图规模（图6）： 即使生成的图节点数很少（如50个节点），攻击仍能取得不错效果。随着生成图节点数增加，性能一般会提升，在250个节点左右达到良好平衡。 * 稀疏化阈值$\tau$（图7）： 对于余弦相似度生成器，阈值$\tau$控制图稀疏度。阈值过小（图过密）或过大（图过稀）都会损害性能。选择适中的阈值（如0.1）能产生与真实数据分布更匹配的图结构，有利于提取。
4. 与现有方法对比（表6）： 在部分信息可用的混合场景下（例如，使用真实邻接矩阵+生成特征，或使用真实特征+生成邻接矩阵），StealGNN（类型III-$a_{fp}$）的性能均优于此前需要部分真实数据假设的工作（如Wu等人[39]的方法）。这进一步证明了StealGNN框架的优越性。
五、 研究结论与价值
本研究首次系统性地提出并验证了针对图神经网络的数据无关模型窃取攻击的可行性与严重性。所提出的StealGNN框架在无需任何真实训练数据的前提下，仅通过查询黑盒受害者模型获得的硬标签，即可训练出功能高度近似的替代模型。
科学价值： 1. 揭示了GNN模型的新安全漏洞： 证明了即使在最严格的数据保护假设下（攻击者无法获取任何原始数据），GNN模型的知识产权仍可能通过精心设计的查询被窃取。 2. 提出了创新的攻击方法论： 设计了结合可训练图生成器与多种梯度更新策略的通用攻击框架，为解决图数据离散性、结构属性生成等挑战提供了新思路。 3. 拓展了模型窃取的研究范畴： 将数据无关攻击从计算机视觉领域成功延伸至图学习领域，并同时涵盖了节点分类和链路预测两大核心任务，以及转导与归纳两种学习场景，提供了更全面的安全评估视角。
应用价值与警示： 1. 对模型部署者的警示： 研究结果表明，仅依靠“不公开训练数据”或“仅返回硬标签”不足以保护GNN模型的知识产权。模型服务提供商需要重新评估其API服务的安全策略，考虑部署更高级的防御机制。 2. 推动防御技术发展： 本研究暴露的威胁促进了针对此类数据无关、硬标签设置下的模型提取攻击的防御研究需求，例如自适应防御、基于差分隐私的输出保护等。 3. 为安全评估提供基准： StealGNN可作为一种强大的基准测试工具，用于评估未来GNN模型及其保护机制在面对最恶劣窃取威胁时的鲁棒性。
六、 研究亮点
首创性： 这是首个针对GNN的、完全数据无关的模型提取攻击框架研究。
高威胁设定： 专注于最现实且最具挑战性的黑盒、硬标签攻击场景，使研究结论更具实际安全意义。
系统性与全面性： 不仅提出单一方法，而是系统性地研究了三种不同的攻击变体（类型I、II、III）和两种图生成策略，并进行了详尽的消融实验与参数分析。
任务普适性： 成功将攻击应用于节点分类和链路预测两大核心图学习任务，证明了威胁的广泛性。
出色的实证效果： 在多个标准数据集和不同GNN模型上，StealGNN均展现出接近甚至有时超越使用真实数据提取方法的性能，强有力地证实了攻击的有效性。
七、 其他有价值内容
论文还简要讨论了StealGNN的局限性（如对查询访问的依赖）和可能的防御方向。作者指出，传统的通过扰动输出概率但保持标签不变的防御方法对硬标签设置下的StealGNN无效。这强调了需要开发新型的、能够权衡安全性与模型实用性的防御策略，例如检测异常查询模式的自适应机制或将差分隐私集成到GNN输出中。这些讨论为后续的安全研究指明了有价值的探索路径。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问