COSTA：用于图对比学习的协方差保持特征增强

分享自：
COSTA：用于图对比学习的协方差保持特征增强

期刊:Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data MiningDOI:10.1145/3534678.3539425
本报告基于发表于2022年第八届ACM SIGKDD知识发现与数据挖掘会议（KDD ‘22）的研究论文《COSTA: Covariance-Preserving Feature Augmentation for Graph Contrastive Learning》，旨在向研究人员全面介绍这项关于图对比学习（GCL）中数据增强策略的创新工作。该论文由香港中文大学的张逸飞、宋子星、Irwin King，以及澳大利亚国立大学和CSIRO Data61的朱浩、Piotr Koniusz共同完成。
一、 研究背景与动机 图对比学习作为图表示学习领域的一项前沿技术，通过构建不同的图视图并对比正负样本，能在无需大量标注数据的情况下学习到有效的节点或图级别表示，从而在众多下游任务（如节点分类、链接预测、推荐系统）中达到领先水平。然而，图对比学习框架中一个至关重要但此前研究相对薄弱的环节是图增强（Graph Augmentation, GA）。当前主流方法通常在输入空间进行随机图增强，例如随机删除边（Edge Perturbation）、随机掩蔽节点属性（Attribute Masking）或随机丢弃节点（Node Dropout）。尽管这些启发式方法取得了一定成功，但其理论基础薄弱，且面临一个关键问题：它们可能会为对比学习引入显著的偏差。
本研究的核心动机源于对图增强潜在缺陷的定量观察。作者通过实验发现，通过传统图增强（如边置换和属性掩蔽）获得的节点嵌入，其分布期望会严重偏离原始未经增强的节点嵌入。这意味着图增强产生的数据视图是有偏的。相反，如果直接在特征空间进行增强（例如向嵌入向量注入高斯噪声），则增强后嵌入的期望会收敛于原始嵌入，符合大数定律（Weak Law of Large Numbers）的预期，是无偏的。在有偏增强下，对比损失函数虽然试图拉近同一节点在不同增强视图下的表示（正样本对），并推远不同节点的表示（负样本对），但这种在特征空间中的“拉近”和“推远”操作，可能无法最优地实现其在原始属性空间中对相关/不相关节点的有效聚集与分离，从而导致预训练得到的特征对于下游任务是次优的。此外，多视图图对比学习通常需要计算多个视图之间的相似度矩阵，其时间和空间复杂度与视图数和节点数成二次关系，在大规模图上面临巨大的计算和内存开销。
因此，本研究旨在解决两个关键问题：1) 如何避免传统图增强带来的偏差问题？2) 能否设计一种更高效且有效的增强策略？为此，作者提出了转向特征增强（Feature Augmentation, FA）的研究思路。
二、 研究方法：COSTA框架 本研究提出了一种名为 COSTA 的协方差保持的特征空间增强框架。COSTA的核心思想是：不在输入图（拓扑和属性）上进行扰动，而是在图神经网络（GNN）编码器提取的隐藏特征空间中，通过生成原始特征的一个“良好草图”（good sketch）来进行特征增强，并且这个草图需要尽可能地保持原始特征的协方差结构（即二阶统计信息）。这种设计从理论上保证了增强特征的质量，并有效避免了传统图增强的偏差。
COSTA框架的详细工作流程如下：
编码与特征提取：首先，使用一个标准的图神经网络编码器（如两层GCN）对原始图进行处理，得到节点的隐藏特征矩阵 H ∈ R^(n×d)，其中n是节点数，d是特征维度。这一步与传统GCL流程一致。
协方差保持的特征增强：这是COSTA的创新核心。给定原始特征矩阵 X（此处在框架中可理解为上一步的H或中间特征），COSTA通过一个线性变换加上可控噪声来生成增强特征矩阵 X̃ ∈ R^(k×d)： X̃ = PX + E 其中，P ∈ R^(k×n) 是一个变换矩阵（可以是确定性的或随机的），E 是随机噪声矩阵。最关键的是，生成 X̃ 的目标是满足以下约束： ‖XᵀX - X̃ᵀX̃‖₂ ≤ ε tr(XᵀX) 这个不等式意味着，增强后特征的协方差矩阵（X̃ᵀX̃）与原始特征的协方差矩阵（XᵀX）之间的谱范数误差是有界的，且这个界限与原始特征的总方差（迹）成正比，由ε控制。这保证了增强特征在二阶统计意义上是对原始特征的很好近似。
矩阵素描实现增强：COSTA通过矩阵素描（Matrix Sketching）技术来具体实现上述增强过程，并提供了理论保证。论文探讨了三种素描方法：
奇异值分解（SVD）：取特征矩阵X的SVD，令P为左奇异向量矩阵的转置。这是一种确定性的、最优的低秩近似方法，但计算成本高。
随机行选择（Random Selection, RS）：按照与行范数成正比的概率随机选择原始特征的行来构成草图。这种方法简单，并给出了误差界的概率保证。
随机投影（Random Projection, RP）：使用一个随机高斯矩阵P对特征进行投影（X̃ = (1/√k) P X）。这是COSTA的默认方案，因为它能在精度和效率之间取得良好平衡。论文证明了，对于任意小的ε，只要投影维度k足够大，RP方法以高概率满足协方差保持的误差界。此外，为加速计算，论文还采用了非常稀疏的随机投影，即P矩阵中大部分元素为0，仅少量元素为非零值，这能显著降低计算量而不明显损害性能。
投影头与对比损失：将增强后的特征（或原始视图与增强视图的特征）输入一个多层感知机（MLP）构成的投影头，映射到对比损失空间。然后应用对比损失函数。
单视图与多视图设置：为凸显特征增强的有效性并提升效率，COSTA不仅支持经典的多视图对比学习（Multi-View GCL, MV-GCL），还创新性地探索了单视图图对比学习（Single-View GCL, SV-GCL）设置。在SV-GCL中，只有一个视图的特征被计算出来，然后模型在这个单一视图内进行“自我对比”，即拉近同一节点通过特征增强得到的两个变体，同时推远该节点与其他所有节点的增强变体。这避免了计算不同视图间的大规模相似度矩阵，大幅节省了内存和计算成本，为公平比较不同增强策略的效果提供了一个更干净的实验环境（避免了多视图本身带来的性能增益混淆）。
三、 实验结果与分析 研究在九个常用的图基准数据集上进行了广泛实验，包括引文网络（Cora, CiteSeer, PubMed等）和社交网络/商品网络（Wiki-CS, Amazon-Computers等），评估任务是节点分类。
偏差问题验证（RQ1）：作者首先通过定量实验证实了传统图增强的偏差问题。他们固定编码器权重，对单个节点生成500个增强样本，计算增强嵌入的均值与原始嵌入的偏差。结果显示，基于边扰动和属性掩蔽的图增强（尤其是边扰动）会导致显著的偏差，且低度节点的偏差更大。由于现实世界的图（如社交网络、引文网络）通常遵循幂律分布（即大多数节点度数很低），这意味着图增强对大多数节点引入了不可忽视的偏差，从而损害对比学习的效果。而特征增强（如高斯噪声注入）则显示出无偏的特性。
与先进方法对比（RQ2）：将COSTA（包括单视图COSTA_SV和多视图COSTA_MV变体）与多种基线方法对比，包括随机游走模型（DeepWalk, Node2Vec）、自编码器模型（GAE, VGAE）以及基于图增强的对比学习模型（DGI, GMI, MVGRL, GRACE, GCA等）。实验结果表明：
性能优越：COSTA在大多数数据集上取得了最优或极具竞争力的分类准确率，证明了特征增强策略的有效性。特别地，即使是单视图的COSTA_SV，其性能也通常与甚至优于复杂的多视图图增强模型（如GRACE, GCA）。
效率优势：由于采用了单视图设置和特征增强（可视为对特征维度的降采样），COSTA_SV的训练时间显著少于多视图对比学习模型（如GRACE, GCA）。随着节点数增加，其速度优势更加明显，在节点数≥5000时可达其他模型的2倍快。
消融与性能分析（RQ3 & RQ4）：
不同素描方法比较：在特征增强中，随机投影（RP）的表现 consistently优于随机行选择、高斯噪声注入和SVD素描。尽管SVD是确定性最优解，但RP引入的随机性起到了正则化作用，且其理论误差界足够小。
增强类型消融：在单视图设置下，分别使用图增强、特征增强、两者结合或无任何增强进行实验。结果显示，特征增强带来的性能提升大于图增强，结合两者仅有微弱额外增益，而无增强时性能最差。这突出了特征增强的核心贡献。
随机投影的必要性：固定每轮训练的随机投影矩阵会导致性能下降，而每轮重新生成随机投影矩阵则带来性能提升，说明其随机性是有效正则化的来源。完全移除随机投影也会损害性能。
降采样与上采样：通过调整变换矩阵P的行数k（即增强特征的“数量”或维度），可以实现对节点维度的下采样（k < n）或上采样（k > n）。实验发现，适度的下采样（如采样率为0.3-0.5）既能取得最佳性能，又能通过减少对比损失计算中的矩阵大小来加速训练。
四、 结论与意义 本研究得出的核心结论是：传统基于拓扑的图增强策略在图对比学习中存在固有的偏差问题，这可能限制模型学习判别性特征的能力。为解决此问题，论文提出了COSTA，一个新颖的协方差保持特征增强框架。COSTA将增强操作从输入图空间转移到隐藏特征空间，并利用矩阵素描技术生成能够很好保持原始特征二阶统计信息的增强特征，从而避免了偏差。此外，COSTA框架天然支持高效的单视图对比学习设置，在取得媲美甚至优于多视图图增强模型性能的同时，显著降低了计算和内存开销。
五、 研究亮点 1. 问题洞察新颖：首次从偏差（Bias）的角度，系统地质疑并定量分析了当前图对比学习中广泛使用的随机图增强策略的潜在缺陷，为领域研究提供了新的批判性视角。 2. 方法创新性强：提出了“特征增强替代图增强”的新范式，并创新性地将矩阵素描这一来自数值线性代数和流数据处理的技术引入图对比学习，用于生成具有理论质量保证（协方差保持）的增强特征。 3. 框架设计高效实用：除了经典的多视图设置，重点探索并验证了单视图图对比学习（SV-GCL）的可行性。COSTA_SV在保持高性能的同时，大幅提升了训练效率，使其更适用于大规模图数据，具有重要的实用价值。 4. 理论扎实，实验全面：研究不仅提供了直观的动机和可视化分析，还为提出的特征增强方法提供了严谨的误差界理论证明（基于SVD、随机行选择和随机投影）。实验部分设计周全，涵盖了偏差验证、与SOTA模型的广泛对比、深入的消融研究以及效率分析，充分验证了方法的有效性和优势。
六、 其他有价值内容 论文在附录中详细给出了三种矩阵素描方法（SVD、随机行选择、随机投影）的误差界完整证明，体现了工作的严谨性。此外，还介绍了采用非常稀疏的随机投影矩阵来进一步加速计算，并实验验证了即使在极低密度（如%）下也能保持良好性能，这为工程实现提供了有价值的优化方向。最后，论文公开了所使用的所有数据集的详细统计信息，确保了实验的可复现性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问