这篇文档属于类型a,是一篇关于图神经网络(Graph Neural Networks, GNNs)预测错误诊断的原创性研究论文。以下是对该研究的详细介绍:
该研究由香港科技大学的Zhihua Jin和Huamin Qu、新加坡管理大学的Yong Wang、哈佛大学的Qianwen Wang、Bloomberg LP的Yao Ming以及IBM T. J. Watson研究中心的Tengfei Ma共同完成。论文标题为《GNNLens: A Visual Analytics Approach for Prediction Error Diagnosis of Graph Neural Networks》,发表于IEEE Transactions on Visualization and Computer Graphics(TVCG)期刊,2023年6月第29卷第6期。
图神经网络(GNNs)是近年来图数据分析领域的重要突破,广泛应用于节点分类、链接预测等任务。然而,与其他深度学习模型类似,GNNs的“黑箱”特性使得模型开发者和用户难以理解其内部工作机制,尤其是预测错误的根源。尽管针对卷积神经网络(CNNs)和循环神经网络(RNNs)的可视化分析研究较多,但针对GNNs的研究仍处于起步阶段。因此,本研究旨在填补这一空白,开发一种交互式可视化分析工具GNNLens,帮助用户理解和诊断GNN模型的预测错误。
研究团队与两位GNN专家合作,通过四个月的迭代开发,明确了以下设计需求:
- R1:提供GNN结果的全局概览,包括节点度分布、真实标签分布等。
- R2:识别错误模式,例如通过节点特征或图结构特征对错误预测进行分组。
- R3:分析错误原因,例如训练数据噪声或特征聚合不准确。
GNNLens由三个模块组成:
- 存储模块:管理图数据和模型。
- 数据处理模块:计算节点级指标(如节点度、标签一致性等)。
- 可视化模块:包含五个视图(控制面板、平行集视图、投影视图、图视图和特征矩阵视图),支持多角度分析。
为分析图结构和节点特征对预测的影响,研究定义了两种代理模型:
- GNNWUF(GNN without using features):仅使用图结构训练。
- MLP(多层感知机):仅使用节点特征训练。
此外,研究还定义了图结构相关指标(如节点度、最短路径距离)和节点特征相关指标(如特征相似性标签分布)。
研究在Amazon Photo和Cora-ML数据集上进行了案例研究,并通过12位专家的访谈验证了系统的有效性和易用性。
GNNLens通过多视图联动和交互式分析,首次实现了对GNN预测错误的系统性诊断。其科学价值在于:
1. 方法创新:提出了基于代理模型和节点级指标的GNN错误分析框架。
2. 应用价值:为模型优化(如调整损失函数)和数据修正(如标签纠错)提供了依据。
3. 领域推动:填补了GNN可解释性研究的空白,为后续工作奠定了基础。
研究还讨论了GNNLens的局限性(如仅支持节点分类任务)和未来方向(如扩展至链接预测和异构图分析),为后续研究提供了明确路径。