分享自:

基于知识图谱的可视化推荐方法KG4Vis

期刊:IEEE Transactions on Visualization and Computer GraphicsDOI:10.1109/tvcg.2021.3114863

KG4Vis:基于知识图谱的可解释可视化推荐方法研究

作者及发表信息

本研究由Haotian Li(香港科技大学及新加坡管理大学)、Yong Wang(新加坡管理大学,通讯作者)、Songheng Zhang(新加坡管理大学)、Yangqiu Song和Huamin Qu(香港科技大学)共同完成。论文《KG4Vis: A Knowledge Graph-Based Approach for Visualization Recommendation》发表于IEEE Transactions on Visualization and Computer Graphics期刊2022年1月第28卷第1期,数字对象标识符DOI: 10.1109/TVCG.2021.3114863。

研究背景

该研究属于可视化与计算机图形学领域,聚焦于自动化可视化推荐系统的开发。当前可视化推荐系统主要分为两类:基于规则的方法(如APT、Show Me等)需要专家手动制定可视化规则,工作量大且难以覆盖所有场景;基于机器学习的方法(如VizML、Data2Vis等)虽然能自动学习规则,但存在”黑箱”问题,难以解释推荐结果。为弥补这一空白,研究团队提出了KG4Vis——首个利用知识图谱(Knowledge Graph)技术实现可解释可视化推荐的框架,其核心价值在于无需人工规则制定的同时保证推荐结果的可解释性

研究方法与流程

研究流程包含四个关键模块,共处理了来自VizML语料库的88,548个数据集-可视化对和309,335个数据列:

1. 特征提取模块

从数据集-可视化对中提取81种数据特征(50个连续特征和31个分类特征),分为三类: - 数据类型特征(Types):如定量型、分类型、时间型 - 数值统计特征(Values):包括分布特性、异常值等 - 列名特征(Names):包含特定关键词(如”time”、”$“等)

对连续特征采用基于最小描述长度原则(MDLP)的离散化方法,自动确定区间划分数量,相比k-means等方法能更好地保持与可视化类型的关联性。

2. 知识图谱构建

构建包含四类实体和三类关系的知识图谱: - 实体类型: - 可视化设计选择(Ev):6种基础图表类型(条形图、箱线图等)及坐标轴位置 - 离散化连续特征(Edf):如”唯一值数量在30-50之间” - 分类特征(Ecf):如”数据类型为定量型” - 数据列(Ed):实际数据集中的列

  • 关系类型
    • 数据列→可视化设计(Rd→v):如”某列被编码为散点图”
    • 分类特征→数据列(Rcf→d):如”某列名包含’time’”
    • 连续特征→数据列(Rdf→d):如”某列峰度位于第二区间”

最终构建的图谱包含216,851个实体、56种关系和9,679,463个三元组。

3. 嵌入学习

采用改进的TransE-adv算法(带自对抗负采样的TransE)学习实体和关系的1000维嵌入表示。相比传统TransE和RotatE模型,TransE-adv通过动态调整负样本权重,使模型更聚焦于难以区分的负例,在30,000次训练迭代后获得最优嵌入。定量评估显示其性能优势: - 可视化类型推理的平均排名(MR)为1.9567 - 坐标轴推理准确率达73.50% - Top-2命中率(Hits@2)达74.89%

4. 基于嵌入的推理

对新数据集通过双重翻译机制生成可解释规则: 1. 特征→虚拟数据列:fi + rj ≈ dim 2. 虚拟数据列→可视化:fi + rj + rtarget ≈ vn

通过计算规则得分g(fi→vn) = -||fi+rj+rtarget-vn||,聚合所有相关规则后推荐得分最高的可视化方案。例如当检测到”列值不排序”和”存在异常值”等特征时,系统会推荐箱线图并生成对应解释规则。

主要研究成果

规则发现与验证

研究发现的多条规则与实证研究高度吻合: 1. 条形图规则:当数据熵较低(明显聚类)时优先推荐条形图,与Saket等人关于”条形图最适合识别聚类”的结论一致 2. 折线图规则:”当列不是数据集中唯一列→折线图”符合折线图用于展示相关性的本质 3. 散点图规则:当检测到异常值(1.5IQR规则)时强烈推荐散点图,支持”散点图最适合发现异常”的实证结论

专家评估结果

12位可视化专家的访谈显示: - 规则合理性:多数规则评分在4分以上(5分制),特别是基于统计特征的规则 - 推荐质量:整体可视化推荐平均得分3.79,其中条形图、直方图推荐效果最佳 - 局限性:与列名相关的规则(如”列名少于5字符→热力图”)得分较低(1.33-1.67),主要源于Plotly语料库的特定偏好

研究结论与价值

KG4Vis的创新性体现在: 1. 方法论创新:首次将知识图谱应用于可视化推荐领域,提出包含特征离散化、图谱构建和双重翻译推理的完整框架 2. 可解释性突破:通过显式规则生成弥补了深度学习模型的”黑箱”缺陷,平均0.07秒/数据集的推荐速度满足实时需求 3. 实践价值:降低非专业用户创建有效可视化的门槛,同时帮助用户理解可视化原则

研究也揭示了当前限制: - 仅支持6种基础图表类型和坐标轴布局 - 规则质量依赖训练语料库的覆盖面 - 对跨列特征的支持有待加强

研究亮点

  1. 知识图谱建模创新:提出的四实体-三关系模型为可视化知识表示提供了新范式
  2. MDLP特征离散化:相比传统方法,在保持解释性的同时提高了推荐准确率
  3. 自对抗负采样:使TransE-adv在可视化推荐任务上超越RotatE等新模型
  4. 规则-推荐协同机制:首次实现自动化规则发现与可视化推荐的闭环系统

未来方向

作者建议从三方面拓展研究: 1. 纳入更多设计维度(颜色、比例等) 2. 开发考虑用户偏好的个性化推荐 3. 将方法扩展到信息图等复杂可视化类型

该研究为可解释AI在可视化领域的应用提供了重要范例,其框架也可迁移至其他需要可解释推荐的决策支持场景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com