本文档属于类型a,以下是学术报告内容:
主要作者及机构
本研究的主要作者包括Haotian Li、Yong Wang、Songheng Zhang、Yangqiu Song和Huamin Qu。Haotian Li来自香港科技大学和新加坡管理大学,Yong Wang和Songheng Zhang来自新加坡管理大学,Yangqiu Song和Huamin Qu来自香港科技大学。该研究发表在IEEE Transactions on Visualization and Computer Graphics(IEEE可视化与计算机图形学汇刊),发表日期为2021年,DOI为10.1109/TVCG.2021.3114863。
学术背景
本研究的主要科学领域是数据可视化推荐(Visualization Recommendation),旨在通过自动化生成有效的可视化图表,降低用户在数据可视化中的门槛,特别是对那些没有数据可视化背景的用户。现有的可视化推荐方法主要分为两类:基于规则的方法(Rule-based Approaches)和基于机器学习的方法(Machine Learning-based Approaches)。基于规则的方法需要可视化专家手动指定规则,耗时且难以覆盖所有情况;基于机器学习的方法虽然能够自动学习规则,但其模型往往像“黑箱”一样,难以解释推荐的可视化图表为何有效。本研究提出了一种基于知识图谱(Knowledge Graph, KG)的可视化推荐方法KG4Vis,旨在解决上述问题,实现无需手动指定规则且具有良好解释性的可视化推荐。
研究流程
KG4Vis的研究流程包括四个主要模块:特征提取、知识图谱构建、嵌入学习和基于嵌入的推理。
特征提取
研究从现有的数据集-可视化对中提取特征,包括81个数据特征(50个连续特征和31个分类特征)。这些特征用于描述数据列的统计特性、数据类型和名称。同时,研究还提取了可视化设计选择,包括六种常见的二维可视化类型(柱状图、箱线图、热力图、直方图、折线图和散点图)以及数据在X轴和Y轴上的编码方式。
知识图谱构建
研究构建了一个知识图谱,包含三类实体:数据特征、数据列和可视化设计选择,以及它们之间的关系。通过将连续特征离散化为多个区间,研究将每个区间视为一个实体,从而解决了连续特征在知识图谱中的表示问题。知识图谱中的关系包括数据列与可视化设计选择之间的关系、分类特征与数据列之间的关系,以及离散化连续特征与数据列之间的关系。
嵌入学习
研究采用了基于TransE(Translating Embeddings)的嵌入技术,通过学习知识图谱中实体和关系的嵌入向量来建模数据与可视化之间的映射规则。为了提高学习效率,研究还引入了自对抗负采样(Self-Adversarial Negative Sampling)技术。嵌入学习的目标是使头实体、关系和尾实体之间的嵌入向量满足“头实体 + 关系 ≈ 尾实体”的假设。
基于嵌入的推理
在给定新数据集时,研究通过嵌入向量推断出适合的可视化设计选择,并生成解释性规则。推理过程包括从数据特征到可视化设计选择的两步翻译,并通过聚合所有符合条件的规则来决定最终的可视化推荐结果。
主要结果
研究通过定量评估和专家访谈验证了KG4Vis的有效性。在定量评估中,KG4Vis在可视化类型推断和轴编码推断任务上均优于其他基线模型(如TransE和RotatE)。具体而言,KG4Vis在轴编码推断任务上的准确率为73.50%,在可视化类型推断任务上的平均排名为1.9567,且在前两名推荐中的命中率为74.89%。在专家访谈中,专家对KG4Vis生成的规则和推荐的可视化图表给予了高度评价,认为其规则直观易懂,且推荐的可视化图表能够有效降低用户的工作负担。
结论
KG4Vis提出了一种基于知识图谱的可视化推荐方法,能够自动从数据集-可视化对中学习可视化规则,并为用户提供解释性规则。该方法不仅无需手动指定规则,还具有较高的解释性和可扩展性。研究表明,KG4Vis在可视化推荐任务中表现优异,能够有效帮助用户快速生成高质量的可视化图表。
研究亮点
1. 创新性:KG4Vis是首次将知识图谱应用于可视化推荐领域的研究,提出了一种全新的数据驱动且具有解释性的可视化推荐方法。
2. 高效性:通过引入自对抗负采样技术,KG4Vis显著提高了嵌入学习效率,并实现了实时可视化推荐(平均每数据集耗时0.07秒)。
3. 解释性:KG4Vis生成的解释性规则能够帮助用户理解推荐结果,增强用户对推荐可视化图表的信任。
其他有价值的内容
研究还总结了在开发KG4Vis过程中学到的经验教训,包括如何构建知识图谱、如何选择合适的嵌入学习技术,以及如何处理连续特征的离散化问题。这些经验为后续在可视化领域应用知识图谱的研究提供了宝贵的参考。
KG4Vis为自动化可视化推荐提供了一种新的解决方案,具有重要的科学价值和应用价值。未来的研究可以进一步探索如何结合用户需求和偏好,实现个性化的可视化推荐。