基于融合语义相似度度量的协同过滤推荐改进方法

分享自：
基于融合语义相似度度量的协同过滤推荐改进方法

期刊:international journal of computational intelligence systemsDOI:10.1007/s44196-024-00429-4
这项研究发表于2024年的《international journal of computational intelligence systems》期刊第17卷第45期。论文的题目为“一种改进的基于融合的语义相似性度量用于有效的协同过滤推荐”。该研究的主要作者包括Malak Al-Hassan、Bilal Abu-Salih、Esra’a Alshdaifat、Ahmad Aloqaily和Ali Rodan。他们分别来自约旦大学阿卜杜拉二世信息技术学院和哈希姆大学信息技术系。这项研究提出了一种创新的语义相似性度量方法，并将其与传统的协同过滤推荐系统相结合，旨在解决推荐系统领域长期存在的数据稀疏性和冷启动问题。
研究学术背景
本研究的核心科学领域是推荐系统，特别是融合语义网的协同过滤技术。随着互联网信息的爆炸式增长，如何高效地为用户过滤和推荐信息成为了关键挑战。协同过滤是应用最广泛的推荐技术之一，它基于用户的历史行为数据（如评分）来预测其兴趣。然而，传统协同过滤方法存在两个主要缺陷：数据稀疏性（用户-物品评分矩阵非常稀疏）和冷启动问题（对于新用户或新物品，由于缺乏历史数据，难以进行有效推荐）。
为了克服这些局限性，研究者们开始探索将语义信息（尤其是本体论）融入推荐过程。语义增强的推荐系统利用领域本体来形式化地表示物品或用户的知识（如电影的类型、导演、演员等），从而可以在缺乏评分数据的情况下，基于物品间的语义相似性进行推荐。尽管已有研究尝试将本体与协同过滤结合，但作者通过广泛的文献综述发现，现有的语义相似性度量方法大多侧重于利用物品之间直接、显式的层次关系（分类关系）和内容属性，而较少关注通过本体推理揭示的间接、隐含的关系。这些隐含关系可能揭示看似无关实体间的隐藏联系，从而提供更丰富的语义表示，有助于更全面地评估物品间的相似性。
因此，本研究的目标是：1）提出一种新颖的、融合式的语义相似性度量，该度量能综合考量本体实例之间的层次关系、内容属性以及推断出的隐含关系；2）将这种新的语义相似性度量与标准的基于物品的协同过滤方法相结合，构建一种语义增强的混合推荐方法，以期提升推荐质量，特别是缓解稀疏性和冷启动问题。
研究详细工作流程
本研究的工作流程可分为四个主要阶段，涵盖了从知识库构建到最终生成推荐的完整过程。
第一阶段：本体构建与物品评分提取。 这是离线预处理阶段。首先，研究选择MovieLens基准数据集（包含约600名用户对1000部电影的35,000条评分，数据密度约5%）作为用户评分数据源。同时，利用IMDB数据集来丰富电影的语义描述。研究者使用Protégé编辑器构建了一个电影推荐领域本体（MovieRec Ontology）。该本体以OWL语言形式化了电影领域的概念（如电影、类型、演员、导演）、概念的层次结构（分类关系）以及属性（数据类型属性和对象属性）。数据类型属性描述电影的特征值（如电影名、受众群体），而对象属性描述电影与其他实例的关系（如“由…导演”、“主演是”）。领域专家的参与确保了本体中复杂关系的准确表示。此外，从MovieLens数据集中提取用户-物品评分矩阵，用于后续协同过滤计算。
第二阶段：物品相似性计算（包含语义相似性）。 此阶段并行计算两种相似性。首先，计算基于皮尔逊相关系数的物品相似性。这是传统的基于物品的协同过滤步骤。利用用户-物品评分矩阵，根据公式（8）计算每对电影之间的皮尔逊相似性，结果存储于矩阵 simpc[m×m] 中。该相似性仅基于用户评分模式。其次，计算基于提出的融合语义相似性度量的相似性。这是本研究的核心创新。提出的“融合式语义相似性度量”综合了以下三个子度量，其总计算公式为（7）：*FusionSim(ix, iy) = (γ * Sim_hier + β * Sim_attr + λ * Sim_infer) / ℱ*，其中γ, β, λ为语义参数，ℱ为权重因子，研究中均设为1。具体子度量包括： 1. 层次相似性：基于物品在本体分类树中的位置计算。使用由Seco等人提出、并由Al-Hassan等人扩展的基于信息内容的方法，计算公式（1）。它通过计算两个实例最小公共祖先的信息内容来衡量其相似性，信息内容本身基于概念在层次结构中的子类数量计算（公式3）。分类树由Protégé中的Pellet推理机自动推理生成。 2. 属性相似性：基于物品共享的数据类型属性计算。针对共同的属性，根据属性值的类型（本研究主要为标称型）采用Jaccard系数计算相似性，最终通过公式（4）对所有共同属性的相似性取平均得到总属性相似性。 3. 推断相似性：这是本研究最具特色的部分，旨在捕捉通过对象属性链推理出的隐含关系。计算过程（公式5, 6）涉及递归推理。对于两个实例的每个共同对象属性，算法会遍历该属性连接的所有实例（即属性值），形成“实例对集合”。然后，递归地计算这些“实例对”之间的层次相似性和属性相似性，如果它们还有共同对象属性，则继续深入推理。这个过程能够发现间接关联的物品（例如，通过共享的演员关联到第三部电影），从而丰富了语义信息。最终，对所有共同对象属性的推理结果取平均，得到推断相似性。此过程依赖语义推理策略，需要设定最大递归深度以防止无限循环。 计算得到的语义相似性存储于矩阵 sim_sem[m×m] 中。
第三阶段：整合语义相似性与皮尔逊相关性。 此阶段将前两步得到的两种相似性进行线性融合，生成一个综合的相似性度量。对于每对物品ii和ij，其综合相似性 TotalSim 由公式（9）计算：*TotalSim(ii, ij) = α * FusionSim(ii, ij) + (1 - α) * Sim_pc(ii, ij)*。其中，α是一个关键的语义组合参数（0 ≤ α ≤ 1），用于控制语义相似性在总相似性中的权重。α=0表示仅使用协同过滤相似性，α=1表示仅使用语义相似性。最优的α值需要通过实验针对特定数据集进行敏感性分析来确定。整合后的结果存储在矩阵 SemPcSim[m×m] 中。
第四阶段：生成推荐。 这是在线的推荐生成阶段。对于给定的目标用户ua和一个其未评分的目标物品ii，采用加权和方法（公式10）预测评分。首先，根据综合相似性矩阵，找到与目标物品ii最相似的k个物品（k为近邻大小参数）。然后，从这k个物品中选出目标用户ua已经评过分的物品集合Ki。最后，预测评分 p_ua,ii 是用户对这些已评分物品的评分，以相应物品与目标物品的综合相似性为权重，进行加权求和并归一化后得到。计算出用户对所有未评分物品的预测评分后，按评分降序排列，取前N个物品作为最终推荐列表呈现给用户。
主要研究结果
研究通过一系列对照实验验证了所提出方法的有效性，主要结果如下：
第一组实验：单一语义度量与协同过滤整合的效果。 研究者首先分别将层次相似性、属性相似性和推断相似性与基于物品的协同过滤整合（α作为调节参数），在不同的近邻大小k下测试预测精度（以平均绝对误差MAE衡量）。实验确定了每种整合方式下的最优α和k值（见表2）。结果显示，整合了推断相似性的方法取得了最佳的预测精度（MAE=0.77823，k=60，α=0.4），其次是属性相似性（MAE=0.8038）和层次相似性（MAE=0.81144）。这表明，利用推理挖掘隐含关系的推断相似性对提升推荐精度贡献最大。
第二组实验：融合语义相似性与协同过滤整合的效果。 此实验测试了完整的融合式语义相似性度量（即综合了三种子度量）与协同过滤整合后的性能。通过系统性地改变α和k值，研究者绘制了MAE变化图（图3）。结果表明，当α=0（纯协同过滤）和α=1（纯语义相似性）时，MAE值都较高，预测精度不佳。而当α在0.2到0.8之间时，推荐精度得到改善。最优精度在α=0.6，k=60时达到，此时MAE最低，为0.766433。这明确证实了将用户评分数据与提出的融合语义相似性进行适当整合能产生最佳效果，两者优势互补。
第三组实验：与基准方法的全面对比。 研究者将提出的“基于融合语义的协同过滤方法”与两个基准方法比较：标准的基于物品的协同过滤和Mobasher等人提出的语义增强协同过滤方法。对比包括三个方面： 1. 预测精度提升：在不同k值下，提出的方法其MAE曲线始终低于两个基准方法（图4）。在最优k=60时，提出的方法MAE为0.788661，显著优于标准协同过滤（0.866752）和Mobasher的方法（0.803506）。 2. 稀疏性问题处理能力：通过在不同训练/测试比例（模拟不同稀疏度）下进行实验，提出的方法在所有稀疏度水平上都显示出更高的精度提升（图5）。即使在数据非常稀疏的情况下（训练集比例低至40%），提出的方法仍能保持超过4%的精度提升（相比标准协同过滤）和约1%的提升（相比Mobasher的方法）。这表明该方法能有效缓解数据稀疏性带来的负面影响。 3. 新物品问题处理能力：针对在数据集中仅有一条评分记录的“新物品”，提出的方法同样优于Mobasher的语义增强方法（图6）。在k=60时，提出的方法MAE为0.86683，低于对比方法的0.885263。这证明了其利用丰富的语义信息（而不仅仅是稀少评分）来推荐新物品的有效性。
结论、意义与价值
本研究提出并验证了一种创新的融合式语义相似性度量方法，以及由此构建的语义增强混合推荐系统。主要结论是：通过系统性地整合物品在本体中的层次关系、内容属性以及通过推理获得的隐含关系，所提出的语义相似性度量能够更全面、更深入地捕捉物品间的语义关联。将这种度量与传统的基于物品的协同过滤算法相结合，可以显著提高推荐系统的预测精度，并有效缓解数据稀疏性和新物品冷启动这两个长期存在的核心问题。
本研究的科学价值在于：1）在方法论上，突破了现有语义相似性度量主要关注直接显式关系的局限，创造性地引入并形式化了基于对象属性推理的“推断相似性”，为利用本体中丰富的隐含知识提供了可计算的途径。2）在推荐系统架构上，提供了一种有效整合语义网技术与协同过滤的混合框架，证明了语义深度推理与用户行为数据融合的优越性。其应用价值则直接体现在能够构建更精准、更鲁棒（尤其是在数据稀疏或面对新内容时）的个性化推荐服务，可广泛应用于电子商务、在线教育、数字内容平台等领域。
研究亮点
新颖的相似性度量：提出的“融合式语义相似性度量”是核心亮点，特别是其中“推断相似性”子度量的设计。它通过递归遍历对象属性链来挖掘隐含关系，这在已有的推荐系统文献中关注较少，为实现更深层次的语义分析提供了新思路。
系统性实验验证：研究不仅验证了整体方法的优越性，还通过分解实验深入分析了各语义成分（层次、属性、推断）的单独贡献，并系统探讨了关键参数（α, k）的影响以及方法在不同场景（不同稀疏度、新物品）下的性能，论证全面而扎实。
显著的性能提升：实验结果明确显示，所提出的方法在多个指标上 consistently 优于基准方法，在特定情况下实现了MAE降低约6%的显著改进，具有明确的实践指导意义。
清晰的工程实现路径：研究详细描述了从本体构建、相似性计算、融合到推荐生成的完整工作流程，并说明了使用的工具（Protégé, Pellet推理机，Java实现），具有较好的可重复性和参考价值。
其他有价值内容
论文在引言和文献综述部分对推荐系统技术、协同过滤的局限性、语义相似性度量的分类（基于距离、信息内容和特征）以及语义协同过滤的研究现状进行了清晰、全面的梳理，为读者提供了扎实的背景知识。同时，作者也指出了当前研究的局限性，并提出了未来的研究方向，例如将方法扩展到动态演化（而非静态）的本体上，以及在更多样化的领域数据集上进行评估，以进一步验证方法的普适性和健壮性。这些对未来工作的展望为该领域的持续研究指明了潜在路径。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问