分享自:

社区感知的社交社区推荐模型CASo

期刊:Proceedings of the 34th ACM International Conference on Information and Knowledge ManagementDOI:10.1145/3746252.3761373

社区感知的社交社区推荐:一种新颖的模型框架

作者与机构 本研究报告围绕一篇名为《Community-Aware Social Community Recommendation》的学术论文展开。该论文的主要作者为 Runhao Jiang 和 Renchi Yang,两者均来自香港浸会大学(Hong Kong Baptist University, Hong Kong SAR, China),以及 Wenqing Lin,其所属机构为京东(JD.com, Inc., Beijing, China)。该研究论文已发表于2025年11月10日至14日在韩国首尔举行的第34届ACM信息与知识管理国际会议(CIKM ‘25)的会议论文集中。该会议论文集由ACM出版,论文的开放获取由京东公司和香港浸会大学支持,其数字对象标识符(DOI)为 https://doi.org/10.11453746252.3761373。

研究背景与动机 本研究属于信息检索与推荐系统领域,具体聚焦于社交网络中的社区推荐问题。随着社交媒体的普及,用户倾向于根据相似兴趣形成各种社区(如群组、俱乐部、论坛等)。为这些社区推荐新成员或为用户推荐其可能感兴趣的社区,对于提升平台活跃度、增强用户体验以及实现精准营销至关重要。传统的社交推荐模型旨在利用用户间的社交关系来缓解用户-物品交互数据的稀疏性问题,并在博客、图片、产品等常规物品推荐上取得了显著成功。然而,这些模型在社区推荐任务上往往表现不佳,其根本原因在于忽视了社区与常规物品之间的本质区别。

论文明确指出,社区具有三个独特的“社区感知”特征:首先,社区由个体用户构成,其成员组成具有高度动态性;其次,社区在社交网络中呈现出丰富的结构性模式,例如社区内部用户之间连接紧密,而不同社区用户之间连接稀疏;第三,社区成员的偏好信息(即用户-社区隶属关系)提供了重要的协同信号。现有研究,无论是基于协同过滤(Collaborative Filtering, CF)的早期方法,还是近年来兴起的基于图神经网络(Graph Neural Networks, GNNs)的社交推荐模型,都未能全面、深入地挖掘和利用这些与社区特性紧密相关的结构信息和协同信号。例如,一些工作仅考虑了社区描述或属性等辅助信息,另一些则简单地将社区视为普通节点加入图神经网络进行处理,未能专门针对社区的结构特性进行建模。因此,为了填补这一研究空白,本文提出了一个名为 CASO(Community-Aware Social Community Recommendation)的新型、高效的模型框架,专门为社交社区推荐任务而设计。其核心目标是:通过精心设计的编码器,分别提取并融合社交网络中的全局与局部结构模式,以及用户-社区隶属关系中的协同信号,从而生成更精准、更具解释性的用户和社区嵌入表示,最终提升社区推荐的性能。

研究流程与方法 本研究遵循实证研究范式,其核心是提出并验证CASO模型。整个工作流程可以概括为以下几个关键步骤:

  1. 问题定义与数据准备

    • 研究首先形式化了社交社区推荐问题。给定一个社交网络图 G = (U, E)(其中U是用户集合,E是用户间的友谊关系集合)和一个不完整的社区成员网络 B = (U ∪ C, Y)(其中C是社区集合,Y是已知的用户-社区隶属关系),目标是预测缺失的用户-社区链接,即为用户生成个性化的社区推荐列表。
    • 研究使用了六个真实世界的公开数据集进行实验,包括BlogCatalog、Flickr、Deezer-HR、Deezer-RO、DBLP和YouTube。这些数据集在用户规模、社交边数量、社区数量和交互稀疏度上各有不同,确保了评估的全面性和鲁棒性。数据被随机划分为训练/验证集(80%)和测试集(20%),并采用负采样策略构建训练数据。
  2. 模型设计与构建(CASO框架): 这是研究的核心创新部分。CASO模型采用流行的双塔架构,分别学习用户和社区的嵌入表示。其核心在于为用户嵌入设计了三个精心构造的编码器和一个特征互斥模块:

    • 社交模块度最大化编码器(Social Modularity Maximization, SMM):该模块旨在捕捉社区相关的全局社交结构模式。其动机是观察到同一社区内的用户内部连接紧密,而不同社区间的用户连接稀疏。为了量化这一模式,研究引入了模块度(Modularity)这一经典社区发现指标。SMM通过优化用户嵌入在社交网络上的模块度,将这种全局结构信息注入用户特征中。具体而言,它通过一个迭代的特征传播算法(见论文定理4.2和算法1),使得学习到的用户嵌入能够反映社区划分的优劣。该算法本质上是将用户初始嵌入在修正后的邻接矩阵(原始邻接矩阵减去一个反映随机连接期望的矩阵)上进行多次传播和聚合,最终得到的嵌入G蕴含了网络的全局社区结构。

    • 社交紧密度聚合编码器(Social Closeness Aggregation, SCA):该模块旨在捕捉社区相关的局部社交结构模式。其动机是观察到拥有更多共同邻居(即更强的社交紧密度)的用户更可能加入相同的社区。SCA利用基于邻域的社交紧密度(Neighborhood-based Social Closeness, NSC)度量,对用户的初始嵌入进行加权聚合。论文统一了多种NSC度量(如共同邻居、Adamic-Adar指数、资源分配指数等),并选择资源分配指数(RAI)作为默认方法,因其在实验中表现出最佳效果。通过矩阵运算(公式8),该模块计算出蕴含局部连接模式的用户嵌入L。

    • 基于用户的协同编码器(User-based Collaborative Encoding, UCE):该模块旨在从用户-社区隶属关系(CMN)中捕捉协同信号。它改进了传统的基于用户的协同过滤方法。首先,对隶属矩阵Y进行标准化处理(公式10),以消除用户活跃度和社区流行度带来的偏差。然后,基于标准化后的矩阵计算用户间的偏好相似度(公式11),该相似度具有更好的数值范围。最后,通过聚合其他用户的初始嵌入(根据相似度加权),生成蕴含协同信息的用户嵌入X。

    • 特征互斥模块(Feature Mutual Exclusion, FME):由于社交结构和协同信号在社区环境中高度一致,直接融合SMM和SCA产生的社交嵌入S(由G和L加权融合得到,公式2)与UCE产生的协同嵌入X可能导致特征冗余,削弱模型的表达能力。为解决此问题,CASO引入了FME模块。该模块通过最小化社交嵌入S与协同嵌入X之间的希尔伯特-施密特独立性准则(HSIC)来减少它们的统计依赖性,从而实现特征互斥。通过迭代更新规则(公式14),S和X被逐步调整,以在保留原始信息的同时尽可能减少重叠,从而生成更具互补性和表达力的独立特征。

    • 社区检测损失(Community Detection Loss):考虑到社区由其成员动态定义,CASO引入了一个基于Kullback-Leibler(KL)散度的社区检测损失L_kl。该损失函数通过将用户嵌入与社区嵌入(视为聚类中心)进行软分配匹配,并优化一个辅助目标分布,来细化社区嵌入表示。这使得社区嵌入能够更好地表征其成员集群的中心。

    • 预测与优化:最终的用户嵌入U由经过FME处理后的社交嵌入S和协同嵌入X加权组合得到(公式3)。推荐预测通过计算用户嵌入与社区嵌入的内积(公式15)来完成。模型的总损失函数是标准的贝叶斯个性化排序损失(BPR Loss)L_bpr和社区检测损失L_kl的加权和(公式18)。通过反向传播算法优化初始用户嵌入U◦和社区嵌入C这两个核心参数。

  3. 实验验证与分析

    • 基线对比实验:研究将CASO与9个强大的基线模型进行了对比,包括经典的协同过滤模型(SVD++, BPR, LightGCN)以及最新的社交推荐模型(LightGCN-S, DiffNet, DiffNet++, SEPT, MHCN, GBSR)。评估指标采用Recall@K和NDCG@K(K=3, 5)。
    • 消融实验:为了验证CASO各个组件的有效性,研究系统地移除了SMM、SCA、UCE、FME和L_kl模块,并观察性能变化。同时,还测试了SCA模块中不同NSC度量的效果。
    • 超参数研究:分析了关键超参数(如平衡社交与协同特征的权重β,以及FME中控制互斥强度的参数λ)对模型性能的影响。

主要研究结果 1. 整体性能优势:在六个数据集上的实验结果表明,CASO在绝大多数情况下(尤其是Recall@3和NDCG@3指标上)均显著且一致地优于所有基线模型。例如,在大型数据集YouTube上,CASO在NDCG@3上比当时最优的模型(GBSR)提升了5.38%,在Recall@3上提升了2.54%。这充分证明了CASO模型在有效融合社区感知的社交与协同信号方面的强大能力。 2. 消融实验结果: * SCA模块至关重要:移除SCA(局部社交结构编码器)导致的性能下降最为显著,尤其是在Dezeer-HR数据集上,Recall@5和NDCG@5分别下降了约0.109和0.118。这表明捕捉用户间的共同邻居等局部社交模式对于社区推荐至关重要。 * SMM与UCE模块的有效性:移除SMM(全局社交结构编码器)或UCE(协同编码器)也会导致性能下降,特别是在大型稀疏数据集(如YouTube、DBLP)上,SMM的作用更为明显。这验证了全局社区结构和协同过滤信息都是提升推荐效果的重要来源。 * FME模块的必要性:移除FME(特征互斥模块)后,模型性能出现轻微但一致的下降,表明减少社交与协同特征之间的冗余确实有助于学习更具表达力的用户表示。 * L_kl损失的贡献:移除社区检测损失L_kl也会导致性能降低,证实了通过聚类思想细化社区嵌入能够进一步提升推荐质量。 * NSC度量选择:在SCA模块中,资源分配指数(RAI)在大多数数据集上表现最佳,证明了其在衡量社交紧密度方面的鲁棒性和有效性。 3. 超参数敏感性:实验表明,平衡社交与协同特征的权重β在0.5左右时,模型在多数数据集上表现良好。特征互斥强度λ在较小的值(如0.001到0.05)范围内效果稳定,过大的λ可能导致性能下降,这与FME模块的设计初衷(避免特征被梯度淹没)相符。 4. 效率分析:论文对CASO的时间复杂度和空间复杂度进行了分析。由于其核心运算涉及稀疏矩阵乘法,且主要训练参数仅为用户和社区的初始嵌入,因此CASO具有与标准矩阵分解模型相近的高效训练和推理效率。

结论与价值 本研究成功提出并验证了CASO模型,为社交社区推荐问题提供了一个新颖且强大的解决方案。其核心结论是:通过专门设计来捕捉社区特有的全局社交结构(通过模块度最大化)、局部社交结构(通过社交紧密度聚合)和协同信号(通过改进的协同过滤),并利用特征互斥技术减少信息冗余,同时引入社区检测损失来优化社区表示,可以显著提升社区推荐的准确性和鲁棒性。

科学价值:本研究深化了对社交网络中社区形成与演化机制的理解,将社区发现(Community Detection)的思想(如模块度)与推荐系统(Recommender Systems)技术(如协同过滤、图表示学习)进行了创造性的结合。它突破了传统社交推荐模型将社区视为普通物品的局限,首次系统性地建模了社区作为“用户集合”的动态性和结构性特征,为这一子领域的研究提供了新的理论框架和方法论。

应用价值:CASO模型具有直接的实际应用前景。它可以被集成到LinkedIn、腾讯游戏、豆瓣小组等各类社交平台和在线社区的推荐系统中,用于更精准地向用户推荐可能感兴趣的群组,或为社区发现潜在成员,从而增强用户粘性、促进社区活跃度,并最终提升平台的服务质量和商业价值。

研究亮点 1. 问题洞察新颖:明确指出并形式化了现有社交推荐模型在社区推荐任务上的局限性,即忽视了社区与常规物品的本质区别(动态性、结构性)。 2. 模型设计精巧: * 多视角编码:创新性地设计了三个互补的编码器(SMM, SCA, UCE),分别从全局社交、局部社交和协同三个角度提取社区相关的特征。 * 理论支撑:SMM模块基于模块度优化理论,SCA模块统一了多种社交紧密度度量,UCE模块改进了偏好相似度计算,使模型具有坚实的数学基础。 * 特征解耦:引入FME模块,利用HSIC准则显式地减少不同来源特征间的冗余,增强了模型的表示能力。 * 社区感知:通过引入社区检测损失L_kl,使模型在学习过程中显式地优化社区本身的表示,更贴合社区推荐的任务本质。 3. 实验验证充分:在六个规模、稀疏度各异的真实数据集上进行了全面的实验,包括与众多前沿基线的对比、详尽的消融研究以及超参数分析,结果具有高度的说服力和普适性。 4. 性能提升显著:实验结果表明,CASO在多个数据集上取得了显著的性能提升,尤其是在NDCG等强调排序质量的指标上,证明了其方法的优越性。

其他有价值内容 论文在引言部分通过计算平均连接度(AC)、平均共同邻居数(ACN)和平均共同社区数(ACC) 这三个指标,对DBLP和YouTube数据集进行了初步的实证分析。结果清晰显示,同一社区内的用户在这三个指标上均显著高于不同社区间的用户。这一发现为后续模型设计(SMM、SCA、UCE)提供了直观的数据支持和动机来源,使得整个研究从观察到建模的逻辑链条非常完整。此外,论文公开了代码和数据集,促进了研究的可复现性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com