分享自:

社交媒体用户信息收集能力的中心性度量

期刊:34th ACM Conference on Hypertext and Social Media (HT '23)DOI:10.1145/3603163.3609047

这篇文档属于类型a(单篇原创研究论文),以下是详细的学术报告:


一、作者与发表信息

本研究由Mamoru YamakawaKeishi Tajima(均来自日本京都大学/Kyoto University)合作完成,发表于ACM Conference on Hypertext and Social Media (HT ‘23),会议于2023年9月4日至8日在意大利罗马举行,论文标题为《A Centrality for Social Media Users Focusing on Information-Gathering Ability》。


二、学术背景

研究领域与动机

研究聚焦于社交网络分析(Social Network Analysis)中的节点中心性度量(Centrality Metric),旨在解决现有方法(如Katz中心性和HITS算法的Hub分数)在评估社交媒体用户信息收集能力(Information-Gathering Ability)时的局限性。当前方法多关注用户的信息传播能力(如影响力或流行度),而忽视了信息收集能力的差异性。

科学问题

在Twitter等平台中,用户通过多跳路径(Multi-hop Paths)间接获取信息的能力未被现有指标充分量化。例如:
1. HITS算法未考虑信息的多跳传播(如转发链);
2. Katz中心性假设所有节点作为信息源或传播中介的重要性均等,与社交媒体中用户行为的异质性矛盾。

研究目标

提出一种新的中心性指标IGC(Information-Gathering Centrality),通过扩展Katz中心性,引入以下两个属性:
1. 节点作为信息源的重要性权重(非均匀分布);
2. 节点转发概率(信息传播中介的异质性)。


三、研究流程与方法

1. 转发概率(Retweet Probability, ( P_{rt} ))的估计

  • 数据来源:通过Twitter API获取用户最近的100条推文(若用户锁定,则使用全样本平均值)。
  • 计算公式
    • 用户( i )的历史转发比例:( T{rt}(i) \approx \frac{|t{rt}(i)|}{|t(i)|} \cdot T(i) ),其中( T(i) )为总推文数。
    • 转发概率:( P{rt}(i) \approx \frac{T{rt}(i) + \epsilon}{\sum_{j \in \text{followee}(i)} (T(j) + \epsilon)} ),( \epsilon )为平滑参数。

2. 多跳传播概率建模

  • 路径概率:对于路径( p = u_1, u_2, \dots, ul ),信息到达概率为( P{rt}(p) = \prod{k=2}^{l-1} P{rt}(u_k) )。
  • 矩阵表示:构建矩阵( P ),其元素( P{ij} = A{ij} P_{rt}(i) ),其中( A )为邻接矩阵(边方向与信息流相反)。

3. 中心性指标定义

  • IGC+(含自源信息):
    [ \text{IGC}^{+}(i) = \sum{l=1}^{\infty} \sum{j=1}^{n} \left( \alpha^{l-1} \frac{(P^l){ji}}{P{rt}(j)} w_j \right) ]
    其中( w_j )为节点( j )的信息源权重(如PageRank值),( \alpha )为衰减因子。
  • IGC(剔除自源信息):通过减去循环路径贡献( \text{IGC}_{\text{self}}(i) )得到最终指标。
  • IGCrt(结合转发概率):( \text{IGCrt}(i) = \text{IGC}(i) \times P_{rt}(i) ),用于推荐高转发率用户。

4. 高效计算算法

通过矩阵运算简化:
[ \overrightarrow{\text{IGC}} = (I - \alpha P^T)^{-1} P^T \overrightarrow{w_p} - \frac{1}{\alpha} \left( I \otimes \left( (I - \alpha P^T)^{-1} - I \right) \right) \overrightarrow{w_p} ]
其中( \otimes )为哈达玛积(Hadamard Product)。

5. 实验验证

  • 数据集:两个Twitter关注图(Dataset 1: 40,691节点;Dataset 2: 32,739节点)。
  • 对比指标:Katz中心性、HITS的Hub分数、PageRank。
  • 评估方法:Kendall等级相关系数、Top 10用户对比分析。

四、主要结果

  1. 与现有指标的相关性

    • IGC与Hub分数强相关(( \rho \approx 0.87 )),但与PageRank仅弱相关(( \rho \approx 0.20 )),表明其捕捉了独特特征。
    • IGCrt与转发概率( P_{rt} )正相关(( \rho = 0.16 )),验证其推荐高转发用户的实用性。
  2. Top用户差异

    • Hub分数高用户多为直接关注大量优质信息源的用户(高( d^+ )和( f.\text{pr} ));
    • IGC高用户则通过多跳路径高效收集信息(即使( d^+ )和( f.\text{pr} )较低)。
  3. 计算效率:尽管公式复杂,通过矩阵优化后计算成本与Katz中心性相近。


五、结论与价值

  1. 科学价值

    • 首次提出针对社交媒体用户信息收集能力的中心性指标,弥补了传统方法在多跳传播建模上的不足。
    • 为社交网络分析中的异质性节点权重和传播概率提供了可扩展的数学框架。
  2. 应用价值

    • 信息源发现:通过高IGC用户间接定位优质信息源;
    • 用户推荐:IGCrt可推荐既擅长收集又积极转发的高价值用户。

六、研究亮点

  1. 方法创新:将Katz中心性扩展至非均匀节点权重和转发概率,首次实现多跳信息收集能力的量化。
  2. 理论贡献:证明了复杂指标可通过矩阵运算高效求解,为后续研究提供计算范式。
  3. 实证发现:揭示了信息收集能力与传播能力的分离性,挑战了“高影响力用户即优质信息源”的假设。

七、其他价值

  • 跨平台适用性:方法可推广至其他具有转发机制的社交网络(如Facebook、微博)。
  • 未来方向:需进一步解决路径中循环传播的剔除问题(当前仅剔除自源循环)。

(报告总字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com