本研究由 Edward D. Ramirez 和 Stephen J. Hagen* 完成,两位作者均来自 University of Florida 的物理系(Physics department)。该研究于 2018年7月6日 发表在学术期刊 PLOS ONE 上,论文标题为《The quantitative measure and statistical distribution of fame》(名望的量化测量与统计学分布)。
本研究隶属于科学计量学、社会物理学及文化数据分析的交叉领域,旨在解决一个长期存在但缺乏量化标准的社会文化现象:名望。在当代文化中,名声与名人效应在商业、媒体、法律和公共事务等领域的影响力日益增长。然而,尽管名望存在明显的程度差异,学术界和公众领域均未就如何量化个体名望,或如何比较不同个体的名望达成共识。现有研究多采用各类临时性指标(如搜索引擎结果数),但这些指标本身未经评估或校准,其有效性存疑。因此,本研究旨在: 1. 从清晰的定义出发,建立一个与人类直觉判断相关联的、可靠的量化名望指标。 2. 利用该指标,初步探索名望在人群中的统计学分布特征。 3. 通过量化数据,验证或评估一些关于名人现象的流行观点(如“名人死亡扎堆发生”)。
本研究包含一套逻辑严谨、层层递进的研究流程,主要分为以下几个部分:
1. 概念定义与研究对象选取 首先,研究团队对核心概念进行了清晰界定:名望定义为个体在特定人群中被知晓的程度(renown);名人则指其日常活动都能受到媒体广泛关注的、最富名望的个体。这一定义将名望(知名度)与专业成就、媒体曝光度等概念进行了区分。 研究选取已故人士作为研究对象,原因包括:意图验证关于名人死亡的民间说法;规避涉及在世者姓名权和知情同意的问题。研究聚焦于2016-2017年间去世的知名人士,以避免对其身后名望变化的复杂修正。具体生成了三个互不重叠的名单: * NBC名单:包含126位于2016年去世、并被NBC在线新闻报道提及的高度知名人士。 * Wiki名单:从维基百科列出的2017年1月去世的642人中,随机抽取78人。 * NYT名单:包含147位于2017年去世、并刊登于《纽约时报》在线讣告的人士,分为2月去世的75人(NYT 1)和6月去世的72人(NYT 2)。
2. 基准名望指标的建立:人类受试者调查 为了获得一个符合人类直觉的、可量化的名望基准,研究者设计了一项基于配对比较(pairwise comparisons)的调查。具体流程如下: * 样本选择:从2016年去世的名人中,选取了20位涵盖政治、历史、体育、影视、音乐、文学等多个领域的知名人物(如穆罕默德·阿里、菲德尔·卡斯特罗、普林斯等),确保他们在学生群体中有一定的认知度,且名望跨度足够大。 * 调查方法:招募了50名佛罗里达大学本科生作为受试者。每名受试者会收到50对随机呈现的姓名对(从20个名字可能构成的380对中随机抽取)。受试者需指出对每一对中的哪个名字“更为了解”,也可以选择“无偏好”。 * 数据处理与建模:剔除“无偏好”的无效比较数据后,研究者利用 Bradley-Terry模型,对收集到的1679个有效偏好数据进行分析。该模型为每个个体i分配一个名望评分p_i,使得个体i在配对比较中“战胜”个体j的概率为 p_i / (p_i + p_j),且所有评分之和为1。通过最大似然估计法迭代求解,得到20位名人定量且可比较的p值。同时,通过Bootstrap重抽样方法评估了这些p值的不确定度δp。
3. 网络衍生指标的评估与筛选 研究团队随后评估了多种易于从互联网获取的、可能作为名望代理的指标,旨在找出哪些指标与人类调查得出的基准p值高度相关。评估的指标包括: * GH:谷歌搜索人名返回的总网页数。 * GN:谷歌新闻搜索返回的相关新闻条目总数。 * WE:该人物维基百科页面自创建以来的总编辑次数。 * WV:该人物维基百科页面自创建以来的总浏览次数。 * 此外,还获取了这些指标的时间序列数据(如月度编辑数WE_t、每日浏览量WV_t),以评估指标的稳定性。 评估方法是将这20位名人的四项互联网指标值与他们的p值进行双对数坐标下的相关性分析(计算皮尔逊相关系数r)。
4. 名望分布的统计学分析 选取与人类判断相关性最好的互联网指标作为实用化的名望度量工具,对前述三个名单(NBC, Wiki, NYT)中的所有个体进行计算。随后,研究者重点分析了名望(以WE为代表)在人群中的统计学分布。 * 分布形态分析:绘制了WE的直方图,观察其分布范围与形态。 * 幂律分布检验:鉴于许多社会自然现象(如地震规模、城市大小)服从幂律分布,研究者采用最大似然方法,检验WE的分布是否遵循幂律形式 P(x) ∝ x^{-α}。他们计算了每个数据集的最佳幂律指数α和分布生效的阈值x_min。 * 累计频率分析:绘制了累计频率图(类似地震学中的古登堡-里克特定律图),分析特定名望级别以上的个体死亡的年发生率,并拟合了经验公式 F(x) = 1 / (a + x^ν / b)。
5. 民间说法的量化验证 利用上述得到的名望分布和频率数据,研究者对一个著名的民间说法——“名人死亡三人组”规则(即名人死亡倾向于在几天内成簇发生,尤其是三人一组)——进行了概率论上的检验。他们将此问题转化为经典的“生日问题”进行建模计算,评估在随机分布的情况下,每年发生此类“巧合”事件的概率。
1. 人类调查结果与基准p值 Bradley-Terry模型成功地从调查数据中提取出20位名人的p值(见表1)。p值跨度近两个数量级(从最高的0.18±0.03到最低的0.0029±0.0009),表明所选个体间的名望差异显著。Bootstrap分析显示p值的相对不确定度在10%-30%之间,且模型与数据的对数似然比极高(log(L_model/L_null) = 372),证明调查数据质量高,足以支撑一个稳健的排名。
2. 互联网指标与人类判断的相关性 相关性分析显示(见图2): * WE(维基百科编辑次数) 与基准p值的相关性最强(r = 0.83),且在双对数图上近乎线性关系(p ∝ WE^(1.2±0.2))。这表明WE是一个与人类直觉判断高度一致的、有效的名望代理指标。 * GN(谷歌新闻数) 也与p值有较好相关性(r = 0.70)。 * GH(谷歌搜索结果数) 与p值的相关性较弱(r ≈ 0.6),其双对数图斜率接近于零,表明对于区分非顶尖名人而言,GH已不甚有用。极高的GH值(千万级)通常对应名人,但许多普通人名也可能拥有百万级的GH。 * WV(维基百科浏览量) 与p值有中度相关(r = 0.52),但其时间序列波动剧烈(常因新闻事件产生尖峰),作为瞬时快照的稳定性较差。 结论:WE和GN是较好的名望量化指标,其中WE的稳定性和相关性最佳。
3. 指标的时间稳定性 时间序列分析表明(见图3),WE_t(月度编辑量)虽然存在噪音,但整体行为相对稳定,动态范围较小(约10-100次/月)。而WV_t和谷歌搜索趋势GS_t则表现出显著的突发尖峰和周期性波动。累计WE和WV随时间增长,但按WE对个体的排名顺序随时间变化缓慢,这符合一个实用名望指标应具备的稳定性要求。
4. 名望的统计学分布特征 * 分布广度:三个数据集中个体的WE值均跨越多个数量级,呈现明显的长尾分布特征,即少数人拥有极高的名望(WE值很大)。 * 幂律分布倾向:对WE数据的累积分布函数进行最大似然拟合,发现三个数据集均显示出与幂律分布良好的一致性(见图5)。拟合得到的幂律指数α值分别为:Wiki名单~1.9,NBC名单~2.1,NYT名单~2.6。这些值与早期另一项关于一战王牌飞行员名望研究的结果(α=1.9-2.1)相符。尽管数据量有限无法绝对证实,但强有力地表明名望分布可能近似服从幂律。 * 累计频率分析:累计频率图(图6)显示,所有数据在高WE区域都趋向于遵循古登堡-里克特类型的规律,拟合得到的指数ν在1.5-1.7之间。据此可估算,每年大约有30至100位名望(WE)超过1000的个体去世。
5. 对“名人死亡扎堆”说法的验证 基于上述频率数据,应用“生日问题”概率模型进行计算(图6b)。结果显示: * 若将“巧合”定义为一年内任意两位名人的死亡日期相同,那么当每年有名望高于某阈值的名人死亡数N ≥ 23时,发生此类巧合的概率就超过50%。 * 若将“巧合”的定义放宽至死亡日期相隔δn ≤ 2天,那么N ≥ 11就足以使巧合概率超过50%。 * 对于更有名的群体(WE > 2000-3000),每年几乎必然会发生至少一次“两人组”巧合。 * 对于“三人组”巧合(死亡日期相隔δn ≤ 2天),当N ≥ 35时,发生概率就超过50%。 鉴于估算每年有数十位高名望个体去世,研究数据表明,观察到的名人死亡“扎堆”现象并非错觉,而是每年有相当数量的名人去世这一事实所带来的统计学必然结果。
本研究成功地为“名望”这一看似主观的社会文化概念建立了可行的量化测量方法,并初步揭示了其宏观统计学规律。 * 方法论贡献:研究证明了通过精心设计的配对比较调查,可以提取出稳定、一致的人类名望判断,并将其量化为基准指标。更重要的是,研究发现维基百科页面的总编辑次数是一个易于获取、与人类判断高度相关且相对稳定的名望代理指标,为未来大规模的名望研究提供了实用工具。 * 理论发现:研究首次基于量化数据提出,名望在人群中的分布可能近似遵循幂律,呈现出典型的“赢家通吃”或极端不平等特征,这与许多其他社会和自然复杂系统的统计规律相似。这为从统计物理和社会动力学角度理解文化现象提供了新的切入点。 * 应用与认知价值:研究展示了量化分析如何用于检验社会文化中的流行观点。通过严谨的概率计算,它将“名人死亡扎堆”这类模糊的民间印象转化为了可验证、可解释的统计学现象,增进了我们对媒体叙事与公众感知背后客观规律的理解。