欧视歌唱大赛：评委能否客观评估歌曲质量？

分享自：
欧视歌唱大赛：评委能否客观评估歌曲质量？

期刊:central european journal of operations researchDOI:10.1007/s10100-025-00971-2
欧洲歌唱大赛：评委能否客观评价歌曲质量？—— 一项对评分系统有效性的实证研究报告
第一， 研究的主要作者、机构、发表期刊与时间 本研究由来自克罗地亚萨格勒布大学组织与信息学学院（University of Zagreb, Faculty of Organisation and Informatics）的Nikola Kadoić、Nikolina Žajdela Hrustek，以及里耶卡大学医学院（University of Rijeka, Faculty of Medicine）的Maja Gligora Marković共同完成。该研究于2025年3月20日在线发表在期刊“Central European Journal of Operations Research”上。
第二， 研究的学术背景 本研究属于计算社会选择（Computational Social Choice, ComSoc）领域，该领域融合了社会科学（如经济学、政治学）和计算科学（如人工智能、数据科学、运筹学）两大层面，旨在运用计算方法解决社会选择与决策问题。具体到本研究的背景，欧洲歌唱大赛（Eurovision Song Contest, ESC）作为全球瞩目的娱乐赛事，其独特的评分系统（评委评分与公众投票各占50%权重）一直备受关注与争议。
研究的动因源于欧广联（European Broadcasting Union, EBU）引入评委的核心使命：即弥补单纯公众投票可能存在的偏见（如地域偏袒、政治倾向），由音乐专业人士确保评选的“客观性”和“质量”。然而，尽管评分系统历经多次改革（如2009年评委回归，2018年评委内部计分模型从线性权重改为指数权重），但公众与学界对于评委能否真正实现这一使命、其评分与公众偏好的一致性以及整个系统的公平性一直存在疑问。
因此，本研究旨在通过系统性的数据分析，回答一个核心研究问题：评委在ESC中的实际作用是什么？ 具体而言，研究旨在检验评委回归的“使命”——确保客观和优质歌曲的评选——是否在实践中得以实现。为此，研究分解为五个子问题： 1. 在国家层面，评委与公众评分的吻合度如何？ 2. 在ESC总决赛整体层面，评委总分与公众总分的吻合度如何？ 3. 各国评委的评分与ESC整体评委评分的吻合度如何？ 4. 各国公众的评分与ESC整体公众评分的吻合度如何？ 5. 最终的比赛结果（结合评委与公众分）更倾向于评委还是公众的选择？
第三， 详细的研究流程与方法 本研究是一项基于历史数据的实证分析，不涉及实验干预，主要工作流程为数据收集、变量定义与统计相关性分析。
1. 数据收集与处理阶段： * 研究对象： 选取了最近六届ESC总决赛的数据（2017-2019，2021-2023；2020年因疫情取消）。研究聚焦于总决赛，因为只有总决赛同时包含评委评分和公众评分。研究涉及期间参与比赛的43个国家。 * 数据来源： 所有评分数据（公众分、评委分、总分）均从公开网站 eurovisionworld.com 的结构化表格中获取并整理至Excel进行分析。 * 变量定义： 为便于分析，研究定义了清晰的缩写体系。例如：PC代表某国公众排名，JC代表某国评委排名，PE代表所有国家公众评分加总后的整体公众排名，JE代表所有国家评委评分加总后的整体评委排名，FE代表最终总排名等。这一标准化命名确保了后续分析的一致性。
2. 数据分析方法： * 核心方法： 斯皮尔曼等级相关系数（Spearman Rank Correlation）。该方法用于衡量两个排名序列之间的单调相关性（即一个排名上升时，另一个排名也上升或下降的趋势强度），特别适用于非正态分布的排名数据。研究共计算了15,251个斯皮尔曼相关系数，这一庞大的计算量构成了分析的基石。 * 补充统计检验： 曼-惠特尼U检验（Mann–Whitney U Test），用于评估在总决赛整体层面，评委给出的分数分布与公众给出的分数分布是否存在统计学上的显著差异。 * 分析维度的操作化： 研究者通过计算不同配对间的相关系数来回答五个子问题： * 回答RQ1 & RQ2： 计算每个国家每年评委排名(JC)与公众排名(PC)之间的相关系数（国家层面），以及每年ESC整体评委排名(JE)与公众排名(PE)之间的相关系数（整体层面）。 * 回答RQ3： 计算每个国家评委排名(JC)与ESC整体评委排名(JE)的相关系数，以及每对国家评委排名之间的两两相关系数。 * 回答RQ4： 计算每个国家公众排名(PC)与ESC整体公众排名(PE)的相关系数，以及每对国家公众排名之间的两两相关系数。 * 回答RQ5： 计算ESC整体评委排名(JE)、公众排名(PE)分别与最终排名(FE)的相关系数；计算每个国家最终排名(FC)与ESC整体最终排名(FE)的相关系数，以及每对国家最终排名之间的两两相关系数。 * 敏感性分析： 研究还对评委评分模型（2017年的线性权重模型 vs. 2018年后的指数权重模型）进行了敏感性分析，探究当个别评委意见极端（如四人最高分，一人最低分）时，不同模型对最终国家评委排名的潜在影响。研究者甚至根据公开数据反向拟合了指数权重模型的近似函数。
第四， 主要研究结果 通过上述方法，研究得出了与预期相悖的、引人深思的结论。
1. 评委与公众评分的一致性： * 在ESC整体层面（JE vs. PE），两者的相关性在六年中波动较大（相关系数r介于0.22至0.62之间），平均值为0.384，属于中等偏低的相关性，这表明评委和公众的偏好存在系统性差异。 * 在国家层面（JC vs. PC），各国评委与公众的一致性差异巨大，平均相关系数为0.336，与整体层面的值接近。相关性范围从-0.23（完全负相关）到0.85（高度正相关）。例如，亚美尼亚、西班牙等国的评委与公众意见较为一致，而保加利亚、意大利、匈牙利等国则分歧较大。 * 关键发现： 曼-惠特尼U检验结果显示，在所有年份中，评委分数和公众分数的分布没有统计学上的显著差异（p值均大于0.05）。这与引入评委是为了“与公众不同”从而纠正偏见的初衷相矛盾。
2. 评委内部与公众内部的一致性： * 评委内部一致性： 各国评委评分与ESC整体评委评分（JC vs. JE）的平均相关性为0.52。当直接计算所有两两国家评委排名之间的相关性时，平均相关性甚至更低，仅为0.3。这表明，不同国家的“音乐专家”评委对于“优质歌曲”的看法存在相当大的分歧。自2018年引入指数权重模型后，评委内部一致性的标准差有所降低，说明该模型可能减少了极端意见的影响，但共识水平依然不高。 * 公众内部一致性： 各国公众评分与ESC整体公众评分（PC vs. PE）的平均相关性为0.61。直接计算所有两两国家公众排名之间的平均相关性为0.45。 * 颠覆性结论： 公众意见的聚合程度（一致性）反而高于评委意见的聚合程度。 这与引入评委的假设——“评委能提供更统一、更客观的质量评估，而公众因地域、文化偏见而分散”——完全相反。
3. 对最终结果的影响： * ESC最终排名（FE）与整体评委排名（JE）的相关性（平均r≈0.78）高于其与整体公众排名（PE）的相关性（平均r≈0.67）。这表明，在现有的50/50权重下，评委评分对最终胜者的影响力略大于公众评分。 * 在某些极端案例中，这种影响导致了显著争议。例如，研究发现澳大利亚从评委处获得的总分远高于公众分，而乌克兰则相反。研究特别指出，在2024年（未纳入正式分析）的比赛中，公众排名第五的歌曲最终夺冠，这被作者视为一个尖锐的例证，说明当前系统可能导致少数人（评委）的偏好压倒多数人（公众）的选择。
4. 相关性对比的量化证据： * 在对超过9500对相关性的直接比较中，超过两倍的情况下，两国公众排名的相关性高于两国评委排名的相关性。这意味着，任意两个国家公众之间达成共识的可能性，显著高于任意两个国家评委之间达成共识的可能性。
第五， 结论与研究意义 核心结论： 本研究的证据表明，欧洲歌唱大赛评委的“核心使命”——作为客观的质量评判者，弥补公众的偏见——并未得到充分实现。 不仅评委与公众的意见分歧程度并未达到预设的显著差异，更重要的是，评委群体内部对“质量”的定义比公众群体更为分散。这使得评委评分在比赛中的巨大影响力（尤其当它决定了与公众偏好不同的获胜者时）的正当性受到质疑。
科学价值与应用价值： * 科学价值： 本研究为计算社会选择领域提供了一个关于“专家判断”与“群体智慧”在复杂社会文化背景下有效性的详实案例。它挑战了“专家必然能提供更一致、更客观评价”的简单假设，强调了社会与文化因素对专业判断的影响可能不亚于对大众判断的影响。通过大规模相关性分析揭示的“公众共识度高于专家共识度”的现象，具有深刻的学术启示意义。 * 应用价值： 研究结果直接指向了ESC现行评分系统的结构性缺陷，为赛事主办方欧广联（EBU）提供了迫切需要的、基于数据的决策参考。研究结论动摇了当前50/50投票模型的理论基础，并可能引发关于评分系统改革方向的广泛讨论。
第六， 研究亮点 1. 颠覆性的核心发现： 明确揭示出评委在ESC中的实际作用与官方宣称的“使命”背道而驰，公众比评委更具共识性，这一发现极具冲击力，直接挑战了现有系统的合理性。 2. 数据规模与分析深度： 研究基于长达六届比赛的完整数据，计算了超过1.5万个斯皮尔曼相关系数，进行了多层次、多角度的对比分析（国家内部、国家之间、整体层面），论证过程扎实，结论说服力强。 3. 清晰的逻辑链条： 从官方“使命”出发，设定可验证的预期（高评委共识、低公众共识、评委与公众显著差异），然后通过数据逐一检验，最终得出与预期完全相反的结论，逻辑严谨清晰。 4. 结合具体情境的深度剖析： 研究不仅给出统计数据，还结合了评分模型（线性 vs. 指数）的演变、敏感性分析，以及澳大利亚、乌克兰等具体国家的案例和2024年的最新争议事件，使分析更具现实性和针对性。
第七， 其他有价值内容 研究者并未止步于批判，而是基于研究结论提出了若干建设性的投票系统升级建议： 1. 增加评委团人数，以减少因少数评委个人偏好导致的排名大幅波动。 2. 采用绝对评分制（如1-10分），替代现行的强制排名制（1-8,10,12分），以更精确地反映歌曲间的质量差异。 3. 在评委评分中剔除最高分和最低分，或采用中位数，以减少极端评分的影响。 4. 探索新的评委与公众意见整合机制，例如调整权重比例（如公众70%，评委30%）。 5. 设立多个奖项（如评委奖、公众奖、综合奖），这被认为是降低争议、接纳多元偏好最直接有效的方式之一。作者认为，与其追求一个强制的、可能并不反映真实“统一性”的单一胜者，不如承认和庆祝不同评判标准下的优秀作品。
研究最后还指出了未来研究方向，包括应用社会网络分析（Social Network Analysis, SNA）识别投票联盟、测试不同评分策略的模拟效果等，并坦诚指出了本研究的局限性（如未包含半决赛、部分年份参赛国不同等）。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问