本文档为一篇研究论文,题为《解开评委投票中的个体偏见:欧洲电视网歌唱大赛投票行为的实证分析》(Disentangling Individual Biases in Jury Voting: An Empirical Analysis of Voting Behavior in the Eurovision Song Contest)。作者为Oliver Budzinski(德国伊尔梅瑙工业大学经济理论与媒体移动通信研究所)、Sophia Gaenssle(荷兰伊拉斯姆斯大学历史、文化与传播学院,通讯作者)以及Daniel Weimar(德国1&1 Versatel公司)。该研究发表于《伊尔梅瑙经济学讨论论文集》(Ilmenau Economics Discussion Papers)第28卷第171期,发布日期为2023年1月,同时可在社会科学研究网(SSRN)获取电子副本。
本研究隶属于文化经济学与传媒经济学领域,并涉及投票行为与偏差分析。欧洲电视网歌唱大赛(Eurovision Song Contest, ESC)作为全球最大的现场媒体活动之一,其投票系统长期以来是文化经济学研究的焦点。过往研究致力于分析国家层面的投票偏见,探究文化、政治、地理、语言接近性等因素如何影响各国评审团(由音乐产业专家组成)和公众的投票结果。然而,受限于数据可得性,此前研究只能将整个国家评审团视为一个“黑箱”(black box),无法探究其内部个体成员的投票行为。尽管评审团由具有不同人口特征(年龄、性别等)和专业背景(产业经理、音乐人、作曲家、音乐记者等)的个体组成,但个体层面的偏见差异始终未能被剖析。因此,本研究的学术背景是填补这一研究空白,其核心目的在于:首次利用新近公开的、包含每位评审团成员个人信息及其独立投票记录的数据,深入到个体层面“解开”评审团投票行为,探究投票者(评委)与被投票者(参赛艺人)之间的个体相似性是否以及在何种程度上会导致投票中的向上偏见(即给予更高分数)。具体研究问题包括:个体相似性是否在投票中扮演角色?评委是否倾向于偏袒与他们相似的同行?
本研究的工作流程主要包括数据收集与处理、变量构建、实证模型设定与分析等几个关键步骤,具体如下:
第一,数据收集与变量构建。研究团队从欧洲广播联盟(EBU)官方文件获取了2014年至2019年间欧洲电视网歌唱大赛的投票数据。这是一个独特的数据集,首次包含了每位评审团成员的个体投票信息,而不仅仅是国家层面的汇总结果。此外,研究者手动编码了参赛艺人的相关信息,包括文化背景、年龄、性别、移民身份、是否曾参加ESC或选秀节目等,并通过观看表演视频编码了演出特征,如是否为乐队、表演是否静态、每分钟节拍数(BPM)、歌词是否为英文、背景乐手/歌手/表演者数量等。对于评审团成员,则从其个人网页或EBU文件收集了信息,包括其在评审团中的角色(例如主席)、文化背景、年龄、性别、职业、是否曾参与ESC等。研究还计算了评委与参赛艺人国家之间的地理接壤程度(共享边境比例)。研究共分析了30,745个观测值,涵盖了评委对参赛艺人的排名数据(因变量为“评委排名”,Rank Judge,数值越低表示排名越好)。
第二,实证分析策略。研究采用计量经济学回归方法进行分析。首先,针对研究问题一,他们检验了单一特征相似性(年龄、性别、文化背景)对投票的影响,并提出了相应的零假设(H1a, H1b, H1c)。为此,他们建立了托比特(Tobit)回归模型(因变量排名存在上下限),并引入了评委与艺人特征的交乘项(interaction term)来捕捉相似性效应。模型还控制了表演顺序、艺人特征、演出特征、评委是否参与决赛、地理接壤、年份固定效应等一系列变量。为了结果的稳健性,研究还在附录中报告了普通最小二乘法(OLS)、有序概率单位模型(Ordered Probit)等其他模型的估计结果。
第三,引入多维相似性度量。为了更综合地衡量评委与艺人之间的整体相似性,研究采用了马哈拉诺比斯距离(Mahalanobis Distance, MD)。这是一种统计距离度量,用于衡量多维空间中两个点之间的距离,能够考虑到各特征变量之间的相关性。研究基于年龄、性别、文化背景和是否曾有ESC经验这四个维度计算了每位评委与每位艺人之间的MD值,并将其标准化到0到1之间(0代表完全不相似,1代表高度相似)。通过将MD作为自变量纳入托比特模型,可以检验整体相似性是否系统性影响投票结果(H2)。此外,研究还进一步分析了评委职业背景对投票偏差的影响(H3),通过引入MD与评委职业的交乘项,探究不同职业群体对相似性偏见的敏感程度是否存在差异。
本研究的主要结果详述如下:
首先,关于单一特征相似性的影响(H1)。研究发现:(a)年龄相似性显著影响投票。所有年龄段的评委都倾向于给35至45岁的中生代艺人更高的排名。特别地,40至55岁的评委表现出对同龄艺人的明显偏好(即“同龄偏好”),而年长评委(60-70岁)的投票则更为异质化,置信区间更大。这导致零假设H1a被拒绝。(b)艺人性别显著影响投票,但评委性别相似性的作用不显著。在所有模型中,男性艺人的排名显著优于女性艺人,混合性别团体排名最差。然而,女性评委并未表现出对女性艺人的系统性偏袒;其投票模式与男性评委并无本质区别。主席评委与非主席评委在性别偏好上也无显著差异。因此,虽然艺人性别重要,但评委与艺人的性别相似性并不构成显著偏见来源,零假设H1b未被拒绝。(c)文化背景(来源地)相似性对投票有复杂影响。通过将国家和地区聚类为文化区域(如巴尔干、高加索、北欧等)并分析交乘效应,研究发现:来自巴尔干地区和北欧的评委倾向于给同区域或邻近区域的艺人更高排名,体现了文化接近性偏见。然而,来自高加索地区(亚美尼亚、阿塞拜疆、格鲁吉亚)的评委却倾向于给同区域艺人更差的排名,这很可能反映了该地区持续存在的政治与军事冲突导致的“反向偏见”。此外,具有移民背景的艺人普遍获得更好排名。因此,来源地相似性确实重要,但其影响方向并非总是正向,零假设H1c被拒绝。
其次,关于整体相似性(H2)与职业背景(H3)的影响。马哈拉诺比斯距离(MD)的回归系数高度显著且为负值,表明评委与艺人之间的整体相似性越高(MD值越大),艺人获得的排名越好(数值越低)。这强有力地证实了整体个人相似性会引发正向投票偏见,因此零假设H2被拒绝。关于评委职业,与MD的交乘项边际效应图显示,尽管所有职业群体都受到相似性偏见的影响,但程度存在差异。具有古典音乐背景(如合唱团/管弦乐团相关职业)的评委表现出的偏见程度最低。而本应更为客观的记者(journalists)群体,其偏见程度却相对较高。主持人(hosts)对相似同行表现出较强的偏好。然而,由于不同职业群体置信区间存在重叠,职业对偏见影响的显著性需要谨慎解读,因此零假设H3(职业无影响)未被明确拒绝,但研究揭示了有趣的差异模式。此外,研究还发现,担任评审团主席并未显著减少投票偏见(即未发现明显的“托马斯·贝克特效应”),主席在文化偏见和性别偏见方面与非主席评委并无显著不同。
基于上述结果,本研究得出以下结论:第一,首次在个体层面证实了欧洲电视网歌唱大赛专家评审投票中存在基于个人特征的相似性偏见。评委与参赛艺人之间在年龄、文化背景以及整体个人相似性(通过MD衡量)上的接近,会显著导致评委给予艺人更高的评价。第二,具体而言,年龄相似性(尤其是中年评委的同龄偏好)和文化接近性(正向或负向)是重要的偏见驱动因素。第三,艺人的性别(男性优势)和移民背景显著影响得分,但评委的性别相似性不构成偏见来源。第四,评委的职业背景调节了偏见程度,古典音乐背景的专家偏见更小,而记者等群体的偏见相对明显。第五,评审团主席的身份并未起到减少偏见的作用。
本研究的科学价值与应用价值在于:第一,方法论上,突破了以往将国家评审团视为整体的局限,开创性地利用个体层面数据进行投票偏差分析,并为衡量个体间多维相似性提供了马哈拉诺比斯距离的应用范例。第二,理论贡献上,将文化经济学中关于“接近性偏见”的研究从国家层面深化至个体心理与社交层面,揭示了即使是在由专家组成的评审团中,无意识的个人相似性偏好如何系统性影响评判结果。这丰富了对同行/专家投票系统内在偏见的理解。第三,实践意义上,研究结果为欧洲电视网歌唱大赛及其他类似竞赛(如体育、艺术评审)的组织者提供了重要启示:在组建评审团时,需要考虑成员 demographic 和职业背景的多样性,以潜在地平衡或减少系统性偏见。特别是,古典音乐背景的专家可能提供更少偏见的评判,而记者群体可能需要额外的提醒以保持客观。第四,研究的发现具有跨领域的泛化潜力。尽管背景是流行音乐比赛,但其中揭示的“相似性偏好”这一基本社会心理机制,很可能普遍存在于法律陪审团、学术评审、各类奖项评选等依赖专家或同行投票的决策场景中。研究提醒我们,在这些重要领域,不能忽视个体相似性可能带来的非主观故意却系统性的评判偏差。
本研究的亮点主要包括:第一,研究数据的独特性和新颖性。这是首次利用欧洲电视网歌唱大赛个体评委的详细投票数据和人口统计信息进行研究,打开了国家评审团投票的“黑箱”。第二,研究方法的综合性。不仅分析了单一特征的相似性效应,还创新性地引入马哈拉诺比斯距离来量化多维整体相似性,并运用现代计量经济学模型进行严谨检验。第三,研究发现的深度与反直觉性。例如,揭示了高加索地区的“反向”文化偏见、女性评委并未偏袒女性艺人、古典音乐专家偏见较小而记者偏见较大等细致且有时违反直觉的结果,深化了人们对偏见复杂性的认识。第四,结论的广泛启示性。研究不仅解答了关于ESC的具体问题,其核心发现——个体相似性驱动专家投票偏见——对理解更广泛的社会决策机制具有重要参考价值。
其他有价值的内容包括:论文对欧洲电视网歌唱大赛的投票机制和历史研究文献进行了清晰的梳理,为不熟悉该领域的读者提供了必要的背景。同时,研究也坦诚地讨论了将其发现推广到其他领域(如法律、体育评审)的前景与局限,体现了学术的审慎态度。附录中详尽的稳健性检验也增强了研究结果的可信度。