本文档所介绍的论文是一项发表于《journal of cultural economics》期刊2005年第29期的原创性实证研究,题目为“expert judgment versus public opinion – evidence from the eurovision song contest”,作者为Marco A. Haan, S. Gerhard Dijkstra 和 Peter T. Dijkstra,均来自荷兰格罗宁根大学经济学系。
此项研究旨在从一个新颖的视角,实证探讨一个在文化经济学、艺术批评及哲学领域争论已久的核心问题:在评判文化产出的质量时,究竟是专家意见更具价值,还是大众品味(公众意见)更胜一筹。这一争论并非仅限于理论层面,它直接关联到政府是否应当干预文化市场的“功绩品”论证。若大众是糟糕的评判者,那么完全由市场(即公众选择)主导的文化供给可能导致质量下降,政府便有理由依据专家意见来支持那些“叫好不叫座”的艺术创作;反之,若市场机制能有效激励和筛选出高质量的文化产品,那么专家干预的必要性就存疑。然而,以往的研究难以绕过“何为质量”这一主观价值判断的陷阱,使得比较专家与公众的评判孰优孰劣变得异常困难。
本研究巧妙地规避了这一困境。它不试图评判专家或公众的“品味”高低,而是聚焦于他们评判过程的效率。核心假设是:一个理想的、基于纯粹质量优劣的评判过程,应不受与质量无关的外生因素影响。研究者选取了“参赛者出场顺序”(由随机抽签决定)作为这样一个外生因素。如果评判结果系统地受到出场顺序的影响(例如,后出场者普遍获得更高排名),则说明该评判过程存在“低效”或“偏差”。在此基础上,研究进一步提出:如果公众评判比专家评判表现出更强的顺序效应(即受外生因素影响更大),那么就可以认为,至少在“更少受无关因素干扰”这一效率维度上,专家是比公众更优的质量评判者。研究选取了欧洲电视网歌唱大赛及其各国国内选拔赛作为理想的“自然实验场”,因为其评判机制在历史上恰好存在专家评审团和公众电话投票两种模式的清晰分野。
研究流程主要分为三个递进的实证分析部分,每个部分都涉及数据收集、变量构建和回归分析。
第一部分:检验欧洲电视网歌唱大赛国际决赛中的“顺序效应”。 研究者收集了1957年至1997年(此期间决赛全部采用专家评审团制)共41届大赛的数据,涉及758个参赛观测值。核心变量是出场顺序和最终排名,为便于跨届次比较,两者均被归一化至[0,1]区间(值越低代表排名越靠前/出场越早)。回归模型以最终排名为因变量,核心自变量为出场顺序。为了控制其他可能影响排名的因素,模型中还加入了代表参赛者所属国家的虚拟变量(以控制某些国家长期表现优于或劣于平均水平的现象)、主办国虚拟变量(检验可能的“主场优势”),以及表演者类型虚拟变量(男歌手、女歌手、二人组合、团体)。此外,模型还专门检验了“首位出场者”是否具有特殊优势。回归分析采用普通最小二乘法。
主要结果如下: 首先,出场顺序的系数在统计上显著为负(-0.124),意味着在控制了国家、主办国和表演者类型后,后出场的歌曲获得了显著更好的平均排名。在一个有20名参赛者的典型决赛中,最后一名出场者比最早出场者平均排名要高出约2.3位。这证实了在欧洲电视网国际决赛的专家评审团中,确实存在与Glejser和Heyndels在伊丽莎白女王音乐比赛中发现的类似的顺序效应,即专家评判也并非完全高效。其次,首位出场者虚拟变量的系数也显著为负(-0.127),且幅度与出场顺序主效应相近,这意味着首位出场者也拥有显著优势。综合来看,评委似乎对最先(记忆最新)和最后(印象最深)出场的表演给予更有利的评价,而中间出场者则相对不利。这一发现不仅证实了专家评判也存在系统性偏差,更重要的是为后续比较公众与专家的效率差异建立了一个基准。
第二部分:核心检验——比较国内选拔赛中专家评审与公众电话投票的效率。 这是本研究的创新与核心环节。研究者从各国国内选拔赛中收集了70个决赛的数据,其中44个由专家评审团决定胜负,26个由公众电话投票决定。这些数据的时间范围主要在1988年至2001年。分析不再控制国家等因素,而是专注于检验两种评判机制下顺序效应的强度差异。为了在一个统一的框架下进行统计比较,研究者对模型进行了巧妙的数学变换。他们将因变量和自变量分别转换为新的变量:transrank = rank - appearance 和 transappear = 1 - 2 * appearance。在这种设定下,回归方程 transrank = α * transappear 中的系数α直接度量了顺序效应的强度和方向。当α = 0.5时,代表没有顺序效应(评判完全高效);α > 0.5代表后出场者占优(存在顺序效应)。通过在方程中引入专家评审虚拟变量与transappear的交互项,可以直接检验两种机制下α值是否存在显著差异。
主要结果具有决定性意义: 对于公众电话投票样本,估计出的α值为0.623,显著大于0.5,表明强烈的顺序效应存在。而对于专家评审样本,交互项系数为-0.091且显著,这意味着专家评审对应的α值(0.623 - 0.091 = 0.532)虽然仍大于0.5(表明专家也不完美),但显著低于公众投票的α值。图表演示清晰地显示,在电话投票的比赛中,出场顺序对最终排名的预测斜率远陡于专家评审的比赛。具体而言,在一个有11名参赛者的电话投票决赛中,最后出场者比最先出场者平均排名要高出约2.5位,这个效应幅度甚至超过了在国际专家评审决赛中观察到的效应。这一结果强有力地支持了研究的主要假设:在评判文化产出(此处为歌曲)时,专家虽然也会受无关因素(出场顺序)影响,但其受影响的程度显著小于公众。 因此,在“更少受到与质量无关的外生因素干扰”这一特定意义上,专家是比公众更优的评判者。
第三部分:稳健性检验——排除“信息不对称”的替代解释。 一个可能的质疑是:专家评审可能在比赛前已多次听过参赛歌曲,因而有更多信息做出稳定判断;而公众在决赛中可能是第一次听到歌曲,仓促决定导致了更大的随机性(表现为更强的顺序效应)。为排除这一解释,研究者专门收集了17个采用电话投票、但决赛前已通过多轮次预选赛让公众反复接触过参赛歌曲的国内选拔赛数据。如果上述解释成立,那么在这些“信息充分”的公众投票比赛中,顺序效应应减弱到与专家评审相近的水平。
结果恰恰相反: 对这些“信息充分”的公众投票比赛进行单独回归分析,得到的顺序效应强度(α=0.641)甚至略高于原始电话投票样本的整体水平。这证明,即使公众对歌曲已相当熟悉,其评判过程仍然比专家评审更容易受到出场顺序等无关因素的干扰。因此,“信息优势”无法解释专家与公众在评判效率上的差异,这一差异更可能源于评判主体本身(专家vs.大众)在信息处理、注意力分配或决策机制上的不同。
基于以上系统性的实证分析,本研究得出了双重结论。第一重贡献是再次证实并拓展了“顺序效应”在音乐比赛评判中的普遍存在性,无论是在顶级的国际专家评审赛事(伊丽莎白女王比赛、欧洲电视网决赛)还是在国内的公众投票选拔赛中,随机决定的出场顺序都会系统性地影响比赛结果。这种顺序效应可能导致经济上的无效率,例如影响艺术家的职业生涯,其原理也可能类推至求职面试、试卷批阅等其他需要连续比较候选人质量的场景。第二重,也是更重要的贡献在于,它首次利用严谨的计量经济学方法,绕开主观的“质量”定义,为“专家评判相对于公众意见在文化评估中具有优势”这一经典命题提供了客观的实证支持。研究表明,专家在应用其评判标准时(无论这些标准本身是否“正确”)表现得更为一致,更少受到与质量无关的随机因素的扰动。
本研究的亮点与价值主要体现在:方法论上的创新:创造性地利用“评判过程对无关因素的敏感性”作为衡量评判效率的代理指标,并设计出可比的统计模型(变量变换与交互项),从而在无需定义“绝对质量”的前提下,客观比较了专家与公众的评判表现。研究设计的巧妙:欧洲电视网赛事体系天然提供了专家评审与公众投票并存的“准实验”环境,且评判规则清晰、数据可得,是检验该理论问题的绝佳案例。结论的稳健与启发:研究不仅得出了清晰的结论,还通过稳健性检验排除了重要的竞争性假设,增强了结论的说服力。其发现不仅对文化经济学中关于政府补贴、市场失灵与功绩品的讨论有直接意义,也对更广泛领域(如组织行为学、决策科学)中理解个体决策与集体决策的差异提供了洞见。当然,作者也谨慎地指出了研究的边界:它证明了专家应用标准更一致,但并未、也无法证明专家所应用的标准本身在未来会得到更多认可,或者比公众的品味更具“远见”。尽管如此,这项研究无疑为这个古老的争论注入了新的、基于数据的思考维度。