本文是Matt Meister(就职于旧金山大学管理学院)和Nicholas Reinholtz(就职于科罗拉多大学博尔德分校利兹商学院)合作完成的一项原创性实证研究,发表在了《Journal of Consumer Research》期刊上,并于2025年3月在线发表。
本研究的学术背景聚焦于市场营销、消费者行为及平台经济领域。近年来,电子商务平台普遍采用两种主要方式来向消费者传递产品质量信号:一是平台官方颁发的质量认证(例如Airbnb的“超赞房东”(Superhost)标志、eBay的“顶级卖家”(Top Rated Seller)徽章);二是用户生成的评分(通常以星级评分形式呈现)。先前的研究已经证实,这两种信号单独来看都能有效刺激需求,增加被认证或高评分产品的选择份额。
然而,研究者注意到,这两种信号并非孤立存在。平台认证很可能为用户创建评分时提供了“心理背景”。一个启发性的例子是:获得普利策奖的书籍在Goodreads上的平均评分往往只是略高于平均水平,这很可能不是因为它们质量平庸,而是因为它们是在“年度最佳图书”的高期望背景下被评分的。这引出了本研究旨在探索的核心问题:第一,平台的官方质量认证是否会降低用户后续给出的评分(即“认证是否会抑制评分”)?第二,如果认证确实会抑制评分,那么这对消费者的选择会产生何种影响?特别是,如果潜在消费者在选择时未能充分意识到或修正认证对评分的影响,那么平台认证刺激需求的初衷可能会因其带来的评分下降而被部分抵消。因此,本研究旨在探讨这两种质量信号之间的交互作用,并揭示平台提供认证可能带来的一个潜在负面影响。
本研究采用了多方法、“数据丰富”的实证路径,共包含四项研究,工作流程详细如下:
第一部分:真实世界数据分析(研究1) 本研究首先利用来自Airbnb.com的大规模实地数据进行考察。研究数据来源包括:从InsideAirbnb.com获取的2021年9月至2022年12月共六个季度的美国房源面板数据(涉及405,765个房源,1,420,922个季度观测值);从Airbnb直接爬取的同期超过150万条个体评分数据(含评分、日期、评价者ID);以及通过匹配算法从竞争对手平台Vrbo获取的对应房源评分数据(成功匹配了2,424个同时在两个平台挂牌的房源,包含约10万条Airbnb评分和2.3万条Vrbo评分)。
数据分析采用了三种识别策略以建立因果推断: 1. 双重差分法(Difference-in-Differences):比较获得“超赞房东”认证的房源与从未获得认证的房源在认证前后的评分变化差异,以及失去认证的房源与始终保持认证的房源在失去认证前后的评分变化差异。此方法直观,但面临处理组(认证状态变化)非随机分配和“平行趋势”假设可能不成立的问题。 2. 固定效应回归(Fixed-Effect Regression):针对那些认证状态发生过变化的房源,通过纳入房源固定效应、时间(季度)固定效应和评价者固定效应,在房源内部比较其处于“超赞房东”状态和非“超赞房东”状态时获得的评分。这种方法控制了不随时间变化的房源特质、时间趋势以及评价者个体差异(如评分严苛度),是更稳健的识别策略。研究者还进行了包含3,840个模型变体的“规范曲线分析”(Specification Curve Analysis)以检验结果的稳健性。 3. 跨平台双重差分法:利用同时在Airbnb和Vrbo上架的房源数据。由于Vrbo不显示Airbnb的“超赞房东”认证,因此可以比较同一个房源在Airbnb认证状态变化前后,其Airbnb评分与Vrbo评分的差异。如果评分下降是由真实的房源质量变化导致,那么两个平台的评分应同步变化;如果是由Airbnb认证带来的期望变化导致,则只有Airbnb评分会受影响。这种方法有助于排除随时间变化的不可观测质量因素(如房东服务下降)的影响,并能有效检验“均值回归”(Regression-to-the-Mean)等替代性解释。
第二部分:实验证据(研究2a, 2b, 3) 为了在受控环境下明确因果并探究消费者选择行为,研究者进行了三项实验室实验。 * 研究2a(评分生成实验):招募了502名MTurk参与者,采用2(认证状态:超赞房东 vs. 非超赞房东)x 2(房源图片组)的组间设计。所有参与者被要求想象在拉斯维加斯的一次住宿经历,且经历描述完全相同(“不错但绝不完美”)。唯一区别是,一组被告知他们选择的是“超赞房东”房源,另一组则被告知是“非超赞房东”房源。随后,参与者需对该经历进行1-5星评分。此实验旨在直接检验假设1:认证是否会导致更苛刻的评分。 * 研究2b(选择实验):在2a的基础上,将2a中两组参与者给出的实际平均评分(超赞房东组:2.96星;非超赞房东组:3.19星)作为刺激材料。招募了599名新的MTurk参与者,让他们在两张房源图片中进行选择,其中一张被标为“超赞房东”但评分较低(2.96),另一张是“非超赞房东”但评分较高(3.19)。其他信息(图片、位置、价格)保持平衡。参与者需要判断哪个房源质量更高,并做出选择。此实验旨在检验假设2:消费者在选择时是否会低估认证对评分的影响,从而过度依赖看似更优的评分。 * 研究3(基于真实Airbnb数据的选择实验):为了增加生态效度并回应潜在质疑(研究2中的评分过低),研究者从美国四个不同城市的真实Airbnb中选取了八套“超赞房东”房源,组成四对。在每对中,随机将其中一套的“超赞房东”标签移除,并交换两套房的评分信息,确保“非超赞房东”总是显示更高的评分。招募了497名CloudResearch参与者,依次观看这四对房源并做出质量和偏好选择。该研究再次检验假设2,并考察了更熟悉Airbnb的用户是否表现不同。
研究的主要结果如下:
研究1的结果:三种识别策略均一致支持假设1。 1. 双重差分分析显示,获得“超赞房东”认证后,房源评分相对于从未认证的房源显著下降(平均处理效应ATT = -0.037星);失去认证后,评分相对于始终保持认证的房源显著上升(ATT = +0.089星)。尽管存在平行趋势问题,但方向一致。 2. 固定效应回归显示,在控制了房源、时间和评价者固定效应后,同一房源在“超赞房东”状态期间获得的评分显著低于非“超赞房东”状态期间(系数β ≈ -0.041星)。规范曲线分析表明,在绝大多数(98.7%)合理模型设定下,该效应为负,且在中位数模型设定下显著。 3. 跨平台双重差分提供了最强有力的证据:获得认证的房源,其Airbnb评分在认证后相对于自身在Vrbo的评分显著下降(ATT = -0.047星);失去认证的房源,其Airbnb评分在失去后相对于自身在Vrbo的评分显著上升(ATT = +0.131星)。至关重要的是,在认证状态改变之前,Airbnb和Vrbo的评分趋势是平行的,这排除了由房源质量系统性变化或均值回归作为主要解释的可能性。
研究2a的结果:实验复现了实地发现。面对完全相同的虚拟住宿经历,当该经历被标记为来自“超赞房东”时,参与者给出的平均评分(2.96星)显著低于当它被标记为来自“非超赞房东”时(3.19星),效应量d = -0.278。这直接证明了认证状态对评分产生的因果性抑制效应。
研究2b的结果:当潜在消费者面临选择时,尽管他们明确知道哪个是“超赞房东”(质量信号),但多数人(56.76%)选择了评分更高的“非超赞房东”选项,只有31.05%的人选择了带有认证但评分较低的选项。在质量判断上,参与者也普遍认为评分更高的“非超赞房东”房源质量更好。这表明消费者未能充分修正认证对评分的影响,而是将评分差异主要归因于质量差异。
研究3的结果:使用真实Airbnb数据的选择实验得出了与2b高度一致的结论。平均而言,54.93%的参与者选择了评分更高的“非超赞房东”选项,而选择认证“超赞房东”的仅有36.12%。即使是那些自称更频繁使用Airbnb和选择“超赞房东”的参与者,也表现出相同的模式。这进一步证实了假设2的普遍性。
本研究得出了明确的结论:平台提供的质量认证(如Airbnb的“超赞房东”)会通过提高消费者的比较标准或期望,导致用户生成评分被系统性压低。更重要的是,后续的潜在消费者在选择时,并未充分意识到或修正这种由认证背景导致的评分偏差。他们倾向于将观察到的评分差异直接解读为质量差异,从而过度依赖评分进行决策。因此,质量认证对需求的净刺激效果可能低于平台预期:认证本身带来的正向信号效应,被其引发的评分下降所带来的负向选择效应部分甚至完全抵消。这意味着平台设计的质量信号机制可能存在效率损失。
本研究的价值体现在多个层面: 科学价值:该研究首次系统性地探讨并实证检验了平台认证与用户评分这两种关键质量信号之间的交互效应,揭示了认证对评分产生的“抑制”作用这一前人未充分关注的机制。它将“期望-不一致”(Expectation-Disconfirmation)理论扩展到了多用户生成的在线评分语境中,并连接了评分生成(受背景影响)与评分使用(忽略背景)这两个分离的决策阶段,为理解在线评价生态系统的复杂性提供了新的理论视角。 应用价值:研究结论对平台管理者、卖家和消费者都具有重要启示。平台在设计认证体系时,需权衡其带来的直接推广效益与可能引发的评分“惩罚”及其对长期需求的间接损害。例如,可考虑提供更精细的评分分类(如“超赞房东”专属评分)或引导消费者理解评分背景。对于卖家(房东)而言,获得认证后可能需要管理客户期望,以维持高评分。对于消费者,研究提醒他们,在比较不同认证状态的产品时,应审慎解读评分,意识到高期望可能压低了认证产品的得分。 政策与行业价值:该研究指出了在线声誉系统可能存在的“非意图后果”,促使人们反思如何设计更公平、信息更透明的评价环境,以减少系统性偏差,帮助消费者做出更优决策。
本研究的亮点在于: 1. 巧妙的研究设计:结合了大规模实地数据分析(兼具广度和生态效度)与受控实验室实验(明确因果关系),并通过跨平台比较(Airbnb vs. Vrbo)这一“自然实验”设计,有力排除了竞争性假设,论证严谨。 2. 多方法验证:在实地数据部分,采用了三种不同的计量经济学识别策略,从不同角度验证核心假设,增强了结论的稳健性和可信度。 3. 重要的理论整合与实践发现:不仅验证了“认证抑制评分”这一现象,更关键的是揭示了消费者在决策中对此效应的“认知不足”,从而将两个独立的消费者行为环节(评价与选择)逻辑贯通,解释了为何平台的良善意图可能无法完全实现。 4. 丰富的异质性分析:在研究1的补充分析中,探讨了效应在不同类型房源(如多房源房东 vs. 单房源房东、高价 vs. 低价)间的差异,发现价格本身也可能提升期望,从而部分“挤出”认证的效应,这深化了对边界条件的理解。
此外,研究者还进行了一些有价值的补充分析,例如利用文本评论的情感分析作为替代因变量,得出了与星级评分一致的结论;以及对“均值回归”等替代解释进行了详细的检验和讨论,进一步巩固了主要结论。所有数据、代码和预注册方案均已公开,体现了研究的可重复性和透明度。