本研究的主要作者是Jennifer Kee(第一作者,来自德州农工大学农业经济学系)、Melinda Knuth(来自佛罗里达大学食品与资源经济学系)、Joanna N. Lahey(来自德州农工大学布什学院和美国国家经济研究局NBER)和Marco A. Palma(通讯作者,来自德州农工大学农业经济学系)。该项研究成果于2021年8月5日发表在开放获取期刊《PLOS ONE》上。
在学术背景方面,本研究属于实验经济学与行为科学的交叉领域。近年来,眼动追踪(eye-tracking)技术在社会科学研究中的应用急剧增加,它已成为理解人类决策背后驱动行为的强大工具。眼动设备通过记录眼球运动、注视点、瞳孔扩张等数据,帮助研究者洞察决策过程中的注意力分配、认知负荷等信息。随着技术进步和设备成本的下降,眼动追踪的应用愈发普及。然而,一个悬而未决的重要方法论问题是:眼动追踪设备本身的使用,是否会改变参与者的行为?这种潜在的“霍桑效应”(Hawthorne effect)或社会称许性偏差(Social Desirability Bias, SDB),即参与者因知道自己被观察而调整行为以符合社会期望,可能会威胁到使用眼动数据得出的结论的外部效度。尽管有少数研究在特定任务中检查过这一效应并报告了零结果,但目前尚缺乏一项系统性、综合性的研究来全面评估在激励性实验室经济实验中,眼动设备的存在是否以及在何种程度上会诱导参与者行为改变。因此,本研究的主要目的是:1) 系统地研究在八种标准的经济学游戏中,使用眼动追踪设备是否会导致参与者的经济行为发生改变;2) 如果存在影响,探究这种影响是否会随时间推移而消失;3) 探讨眼动数据质量筛选(剔除低质量数据这一标准做法)是否会消除潜在的设备效应。研究选取的游戏覆盖了从理论上社会称许性选择影响较低(如双向拍卖)到较高(如欺骗游戏)的不同水平,旨在全面检验眼动追踪的方法论稳健性。
研究的详细工作流程如下。实验采用简单的被试间设计。研究总共招募了404名德州农工大学的学生,在50个实验时段中进行,每个时段4至16名参与者。实验在德州农工大学的人类行为实验室进行,该实验室设有16个工作站,每个工作站配备了安装有Tobii X2-60眼动追踪设备和网络摄像头的电脑,工作站之间有隔板分隔以确保隐私。参与者被随机分配到两个条件之一:“眼动追踪处理组”或“无眼动追踪控制组”。在处理组中,眼动仪和摄像头开启,参与者在每个游戏开始前会阅读包含眼动追踪相关信息的同意书,并接受设备校准(共五个校准点)。校准成功率需达到80%以上,否则需重新校准。实验者还会在每个游戏开始前口头提醒参与者设备的存在并进行重新校准,以保持设备的显著性。在控制组中,眼动仪和摄像头在参与者进入前已关闭,同意书中不提及眼动追踪,参与者需面对空白屏幕等待4.5分钟(这是处理组校准的平均时间),以平衡两组在实验时长上的差异。
研究包含了八个经典的经济学游戏,为避免参与者疲劳,将其分为两组进行。第一组包括:独裁者游戏(测度利他/公平)、信任游戏(测度信任与可信度)、霍尔特与劳里风险评估任务(Holt and Laury risk assessment, HL, 测度风险偏好)和为期10轮的双向拍卖游戏(测度市场行为)。第二组包括:埃克尔与格罗斯曼赌博风险任务(Eckel and Grossman gambling risk task, EG, 另一种风险偏好测度)、为期10轮的公共物品游戏(测度合作)、最后通牒游戏(测度公平与惩罚)和为期10轮的欺骗游戏(测度不诚实行为)。游戏顺序经过设计,以平衡社会称许性偏差的潜在影响。所有游戏均使用标准化的说明,并通过z-Tree软件程序化实施。
实验流程如下:参与者到达后,根据分组签署相应的同意书并被随机分配座位。随后,他们按顺序在电脑上完成所分配组别的四个游戏。在每个游戏决策后,他们不会立即得知结果,除非该游戏最终被抽中作为报酬支付。所有游戏完成后,参与者填写一份人口统计学问卷。最后,实验者通过随机抽签的方式(例如抽取芯片)确定哪个游戏(及该游戏中的哪一轮,如为多轮游戏)的决策将用于计算真实报酬。参与者获得10美元的出场费加上他们在绑定游戏中赢得的报酬,平均报酬约为15.93美元。
数据分析方面,研究进行了统计功效分析以确保足够的样本量来检测中等效应。对于每个游戏,研究者主要使用曼-惠特尼U检验(Mann-Whitney U test)比较处理组和控制组在关键结果变量(如独裁者游戏中送出的代币数、风险任务中选择安全选项的次数等)上的均值差异,并使用柯尔莫哥洛夫-斯米尔诺夫检验(Kolmogorov–Smirnov test)比较分布差异。作为稳健性检验,他们还进行了OLS回归分析,并控制了人口统计学变量(性别、年龄、教育程度、种族、收入),同时将标准误在实验时段层面进行聚类,以考虑同一时段内参与者决策可能存在的相关性。
研究的主要结果如下。在八个游戏中的七个里,眼动追踪并未导致参与者行为产生统计学上的显著差异。具体而言: 1. 独裁者游戏:作为分配者的玩家(Player 1)在眼动组和无眼动组中送出的代币平均数没有显著差异。 2. 信任游戏:作为投资者的玩家(Player 1)给出的代币比例,以及作为受托人的玩家(Player 2)返还的代币比例,在两组间均无差异。 3. 埃克尔与格罗斯曼风险任务:参与者选择的赌博选项(反向编码为安全选项数量)在两组间无差异。 4. 公共物品游戏:参与者在私人账户中保留的代币平均数(即不合作的倾向)在两组间无差异。 5. 最后通牒游戏:提议者(Player 1)给出的出价比例和响应者(Player 2)的接受率在两组间无差异。 6. 欺骗游戏:参与者在10轮中报告的数字平均数(高于4即表明存在说谎倾向)在两组间无差异。 7. 双向拍卖游戏:在控制了市场规模(参与者人数)并将标准误聚类后,平均利润、交易价格、出价、要价和交易量在两组间均无显著差异。
然而,研究在霍尔特与劳里风险任务中观察到了一个显著的眼动追踪效应。眼动组的参与者比控制组的参与者表现出更强的风险厌恶,即他们选择了更多次的安全选项。进一步的深入分析揭示了这个看似异常的结果背后的原因:校准困难与风险厌恶相关。研究发现,无论是在HL任务还是在EG任务中(两个不同的受试者群体),校准尝试失败的次数都与更高的风险厌恶测量值直接相关。每增加一次校准尝试,参与者在两个风险游戏中选择安全选项的次数平均增加约0.2次。在HL任务中,这些“校准困难户”是驱动处理组与控制组之间差异的主要原因。但值得注意的是,这种效应仅出现在HL任务的前五轮(共十轮)中,在后五轮中差异不再显著,表明效应是短暂的。
更重要的是,研究指出,在眼动追踪研究中,一个标准做法是剔除眼动数据质量低的参与者(例如,有效采样率低于85%)。由于校准困难与眼动数据质量低高度相关,当研究者遵循这一标准做法,从HL任务的分析中剔除那些眼动数据质量低的参与者(或校准尝试次数异常多的参与者)后,处理组与控制组之间的显著差异就消失了。换言之,对于关注眼动数据本身的研究者来说,在进行了常规的数据质量筛选后,即使在风险评估任务中,由眼动设备引起的霍桑效应也不是一个问题。
本研究的结论是:在标准的经济学实验游戏中,使用眼动追踪设备本身并未对参与者的经济行为产生普遍性的、有意义的改变,尤其是在剔除了低质量眼动数据(这通常也会剔除掉校准困难的参与者)之后。这为在实验经济学中广泛采用眼动追踪技术提供了方法论上的信心,增强了其研究结果的外部效度。
该研究的科学价值与应用价值显著。在方法论层面,它直接回应了论文评审人、研讨会参与者和资助机构经常提出的关于眼动追踪可能引入实验偏差的担忧,通过系统性的检验提供了强有力的证据,表明这种担忧在大多数标准经济游戏情境下是不必要的。这有助于打消研究社区的疑虑,促进眼动追踪在经济学及相关领域的更广泛应用。在实践层面,研究为使用眼动设备的研究者提供了明确的指导:1) 可以放心地在大多数经济行为实验中使用眼动追踪,而不必过度担心设备本身会扭曲行为;2) 应坚持并报告对低质量眼动数据的筛选过程,这不仅是保证眼动分析质量的要求,也可能自动缓解由校准问题带来的潜在行为偏差;3) 对于风险偏好等可能受情绪状态影响的任务,需要关注校准过程对参与者(特别是那些校准困难者)情绪的潜在影响,并可通过分析早期回合数据或控制校准次数来进行稳健性检验。
本研究的亮点在于:首先,研究设计的系统性与全面性。它没有局限于单一游戏,而是涵盖了八种具有不同社会称许性压力的经典经济游戏,提供了迄今为止关于眼动追踪设备效应最全面的评估。其次,对异常结果的深入剖析。研究没有止步于在HL任务中发现显著差异,而是深入挖掘,将差异溯源至“校准困难”这一具体因素,并联系到眼动研究的标准数据处理流程,最终得出了更精细、更具实践指导意义的结论。第三,对“标准做法”的验证。研究证明了在眼动分析中剔除低质量数据这一常规操作,恰好也移除了可能受设备校准过程影响的参与者,从而在方法论上为现有研究实践提供了支持。最后,揭示了短暂效应与学习效应。发现HL任务中的效应仅在前半段显著,提示任何潜在的干扰可能是短暂的,随着参与者对实验环境的适应而消失,这为理解设备效应的动态特征提供了线索。
此外,研究还提及了未来可能的研究方向,例如在其他领域的任务(尤其是涉及风险厌恶的任务)中检验眼动效应,以及研究眼动追踪对眼球运动本身的影响(但这在禁止欺骗的经济学实验中难以实现)。这些都为后续研究开辟了道路。这项研究通过严谨的实验设计和细致的分析,显著推进了我们对眼动追踪技术方法论稳健性的理解,为行为科学领域更可靠地使用这一强大工具奠定了坚实的基础。