分享自:

在线实验平台、网页浏览器和设备的实际精度与准确性

期刊:Behavior Research MethodsDOI:10.3758/s13428-020-01501-5

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


在线实验平台、网页浏览器及设备的现实精度与准确性研究

作者及机构:Alexander Anwyl-Irvine(剑桥大学MRC认知与脑科学单元;Cauldron Science)、Edwin S. Dalmaijer(剑桥大学MRC认知与脑科学单元)、Nick Hodges与Jo K. Evershed(Cauldron Science)。
发表期刊与时间:*Behavior Research Methods*,2021年(在线发布于2020年11月2日)。


学术背景

研究领域:实验心理学与行为科学研究方法,聚焦在线实验技术的计时精度与数据可靠性。
研究动机:随着在线行为研究的普及(如通过Amazon Mechanical Turk等平台),研究者需依赖参与者自有的硬件(如电脑、手机)和软件(如浏览器、操作系统)完成实验。然而,不同设备和软件组合可能引入计时误差,影响刺激呈现和反应时间记录的准确性。此前研究多基于理想化实验室设备,缺乏对真实用户环境的系统性评估。
研究目标:量化主流在线实验平台(Gorilla、jsPsych、Lab.js、PsychoJS)在不同浏览器(Chrome、Firefox、Safari、Edge)和操作系统(Windows 10、macOS)下的表现,包括:
1. 视觉刺激呈现时长准确性(Visual Duration Accuracy);
2. 键盘反应时间记录精度(Reaction Time Accuracy);
3. 在线参与者设备与软件使用的 demographics(人口统计学特征)。


研究流程

1. 视觉呈现时长准确性测试(VDD实验)

方法
- 刺激设计:黑色背景上交替呈现白色方块,持续时间1–29帧(16.66–483.33 ms),间隔500 ms,每种时长重复150次,共4350次试验。
- 平台对比:测试Gorilla、jsPsych v6.0.5、Lab.js v19.1.0、PsychoJS v3.1.5在Chrome、Firefox、Safari、Edge上的表现。
- 设备:Windows 10台式机(60Hz显示器)与macOS iMac(Retina显示器)。
- 计时工具:光电二极管(photodiode)连接Black Box Toolkit v2(BBTKv2),记录实际呈现时长与预期时长的偏差。

数据分析:计算平均延迟(accuracy)和标准差(precision),剔除超过4个标准差的异常值。

2. 反应时间记录精度测试(RT实验)

方法
- 模拟反应:使用机器人执行器(robot actuator)以固定反应时(100/200/300/500 ms)按压键盘空格键,对比记录值与实际值。
- 设备扩展:新增笔记本电脑(Windows Surface与MacBook Air),测试内置键盘与USB键盘差异。
- 平台与浏览器:同VDD实验,排除PsychoJS在Edge的兼容性问题。

数据分析:统计延迟与方差,评估不同组合的稳定性。

3. 参与者设备与软件分析

数据来源:Gorilla平台202,600名参与者的日志数据,包括:
- 操作系统与浏览器分布
- 屏幕分辨率与窗口覆盖率
- 地理位置(通过时区推断)。


主要结果

1. 视觉呈现时长

  • 平均延迟:各平台差异显著。Lab.js延迟最低(均值9.79 ms,标准差4.69 ms),PsychoJS出现负延迟(均值-6.24 ms),jsPsych延迟最高(均值26.02 ms)。
  • 浏览器影响:Chrome表现最佳(均值11.50 ms),Safari最差(均值30.02 ms)。
  • 设备差异:Windows延迟低于macOS(均值12.43 ms vs. 25.45 ms)。

2. 反应时间记录

  • 平台稳定性:Gorilla延迟稳定(均值78.53 ms,标准差8.25 ms),PsychoJS因动画循环更新存在16 ms间隔的聚类现象。
  • 硬件影响:笔记本电脑键盘延迟高于台式机(如Windows台式机均值76.24 ms,笔记本73.65 ms)。

3. 参与者设备特征

  • 主流配置:77%为电脑(Windows占73%),Chrome为最常用浏览器(59%)。
  • 屏幕尺寸:电脑以1366×768和1920×1080为主,手机以375×667(竖屏)常见。
  • 地域偏差:70%参与者位于欧洲(英国占53%),23%在美洲,亚洲和非洲样本稀少。

结论与价值

科学意义
1. 验证可行性:主流在线平台在非极端计时需求下(如反应时>100 ms或呈现时长>2帧)具备可靠性,但需警惕浏览器与操作系统交互效应。
2. 方法学建议:推荐采用被试内设计(within-participant design)以减少设备间变异,或通过编程限制参与者浏览器类型。

应用价值
- 平台选择:无单一平台在所有条件下最优,研究者需权衡功能需求与计时精度(如Lab.js适合高精度视觉实验,Gorilla适合反应时任务)。
- 样本控制:避免依赖MTurk等地域偏差严重的平台,或通过Prolific获取更均衡样本。


研究亮点

  1. 生态效度:首次在真实用户设备(非实验室优化环境)中系统性测试计时误差。
  2. 全面性:覆盖4大平台、5种浏览器、2类操作系统,包含20万参与者的人口统计学分析。
  3. 开源数据:实验代码与部分数据公开于Open Science Framework(OSF),便于复现。

局限与展望
- 未涵盖移动端(iOS/Android)及触摸屏设备;
- 软件版本更新可能影响结果时效性(如PsychoJS后续版本已优化计时)。


此研究为在线实验设计提供了关键基准数据,助力研究者平衡样本规模与数据质量。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com