在线实验平台、网页浏览器和设备的实际精度与准确性

分享自：
在线实验平台、网页浏览器和设备的实际精度与准确性

期刊:Behavior Research MethodsDOI:10.3758/s13428-020-01501-5
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
在线实验平台、网页浏览器及设备的现实精度与准确性研究作者及机构：Alexander Anwyl-Irvine（剑桥大学MRC认知与脑科学单元；Cauldron Science）、Edwin S. Dalmaijer（剑桥大学MRC认知与脑科学单元）、Nick Hodges与Jo K. Evershed（Cauldron Science）。
 发表期刊与时间：*Behavior Research Methods*，2021年（在线发布于2020年11月2日）。
学术背景研究领域：实验心理学与行为科学研究方法，聚焦在线实验技术的计时精度与数据可靠性。
 研究动机：随着在线行为研究的普及（如通过Amazon Mechanical Turk等平台），研究者需依赖参与者自有的硬件（如电脑、手机）和软件（如浏览器、操作系统）完成实验。然而，不同设备和软件组合可能引入计时误差，影响刺激呈现和反应时间记录的准确性。此前研究多基于理想化实验室设备，缺乏对真实用户环境的系统性评估。
 研究目标：量化主流在线实验平台（Gorilla、jsPsych、Lab.js、PsychoJS）在不同浏览器（Chrome、Firefox、Safari、Edge）和操作系统（Windows 10、macOS）下的表现，包括：
 1. 视觉刺激呈现时长准确性（Visual Duration Accuracy）；
 2. 键盘反应时间记录精度（Reaction Time Accuracy）；
 3. 在线参与者设备与软件使用的 demographics（人口统计学特征）。
研究流程1. 视觉呈现时长准确性测试（VDD实验）方法：
 - 刺激设计：黑色背景上交替呈现白色方块，持续时间1–29帧（16.66–483.33 ms），间隔500 ms，每种时长重复150次，共4350次试验。
 - 平台对比：测试Gorilla、jsPsych v6.0.5、Lab.js v19.1.0、PsychoJS v3.1.5在Chrome、Firefox、Safari、Edge上的表现。
 - 设备：Windows 10台式机（60Hz显示器）与macOS iMac（Retina显示器）。
 - 计时工具：光电二极管（photodiode）连接Black Box Toolkit v2（BBTKv2），记录实际呈现时长与预期时长的偏差。
数据分析：计算平均延迟（accuracy）和标准差（precision），剔除超过4个标准差的异常值。
2. 反应时间记录精度测试（RT实验）方法：
 - 模拟反应：使用机器人执行器（robot actuator）以固定反应时（100/200/300/500 ms）按压键盘空格键，对比记录值与实际值。
 - 设备扩展：新增笔记本电脑（Windows Surface与MacBook Air），测试内置键盘与USB键盘差异。
 - 平台与浏览器：同VDD实验，排除PsychoJS在Edge的兼容性问题。
数据分析：统计延迟与方差，评估不同组合的稳定性。
3. 参与者设备与软件分析数据来源：Gorilla平台202,600名参与者的日志数据，包括：
 - 操作系统与浏览器分布；
 - 屏幕分辨率与窗口覆盖率；
 - 地理位置（通过时区推断）。
主要结果1. 视觉呈现时长平均延迟：各平台差异显著。Lab.js延迟最低（均值9.79 ms，标准差4.69 ms），PsychoJS出现负延迟（均值-6.24 ms），jsPsych延迟最高（均值26.02 ms）。
 
浏览器影响：Chrome表现最佳（均值11.50 ms），Safari最差（均值30.02 ms）。
 
设备差异：Windows延迟低于macOS（均值12.43 ms vs. 25.45 ms）。
 
2. 反应时间记录平台稳定性：Gorilla延迟稳定（均值78.53 ms，标准差8.25 ms），PsychoJS因动画循环更新存在16 ms间隔的聚类现象。
 
硬件影响：笔记本电脑键盘延迟高于台式机（如Windows台式机均值76.24 ms，笔记本73.65 ms）。
 
3. 参与者设备特征主流配置：77%为电脑（Windows占73%），Chrome为最常用浏览器（59%）。
 
屏幕尺寸：电脑以1366×768和1920×1080为主，手机以375×667（竖屏）常见。
 
地域偏差：70%参与者位于欧洲（英国占53%），23%在美洲，亚洲和非洲样本稀少。
 
结论与价值科学意义：
 1. 验证可行性：主流在线平台在非极端计时需求下（如反应时>100 ms或呈现时长>2帧）具备可靠性，但需警惕浏览器与操作系统交互效应。
 2. 方法学建议：推荐采用被试内设计（within-participant design）以减少设备间变异，或通过编程限制参与者浏览器类型。
应用价值：
 - 平台选择：无单一平台在所有条件下最优，研究者需权衡功能需求与计时精度（如Lab.js适合高精度视觉实验，Gorilla适合反应时任务）。
 - 样本控制：避免依赖MTurk等地域偏差严重的平台，或通过Prolific获取更均衡样本。
研究亮点生态效度：首次在真实用户设备（非实验室优化环境）中系统性测试计时误差。
 
全面性：覆盖4大平台、5种浏览器、2类操作系统，包含20万参与者的人口统计学分析。
 
开源数据：实验代码与部分数据公开于Open Science Framework（OSF），便于复现。
 
局限与展望：
 - 未涵盖移动端（iOS/Android）及触摸屏设备；
 - 软件版本更新可能影响结果时效性（如PsychoJS后续版本已优化计时）。
此研究为在线实验设计提供了关键基准数据，助力研究者平衡样本规模与数据质量。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问