本研究由Veronica Boyce(麻省理工学院脑与认知科学系)、Richard Futrell(加州大学欧文分校语言科学系)和Roger P. Levy(麻省理工学院脑与认知科学系)合作完成,发表于Journal of Memory and Language期刊2020年第111卷。论文标题为《Maze Made Easy: Better and Easier Measurement of Incremental Processing Difficulty》,旨在解决心理语言学中增量语言处理测量的方法学挑战。
本研究属于心理语言学领域,重点关注增量语言处理(incremental processing)的测量方法。增量语言处理指人类在阅读或聆听时实时解析语言的过程,其核心问题是:某些语言结构的处理是否比其他结构更耗时或更困难?传统方法(如眼动追踪和自我 paced 阅读)存在局限性:
1. 眼动追踪(eye tracking):数据质量高但成本昂贵,需实验室环境;
2. 自我 paced 阅读(self-paced reading, SPR):数据噪声大且存在“溢出效应”(spillover effects),即处理困难可能延迟显现。
作者提出推广Maze任务——一种通过强制选择(forced choice)测量增量处理的方法,并开发自动化工具A-Maze以解决传统Maze任务中人工设计干扰词的繁琐问题。核心目标包括:
1. 验证Maze任务在众包平台(如Amazon Mechanical Turk)的可行性;
2. 利用自然语言处理(NLP)技术自动生成干扰词,降低实验设计成本;
3. 比较A-Maze与传统方法(SPR、G-Maze、L-Maze)的统计功效和定位精度。
方法创新:
- 干扰词生成:基于预训练语言模型(LSTM-RNN)计算词汇的“惊异值”(surprisal),选择高惊异值(低语境概率)的词汇作为干扰词。
- 匹配约束:干扰词与目标词长度、词频匹配,避免长度或词频启发式策略。
- 自动化流程:
1. 使用Google Books Ngram语料库建立词频库;
2. 通过语言模型(Jozefowicz et al., 2016或Gulordava et al., 2018)预测语境概率;
3. 设定惊异值阈值(21比特),筛选干扰词。
技术细节:
- 语言模型对句首词干扰效果较差(语境信息不足),故句首统一使用“x-x-x”作为干扰词。
- 代码开源(GitHub.com/vboyce/maze),支持IBEX平台集成。
实验设计:
- 任务类型:对比SPR、L-Maze(非词干扰)、G-Maze(人工设计干扰词)、A-Maze(自动生成干扰词)。
- 材料:复用Witzel et al. (2012)的句法歧义材料,包括三类结构:
1. 关系从句附着歧义(如“the son of the lady who introduced herself/himself”);
2. 副词附着歧义(如“he drove yesterday/tomorrow”);
3. 句子与名词短语并列歧义(如“the swimmer disappointed her coach, and…”)。
参与者:每任务50名Amazon Mechanical Turk用户,筛选后保留40-46名(需为英语母语者)。
数据分析:
- 因变量:反应时(RT)对数转换,避免偏态分布。
- 统计模型:混合效应模型(log(RT) ~ condition + (condition|subject) + (condition|item))。
- 功效分析:蒙特卡洛模拟估计不同样本量下的统计功效。
(报告字数:约2000字)