本研究由Stanford University的Veronica Boyce与Massachusetts Institute of Technology的Roger P. Levy合作完成,发表于开放获取期刊*Glossa Psycholinguistics*(2023年)。论文标题为”A-maze of natural stories: comprehension and surprisal in the maze task”,DOI号为10.5070/g6011190。
这项研究属于心理语言学领域,聚焦于人类语言处理的增量性(incrementality)和加工难度定位问题。传统的行为测量方法(如眼动追踪和自我定速阅读)存在信号噪声比低、设备昂贵、溢出效应明显等局限。迷宫任务(maze task)作为一种新兴的增量句子处理方法,能更好地定位句法歧义导致的加工延迟,但此前仅应用于短句研究。
研究团队旨在解决三个关键问题:(1) 迷宫任务能否扩展到长篇自然文本;(2) 与传统方法相比的敏感性差异;(3) 单词意外值(surprisal)与反应时间的函数关系。这些问题对理解人类语言处理机制和优化研究方法具有重要意义。
研究采用Natural Stories Corpus中的10篇约1000词的自然故事文本。通过改进的a-maze方法自动生成干扰项(distractor),使用语言模型预测每个位置的高意外值单词作为干扰选项。特别开发了”纠错迷宫”(error-correction maze)新范式:当被试选择错误时显示错误信息并要求重新选择,而非传统的中止句子呈现。
通过Amazon Mechanical Turk招募100名以英语为母语的参与者(最终保留63名高准确率参与者)。每位参与者获得3.5美元报酬,完成约20分钟的实验,包括: - 知情同意与任务指导 - 迷宫任务的短篇练习故事(含2道理解题) - 1篇主测故事(含6道二选一理解题) - 人口统计问卷与任务反馈
实验采用改进的IBEX平台实现,记录两种反应时(RT)数据: 1. 首次点击反应时 2. 最终正确选择的总反应时 排除标准包括:非母语者、任务准确率<80%、异常反应时(<100ms或>5000ms)、标点符号及多token单词。
使用Futrell等人(2020)收集的自我定速阅读(self-paced reading, SPR)数据作为对照,保留首次阅读故事且理解题正确率≥5/6的165名参与者数据。
采用多层次建模框架: 1. 广义加性模型(GAM):检验意外值与反应时间的函数关系 2. 贝叶斯线性混合模型:评估当前词与先前词预测因子的效应大小 3. 模型比较:评估四种语言模型(5-gram、GRNN、Transformer-XL、GPT-2)的预测效能 关键预测变量包括: - 当前词与先前词的意外值(bits) - 词长(字符数) - 词频(log2每十亿词出现次数) - 交互项(意外值×词长,词频×词长)
高准确率参与者(>80%)表现出: - 单词选择准确率高达99% - 平均反应时约1秒/词 - 理解题正确率与SPR参与者相当(79% vs 83%) 数据表明迷宫任务能有效支持长篇文本理解,纠错机制将50词段落的完成率从61%提高到近100%。
通过分半相关分析发现: - 迷宫任务内部相关性(r=0.36)高于SPR内部(r=0.23) - 迷宫-SPR跨方法相关性(r=0.25) 表明迷宫任务具有更高的信噪比,能更敏感地检测加工难度差异。
GAM分析显示所有语言模型均呈现: - 当前词意外值与反应时间的显著线性关系(p<0.0001) - 效应大小:GPT-2模型24.2ms/bit(95%CI[21.5,27]) - 先前词意外值效应微弱(3.5ms/bit) 这种线性模式与其他增量阅读方法一致,但效应量更大(SPR仅1-2ms/bit)。
线性混合模型揭示关键差异: 迷宫任务: - 强局部化效应:当前词长(16.2ms/字符)和意外值主导 - 先前词预测因子效应接近零 - 无显著词频主效应 SPR任务: - 明显溢出效应:当前词和先前词预测因子影响相当 - 词频效应显著(1.2ms/log2频率) - 效应延伸至前三个词
模型拟合优度排序: 1. GPT-2(R²=0.25) 2. GRNN(R²=0.23) 3. Transformer-XL(R²=0.20) 4. 5-gram(R²=0.16) 特别发现:神经网络模型对迷宫数据的预测优势更明显,而SPR数据中5-gram表现相对较好,暗示迷宫任务更能捕捉深层语言结构特征。
该研究为心理语言学领域提供了强有力的新工具,其开发的error-correction maze范式已集成到改进的IBEX实现中,可供学界直接使用。未来研究方向包括探索不同人群的语言处理差异,以及将方法应用于第二语言习得研究。