本研究由Dimitris Gkoumas(伦敦玛丽皇后大学电子工程与计算机科学学院)、Bo Wang(美国马萨诸塞州总医院精准精神病学中心)、Adam Tsakalidis(伦敦玛丽皇后大学 & 艾伦·图灵研究所)、Maria Wolters(爱丁堡大学信息学院)、Matthew Purver(伦敦玛丽皇后大学 & 艾伦·图灵研究所)、Arkaitz Zubiaga(伦敦玛丽皇后大学)以及Maria Liakata(伦敦玛丽皇后大学 & 艾伦·图灵研究所)共同完成。该研究作为预印本发布于arXiv,版本标识为arXiv:2109.01537v2,提交日期为2023年12月23日,采用了Springer Nature 2023 LaTeX模板。
研究领域:本研究属于计算语言学(Computational Linguistics)与医学信息学(Medical Informatics)的交叉领域,聚焦于痴呆症(Dementia)的早期诊断与长期监测。
研究动机:全球约有5000万痴呆症患者,且每年新增1000万病例(WHO, 2019)。当前诊断主要依赖昂贵的生物标志物(如MRI、PET扫描)或人工实施的神经心理测试(如MMSE、ACE-III),但这些方法存在成本高、敏感性不足等问题。语言和语音分析作为一种非侵入性、低成本的替代方案,展现出巨大潜力。然而,现有数据集多局限于单模态(如仅语音)、短时间跨度的临床环境采集,且忽略多模态交互与自然语境下的语言变化。
研究目标:
1. 建立一个多模态(语音、文本、书写、键盘/笔触交互数据)、高时间分辨率(每日采集)的纵向痴呆症语料库。
2. 通过自然情境下的对话与书写任务,捕捉痴呆症患者与健康对照组的语言退化模式差异。
3. 为未来研究提供基础模型和任务基准,推动基于语言特征的自动化痴呆症筛查工具开发。
研究对象:
- 22名参与者(12名痴呆症患者,10名健康对照),年龄65-80岁,均在英国成长以匹配怀旧素材文化背景。
- 痴呆症亚型包括阿尔茨海默病(AD)、血管性痴呆(VD)、额颞叶痴呆(FTD)及轻度认知障碍(MCI)。
数据采集规程:
- 双阶段设计:每阶段持续4周(28次会话),间隔14周(实际因外部因素延长)。
- 多模态采集:
- 语音:15分钟与护理人员的自然对话(通过定制Android平板应用录制)。
- 书写:手写或键盘输入的日常思考记录(同步捕获笔压、删除动作等副语言信息)。
- 刺激材料:67个怀旧主题图片(如1950-70年代的收音机、学校生活),辅以引导问题以激发自发语言。
特色方法:
- 定制化平板应用:由临床合作方Clinvivo开发,支持加密数据传输与远程监控。
- 认知评估:每阶段前后进行MMSE和ACE-III测试,作为认知状态基准。
语音转录:
- 84段会话(79段来自痴呆患者)由专业转录员手动标注,遵循CHAT协议,涵盖非言语事件(停顿、笑、咳嗽等)及语言不流畅性(如自我修正)。
特征提取:
- 语言模态:使用Sentence-BERT生成句子级嵌入,量化词汇、句法和语义变化。
- 语音模态:基于TRILL网络的声学嵌入,捕捉语速、语调等非语义特征。
- 书写模态:分析键入间隔、删除频率等动力学指标。
纵向任务设计:
- 连续性任务:计算相邻会话的余弦距离,评估短期语言波动。
- 非连续性任务:比较初始与末期会话差异,揭示长期退化趋势。
遵循NHS伦理审查(REC 16/WS/0226),数据经匿名化处理,研究人员需签署保密协议(NDA)访问。未来拟公开预训练嵌入模型以促进社区研究。
(报告字数:约2100字)