该文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:
作者及研究机构
该研究由Kaylo T. Littlejohn、Cheol Jun Cho、Jessie R. Liu、Alexander B. Silva等多位研究人员共同完成,主要研究机构包括加州大学伯克利分校(University of California, Berkeley)、加州大学旧金山分校(University of California, San Francisco)等。该研究于2025年4月发表在《Nature Neuroscience》期刊上,文章标题为“A streaming brain-to-voice neuroprosthesis to restore naturalistic communication”。
学术背景
该研究的主要科学领域是神经工程与脑机接口(Brain-Computer Interface, BCI),旨在为因严重瘫痪和失语症(anarthria)而失去语言能力的患者恢复自然交流能力。自然语言交流是人与人之间互动的重要方式,然而,对于瘫痪患者而言,由于无法发声或协调发音,他们的交流能力受到极大限制,导致孤立感和挫败感。现有的神经假体(neuroprosthesis)技术在恢复语言交流方面取得了一定进展,但仍存在延迟高、词汇量有限等问题,难以满足日常交流需求。
该研究基于语音感觉运动皮层(speech sensorimotor cortex)的神经活动解码技术,开发了一种能够实时合成自然语音的神经假体系统。其核心目标是通过高密度皮层表面记录(high-density surface recordings)和深度学习模型,实现低延迟、大词汇量的语音合成,并个性化还原患者受伤前的声音特征。
研究流程
研究分为以下几个主要步骤:
实验对象与设备
研究对象为一名因脑干中风导致严重瘫痪和失语症的女性患者。研究团队在其语音感觉运动皮层植入了一个253通道的高密度皮层表面电极阵列(ECoG array),用于记录神经活动。该电极阵列覆盖了大脑左半球的前中央回(precentral gyrus)、后中央回(postcentral gyrus)以及部分颞叶(temporal lobe)。
数据收集与任务设计
研究团队设计了两种句子集:50个短语的AAC句子集(50-phrase-AAC set)和包含1024个单词的通用句子集(1,024-word-general set)。患者在屏幕上看到提示文本后,尝试无声地“模仿”或“默读”这些句子,同时记录其神经活动。任务过程中,患者需要在“开始”提示后开始尝试发音,系统则实时合成语音并显示解码文本。
深度学习模型开发
研究团队开发了一种基于循环神经网络转换器(Recurrent Neural Network Transducer, RNN-T)的双模态解码模型。该模型能够以80毫秒为增量,实时处理神经特征并解码语音和文本。模型包括一个共享的神经编码器(neural encoder)和独立的语音合成与文本解码模块。语音合成模块通过自回归过程生成个性化的语音波形,而文本解码模块则预测子词编码(subword encodings)。
模型训练与优化
模型训练使用了大量神经数据,包括患者无声发音尝试时记录的神经活动。研究团队采用自监督语音表示学习模型(HuBERT)提取目标语音单元,并通过个性化语音合成器生成语音波形。训练过程中,模型无需患者实际发声,仅通过无声发音尝试即可完成训练。
在线评估与性能测试
在线评估中,系统实时合成语音并显示解码文本。研究团队通过计算单词错误率(Word Error Rate, WER)、字符错误率(Character Error Rate, CER)和音素错误率(Phoneme Error Rate, PER)来评估系统性能。结果显示,系统在1024单词通用句子集上的解码速度为每分钟47.5个单词,在50短语AAC句子集上的解码速度达到每分钟90.9个单词,显著优于以往方法。
离线验证与扩展应用
离线测试中,模型展示了隐式语音检测能力,并能够在几分钟内连续解码语音。此外,研究团队将该方法扩展到其他无声发音接口,包括单单元记录(single-unit recordings)和肌电图(electromyography, EMG),验证了其通用性。
主要结果
1. 实时语音合成与文本解码
系统能够在患者尝试发音的同时,实时合成语音并显示解码文本。在1024单词通用句子集上,语音合成的中位延迟为1.12秒,文本解码的中位延迟为1.01秒。
解码速度与准确性
系统在1024单词通用句子集上的解码速度为每分钟47.5个单词,在50短语AAC句子集上的解码速度达到每分钟90.9个单词。语音合成的音素错误率(PER)为45.3%,单词错误率(WER)为58.8%,字符错误率(CER)为44.7%。
隐式语音检测与长时解码
离线测试中,模型能够在几分钟内连续解码语音,并准确检测患者的无声发音尝试。在16分钟的静息数据中,系统未出现误解码现象。
方法通用性
该方法成功应用于其他无声发音接口,包括单单元记录和肌电图,展示了其在多种神经记录设备中的通用性。
结论与意义
该研究开发了一种低延迟、大词汇量的语音神经假体系统,能够实时合成自然语音并解码文本,为瘫痪患者恢复自然交流能力提供了重要技术支持。其创新点在于:
1. 通过深度学习模型实现了低延迟的语音合成,显著提高了交流速度。
2. 无需患者实际发声即可完成模型训练,适用于无法发声的患者。
3. 展示了隐式语音检测能力,支持长时间连续解码。
4. 方法具有通用性,可应用于多种神经记录设备。
研究亮点
1. 首次实现了基于无声发音尝试的低延迟语音合成,突破了以往方法的延迟限制。
2. 通过个性化语音合成器,还原了患者受伤前的声音特征,提升了用户体验。
3. 模型展示了隐式语音检测能力,为未来开发临床可用的语音神经假体奠定了基础。
其他有价值的内容
研究团队还开发了增量文本到语音合成(incremental TTS)系统,能够在解码文本的同时逐字合成语音,进一步提高了系统的灵活性和实用性。
该研究为瘫痪患者恢复自然交流能力提供了重要的技术突破,具有显著的科研价值和应用前景。