基于音频视觉Transformer的孤独症儿童多模态互动风格识别及其在FOS-R-III量表上的应用

一、背景介绍:自闭症儿童行为监测的临床困境与科技前景

自闭症谱系障碍(Autism Spectrum Disorder, ASD,自闭症)是一种伴随终生的神经发育性障碍。近年来,美国自闭症发病率快速攀升,根据现有流行病学数据,平均每36名儿童中就有一例自闭症患儿。自闭症主要表现为与他人的沟通和社会交往困难、兴趣和活动受限,以及重复刻板行为。上述核心症状直接影响患儿在家庭、学校和社会中的日常活动与社会功能。此外,与自闭症相关的“挑战性行为”(Challenging Behaviors, CBs),包括自伤、攻击和干扰性行为,具有重要的临床关注价值。这些行为不仅加剧了患儿的社交障碍,还带来了严重的健康风险,甚至危及自身或他人的安全。

目前,对于自闭症儿童的行为监测多依赖临床评估,由专业人员在医院或机构内定期观察。然而,传统行为监测方式存在高成本、劳动密集、周期性短和无法实现长期连续观察等诸多问题。此外,临床诊断的观察场景有限,难以捕捉到家庭真实环境下的行为变化,导致诊断结果可能与实际行为存在偏差。因此,自动化、智能化的行为分析工具开发,已成为自闭症领域迫切亟需解决的难题。一套能够在家庭真实场景下自动分析自闭症儿童和照护者互动行为的系统,将极大缓解照护者负担,助力诊断和干预。

在自闭症行为评估领域,FOS-R-III(Revised Family Observation Schedule, 3rd edition,家庭观察量表第三版)是一项经验证的直接观察工具,专用于监测自闭症儿童与家长在不同情境下的互动细节。该工具广泛应用于临床及研究场景,为挑战性行为(CBs)和亲子互动风格的分析、干预与支持策略提供了坚实基础。但目前的FOS-R-III编码工作主要依靠人工标注,极度繁琐且耗费大量时间与人力。能否通过深度学习等人工智能技术自动化FOS-R-III编码,将为自闭症领域带来革命性突破。

二、论文溯源及作者介绍

本文《AV-FOS: Transformer-based Audio-Visual Multimodal Interaction Style Recognition for Children with Autism Using the Revised Family Observation Schedule 3rd Edition (FOS-R-III)》发表于《IEEE Journal of Biomedical and Health Informatics》(2025年9月刊)。作者包括Zhenhao Zhao、Eunsun Chung、Kyong-Mee Chung以及Chung Hyuk Park,分别来自George Washington University(Department of Biomedical Engineering)和Yonsei University(Department of Psychology),跨学科团队融合了工程与心理学的专业力量,为本项研究提供了坚实的理论与技术根基。论文得到美国国家科学基金会(NSF)资助,着眼于“长期人机交互与干预”。

三、研究流程详解

本文提出的研究是一项自闭症领域创新性原始科研工作,旨在构建自动化、智能化的行为识别系统,实现基于FOS-R-III量表的数据编码,并解决临床行为分析的诸多痛点。研究流程包含以下主要步骤:

1. 数据集开发与构建

数据采集:

研究团队收集了83名参与者的216段家庭场景视频,视频总时长约为25小时,每段时长5至15分钟,拍摄于自然家庭环境,采用手持摄像设备以模拟真实、复杂的家庭动态环境。其中儿童平均年龄为9.72岁,男女比例约7:3,所有自闭症儿童均由执业临床医生确诊;部分非正式诊断儿童则通过SCQ(Social Communication Questionnaire,社会沟通问卷)筛查分数确定。

任务设计与行为评估:

参试儿童执行三类任务:特定玩具玩耍、按照4种不同版本的分步指令以及自由玩耍,以展现不同认知、运动和社交技能;行为表现采用《问题行为清单》(Problem Behavior Checklist)评估,涵盖14类典型问题(如自伤、攻击、重复动作、违抗、进食障碍、过度活跃等),采用5级Likert评分,样本平均得分为33(反映中度问题行为)。

数据标注:

所有视频经由5名受训心理学研究生(在持证心理学家和BCBA监督下)进行人工编码,采用FOS-R-III量表每10秒间隔记录23种互动风格(Interaction Styles, IS)标签,包括儿童行为和家长行为(如表扬Praise、亲昵Affection、违抗Non-compliance等)。编码标记精密,正负符号区分情感色彩,如sa+(正社会关注)、sa-(负社会关注)等。团队标注过程严格,标注者训练时长达到20小时,30%视频样本用于交叉一致性检验,获得90%的互评一致率,远高于80%的业界标准,为后续AI模型训练提供可靠数据基准。

2. 数据预处理与特征提取

视频处理:

每段原始视频剪裁为10秒短片,便于后续行为编码。视频在预处理阶段采用三种视觉采样策略:a) 中帧空间注意(Middle Frame Spatial Attention),以中心帧作为主视图进行空间分割提取196个视觉块;b) 跨帧注意(Cross-frame Attention),将视频分成四段,分别采集关键帧分块,综合196块空间信息;c) 平均关键帧注意(Averaged Key Frame Attention),首、中、末三帧逐像素平均,形成代表性帧后再分块。实验表明第三种策略兼顾空间与时间信息,效果最佳,成为主用方法。

音频处理:

音频数据经归一化处理(去除均值,统一振幅),保留16000Hz原始采样率。特征提取阶段采用Mel滤波组(Mel-filter bank)算法,窗口大小25ms,帧移10ms,提取128维对数Mel滤波特征,通过截断与补零统一长度至1024帧。最终音频特征分割为512块16×16的频谱片段,便于后续模型输入。

3. 模型架构设计

变换器编码器与解码器(Transformer-based Encoder and Decoder):

研究核心采用变换器(Transformer)模型,融合视觉与音频两种模态信息。数据经过分块(Tokenization),以线性投影嵌入空间、位置及模态信息(Positional Embedding + Modality Embedding),每个数学token维度为768,并采用2D正余弦位置编码。编码器负责处理未遮掩(unmasked)token,解码器则输入所有token(含遮掩token),通过补全和还原,实现高级特征提取。

自监督预训练(Self-supervised Pretraining):

模型预训练环节创新性结合了CAV-MAE(Contrastive Audio-Visual Masked Autoencoder)方法,引入对比损失(Contrastive Loss)与重构损失(Reconstruction Loss),实现模态间联结和上下文信息聚合。模型对75%块进行遮掩,之后通过已训练好的编码器、解码器进行还原与联合编码。对比损失促使同一情境下的音频与视频特征距离拉近,异情境距离拉远。重构损失则推动模型学习数据的潜在连接,提升无监督数据利用效率。

FOS-R-III编码模型监督学习(Supervised Learning for FOS-R-III Encoding):

将预训练模型结构加以精简,移除预训练冗余结构,引入专门的多标签分类层以适应FOS-R-III量表13类互动风格识别。决策层采用token平均池化(Mean Pooling),并经过MLP(多层感知器)输出每种互动风格的概率预测,阈值判定是否有行为发生,训练过程采用二元交叉熵损失函数(Binary Cross Entropy)引导模型深度优化行为识别准确率。

基线与对照模型设定:

基线采用GPT-4V(OpenAI最新多模态大模型)加Prompt Engineering。对照模型包括Slowfast Networks(CNN视频理解模型,预训练于Kinetics-400)、Vision Transformer(ViT,预训练于ImageNet-21k),均在本研究自建数据集上进行微调。

4. 实验设计及评估方法

所有模型训练与推理在配备4张NVIDIA A5000 GPU的服务器上完成,软硬件配置适合临床场景部署。数据集分割采用基于被试的分组策略,确保模型泛化能力。评估指标包括多标签准确率(Accuracy)、F1分数、严格准确率(Strict Accuracy)、AUC曲线、平均精度(MAP),能全面反映分类性能及对数据不平衡的适应能力。GPT-4V输出经分类型后处理算法规整为同一致性格式。

四、主要研究结果详述

1. 领域领先的性能表现

AV-FOS模型(音视频融合变换器结构)在多个评估指标上表现显著优于基线GPT-4V Prompt模型及主流对照模型(Slowfast Networks、ViT)。在输出未见过样本时,准确率达85%以上,已超过人工标注者间80%的互评标准(虽略低于本项人工标注的90%一致性)。面对极度不平衡的数据集,AV-FOS模型的AUC、MAP、F1分别达到0.88、0.67和0.59,远强于其他对照模型,显示出在小样本、类别不均衡场景下的高鲁棒性。推理速度方面,AV-FOS可在短至0.0018秒内完成单10秒视频片段的行为识别,接近实时,完全优于GPT-4V大模型(后者本地应用受硬件限制,延时更大)。

2. 类别级差异与错误分析

在各类别互动风格识别能力上,AV-FOS明显胜出,尤其是在需要音频信息的行为(如Positive Vague Instruction, Positive Specific Instruction等),实现了AI对医用行为复杂特征的敏锐捕捉。纯视觉模型对部分音频相关行为也可通过如口型、头部动作等视觉线索进行推断,但融合模型理解能力更强。对于少数类别(如抱怨、家长亲昵、违抗),由于样本极度稀少,模型预测趋于保守,全模型均存在该问题,但AV-FOS在小类别识别依然优于其他对照。Wilcoxon签名秩检验证实多项性能差异统计显著。

3. 多模态融合优势与消融实验

消融实验表明,音频单模态模型(A-FOS)优于视频单模态(V-FOS),尤其针对指令类和社交类行为,但融合后性能进一步提升。去除CAV-MAE预训练后,泛化准确率仅下降2%,但F1和MAP显著下滑,凸显自监督预训练在处理不均衡数据上的独特优势。视觉采样策略消融表明“平均关键帧注意”兼顾空间和时间信息,推理效率高,是临床实用场景的最优方案。

4. 推理可视化与模型解释性

Attention Map可视化显示模型在融合层形成四个显著关注区,包括“视觉对视觉”、“视觉对音频”、“音频对视觉”和“音频对音频”,充分展现了跨模态的信息整合能力,是多模态深度模型技术突破的有力展示。该特性为行为医学解释AI推理结果提供了方法支持。

五、结论及研究价值

本文创新性提出了基于FOS-R-III量表的数据集和AV-FOS自动编码模型,有效解决了自闭症领域行为评估难、人工标注压力大、临床数据不充分和AI模型解释性差等一系列顽疾,为自闭症行为分析自动化、智能化提供了新范式和技术路径。模型不仅实现了音视频多模态融合,更能广泛泛化于复杂临床真实场景,在诊断、风险评估、干预支持等环节均具重要实践价值。

科学层面,本研究推动了医学行为分析AI领域的技术前进:自监督预训练、跨模态注意机制、医学场景数据特征工程等部分已达到国际前沿水平。应用层面,研究成果有望在医院、康复中心落地,极大提高医学诊断效率、降低成本,让自闭症患儿家庭获得更加个性化与及时的支持。

六、研究亮点与意义总结

  1. 临床原始数据自建:数据采集与标注过程遵循严格伦理和学科标准,支持人工智能模型的高质量训练。
  2. 新型音视频多模态深度模型:首次实现基于FOS-R-III细致量表的自动编码,结合自监督和监督学习双阶段优化,显著提升医学行为识别精准度。
  3. 处理数据不平衡和小样本挑战:结合万有预训练与医学专业特征工程,模型对少数类别表现具国际领先优势。
  4. 实际推理速度领先:极高的实时性,满足临床场景快速、精准诊断需求。
  5. 模型解释性与透明化:融合注意力可视化机制,助力医学专家理解AI推理路径,提升医学信任度与推广。

七、其他信息及展望

本研究数据集、模型算法均有学术开放计划,可与全球学术同行合作推动自闭症行为自动化分析标准体系建设。论文规范遵循IEEE与伦理委员会标准,数据隐私保护严格,保障人类受试者权益。

随着团队持续数据收集和模型迭代,本系统将进一步提升少数类别行为识别能力、加强应用场景泛化,预计将在自闭症诊断与干预、情感障碍分析等领域实现更广泛价值。AI医学融合的未来,正在被这些创新研究逐步描绘与实现。