人工智能在对话中识别语音情感的系统综述与元分析

学术背景 情感识别(Emotion Recognition)是人工智能(AI)和情感计算(Affective Computing)领域中的一个重要研究方向,尤其在医疗、教育和人机交互(HCI)等领域具有广泛的应用前景。语音作为情感表达的重要载体,能够通过声调、语速、音量等特征传递丰富的情感信息。然而,语音情感识别(Speech Emotion Recognition, SER)在对话场景中的应用仍面临诸多挑战,如情感的动态性、多模态数据的融合以及情感标注的准确性等。 为了更好地理解AI在对话中识别语音情感(Speech Emotion Recognition in Conversation, SERC)的最新进展和存在的问题,本文作者进行了一项系统综述和元分析(Meta-Analysis)。...

基于深度学习的多模态数据整合在乳腺癌无病生存预测中的应用

乳腺癌是全球女性中最常见的恶性肿瘤之一,尽管早期干预和适当治疗已经显著提高了患者的生存率,但仍有约30%的病例会复发并发生远处转移,导致5年生存率低于23%。传统的临床预测方法,如生物标志物、临床影像和分子检测,虽然具有一定的价值,但其敏感性低、成本高、可用性有限,且存在患者内部的异质性等问题。因此,开发新的方法来可靠地预测术后乳腺癌患者的复发风险和生存率,以便及时干预和改善整体预后,成为当前研究的迫切需求。 近年来,人工智能(AI)技术的快速发展为乳腺癌的预后预测提供了新的可能性。深度学习作为一种强大的AI技术,能够从复杂的多模态数据中提取有价值的信息,结合病理图像、分子数据和临床信息,有望显著提高乳腺癌无病生存(Disease-Free Survival, DFS)的预测准确性。然而,现...

基于Lidar引导的视觉中心3D物体检测的几何预训练

基于Lidar引导的视觉中心3D物体检测的几何预训练

基于LiDAR引导的几何预训练方法提升视觉中心3D目标检测性能 背景介绍 近年来,多摄像头3D目标检测在自动驾驶领域受到了广泛关注。然而,基于视觉的方法在从RGB图像中精确提取几何信息方面仍面临挑战。现有的方法通常利用深度相关任务对图像骨干网络进行预训练以获取空间信息,但这些方法忽略了视角转换的关键问题,导致空间知识在图像骨干和视角转换模块之间存在错位,从而影响了性能。为了解决这一问题,本文提出了一种新颖的几何感知预训练框架——GAPretrain。 论文来源 该论文由Linyan Huang, Huijie Wang, Jia Zeng等作者撰写,他们分别来自厦门大学人工智能系、上海AI实验室OpenDriveLab以及上海交通大学。论文发表于《International Journal ...

模块化脑机接口用于神经记录、神经刺激和药物递送

模块化脑机接口用于神经记录、神经刺激和药物递送

模块化脑机接口:神经记录、神经刺激与药物递送的创新突破 学术背景 脑机接口(Brain-Machine Interface, BMI)是神经科学与临床医学中的重要工具,能够实现大脑与外部世界之间的电荷、物质与信息交互,广泛应用于神经解码、神经系统疾病的诊断与治疗以及脑科学研究。随着神经科学的发展,多模态脑机接口(multimodal BMI)引起了广泛关注,这类接口能够同时支持神经记录、神经刺激和药物递送等多种功能。然而,现有的多模态脑机接口大多针对特定场景设计,具有高度集成的固定配置,难以适应不同实验需求。 针对这一问题,Sheng等人提出了一种模块化的多模态脑机接口,旨在通过灵活的模块化设计,使脑机接口能够根据不同实验需求调整配置、模态和功能。这种设计不仅提高了设备的适应性,还为需要多种...

解释性Transformer模型结合PET与表格数据对滤泡性淋巴瘤的病理分级与预后:一项多机构数字活检研究

用PET影像与临床数据融合的Transformer模型:预测滤泡型淋巴瘤病理分级与预后的一项多中心数字活检研究 学术背景 滤泡型淋巴瘤(Follicular Lymphoma, FL)是西方国家最常见的惰性非霍奇金淋巴瘤,约占新诊断非霍奇金淋巴瘤的30%。根据世界卫生组织(WHO)的分类,滤泡型淋巴瘤分为三个病理等级(1-3级),等级的划分主要依据每高倍视野(High-Power Field, HPF)中的中心母细胞(Centroblasts)数量。然而,3级又进一步细分为3a级和3b级,其中3b级具有更具侵略性的生物学行为,患者预后较差,其治疗策略与弥漫大B细胞淋巴瘤(Diffuse Large B-Cell Lymphoma, DLBCL)相似。相较而言,1-2级患者通常病情进展缓慢,部...