计算机科学-学科-FmRead学术前沿

基于轻量级点云网络的3D区域结构运动表示在微表情识别中的应用学术背景微表情（Micro-expressions, MEs）是人类情感表达中的一种短暂且微妙的面部表情，通常持续1/25到1/5秒。由于其自发性、快速性和难以控制的特点，微表情往往能够揭示个体的真实情感，因此在人机交互（Human-Computer Interaction, HCI）、心理学、刑事分析、商务谈判等领域具有重要应用价值。然而，微表情的低强度和短暂性使其识别成为一项极具挑战性的任务。传统的微表情识别方法主要依赖于2D RGB图像中的运动特征提取，忽略了面部结构及其运动在情感传达中的关键作用。为了克服这一局限，本文提出了一种创新的3D面部运动表示方法，结合了3D面部结构、区域化的RGB和结构运动特征，旨在更准确地捕捉...

基于多尺度双曲对比学习的跨被试脑电情绪识别研究学术背景脑电图（Electroencephalography, EEG）作为一种生理信号，在情感计算（Affective Computing）领域中具有重要应用。与传统的非生理线索（如面部表情或语音）相比，EEG信号具有更高的时间分辨率和客观性，能够更可靠地反映人类的情感状态。然而，EEG信号存在显著的个体差异，这使得跨被试（Cross-Subject）情绪识别成为一个具有挑战性的任务。不同个体的EEG信号受年龄、心理状态、认知特征等多种因素影响，导致预训练模型在新被试上的泛化能力较差。为了应对这一挑战，研究者们提出了多种方法，包括基于时频域特征的分析、深度学习模型以及迁移学习等。然而，这些方法往往难以在减少被试间差异的同时保留情感特征的区...

多模态情感分析中的互信息解耦表示学习：一项创新研究学术背景随着社交媒体的快速发展，用户生成的多媒体内容（如推文、视频等）数量急剧增加。这些多媒体数据通常包含三种模态：视觉（图像）、声学（语音）和文本。这些数据中隐含着丰富的情感信息，如何自动分析这些情感信息成为了一个重要挑战。多模态情感分析（Multimodal Sentiment Analysis, MSA）旨在利用多种信号来识别潜在的情感和情绪。然而，多模态表示学习是这一领域的核心挑战之一，即如何将不同模态的特征有效地整合为统一的表示。近年来，研究者提出了两种主要方法来解决这一问题：一种方法是将多模态特征分解为模态不变（modality-invariant）和模态特定（modality-specific）的部分；另一种方法则是利用互...

基于频谱-时间调制特征的双流鲁棒语音情感识别研究学术背景语音情感识别（Speech Emotion Recognition, SER）是通过分析人类语音中的情感内容来识别情绪的技术。它在人机交互、客户服务管理系统以及医疗等领域具有广泛的应用潜力。然而，尽管基于深度学习的SER模型在受控环境中表现出色，但在真实环境中的噪声条件下，其性能显著下降。噪声（如交通噪声、风扇噪声等）会严重干扰语音信号，导致情感识别系统的准确性大幅降低。因此，开发一种在噪声环境下依然鲁棒的SER系统成为了一个重要的研究方向。传统的SER系统通常依赖于梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients, MFCC）和梅尔频谱图等声学特征。然而，这些特征在噪声环境下容易受到干扰，...

神经机制与关系学习：神经网络中的快速知识重组背景介绍人类和动物具备一种惊人的能力，能够从有限的经验中学习项目之间的关系（如刺激、物体和事件），从而实现结构化泛化和快速信息整合。这种关系学习的一个基本类型是顺序学习，它使得个体能够进行传递性推理（例如，若a > b且b > c，则a > c）以及列表链接（例如，a > b > c和d > e > f在得知c > d后迅速重组为a > b > c > d > e > f）。尽管这一领域已有长期研究，但传递性推理和快速知识重组的神经生物学机制仍然不明确。本文通过赋予神经网络以神经调制的突触可塑性（允许自我导向学习）并通过人工元学习（学习如何学习）来识别这些机制，展示了神经网络如何执行传递性推理和列表链接，并进一步表达了在人类和动物中广泛观察到的...

Learning with Enriched Inductive Biases for Vision-Language Models 研究背景与问题提出近年来，视觉-语言模型（Vision-Language Models, VLMs）在计算机视觉和自然语言处理领域取得了显著进展。这些模型通过大规模图像-文本对进行预训练，能够构建统一的多模态表示空间，从而在多种下游任务中表现出色。然而，在少样本学习（few-shot learning）场景下，如何有效地调整这些模型以适应特定任务，同时保持良好的泛化能力，仍然是一个亟待解决的问题。现有方法通常依赖于提示工程（prompt engineering）或参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）策略...

基于轻量点云网络的面部3D区域结构运动表示用于微表情识别

多尺度双曲对比学习用于跨被试EEG情绪识别

基于互信息的多模态情感分析解耦表示学习

基于频谱-时间调制特征的双流鲁棒语音情感识别

神经网络中关系学习与快速知识重组的神经机制

基于丰富归纳偏见的视觉语言模型学习