对比式解耦表示学习与正则化用于语音保留的面部表情操纵

对比解耦表示学习在语音保留面部表情操控中的应用 背景介绍 近年来,随着虚拟现实、影视制作以及人机交互技术的快速发展,面部表情操控(Facial Expression Manipulation)成为计算机视觉和图形学领域的研究热点之一。其中,语音保留面部表情操控(Speech-Preserving Facial Expression Manipulation, SPFEM) 的目标是在保持说话者嘴部动作与语音同步的同时,改变其面部情绪表达。这一技术不仅能够增强人类表情的表现力,还为虚拟角色生成、电影后期制作等实际应用场景提供了重要支持。 然而,SPFEM 的实现面临诸多挑战。首先,语音内容和情绪信息在自然对话中高度交织,导致难以从参考视频或源视频中有效分离这两种信息。其次,现有的方法往往依赖于...

基于姿态感知对比学习的样本一致性面部表示学习

提升自监督面部表征学习的姿势感知能力 研究背景与问题提出 在计算机视觉领域,面部表征学习(Facial Representation Learning)是一项重要的研究任务。通过分析面部图像,我们可以提取身份、情绪和姿态等信息,从而为面部表情识别(Facial Expression Recognition, FER)、人脸识别(Face Recognition, FR)、头部姿态估计(Head Pose Estimation, HPE)等下游任务提供支持。近年来,深度卷积神经网络(Deep Convolutional Neural Networks, DCNNs)在面部理解任务中取得了显著成果,但这些方法通常依赖于大规模标注数据集进行监督学习,而标注数据需要大量人工成本,且可能无法很好地泛化...

T细胞受体表示对比学习的研究

T细胞受体(TCR)特异性预测的新突破——SCEPTR模型的提出 学术背景 T细胞受体(TCR)在免疫系统中扮演着至关重要的角色,它们通过与主要组织相容性复合物(MHC)呈递的肽段结合,决定了免疫反应的特异性。理解TCR与特定肽段-MHC复合物(pMHC)的相互作用是免疫学中的一个重大挑战。尽管高通量实验技术的发展为我们提供了大量TCR序列数据,但精确预测TCR与特定pMHC的结合能力仍然是一个难题。当前,蛋白质语言模型(PLMs)在高通量数据分析中展现出了强大的潜力,但在TCR特异性预测任务中表现欠佳,尤其是在数据稀缺的情境下。因此,如何有效利用无标注的TCR序列数据来训练模型,成为解决这一问题的关键。 论文来源 本文由Yuta Nagano、Andrew G.T. Pyo、Martina...

基于高阶几何结构建模的点云无监督域适应

基于高阶几何结构建模的点云无监督领域适配 研究背景及动因 点云数据是一种描述三维空间的关键数据形式,广泛应用于自动驾驶、遥感等现实场景中。点云可以捕获精确的几何信息,但在跨设备或跨场景应用时,采集点云的几何特性可能会由于传感器噪声、采样方式及环境影响而发生显著改变。这种显著的几何变化(即领域间差距,domain gap),导致了在一个领域进行训练的神经网络难以在其他领域上保持性能。这一问题限制了点云深度学习方法在实际应用中的推广。 目前,无监督领域适配(Unsupervised Domain Adaptation, UDA)为解决这一问题提供了一种有效途径。其核心目标是将源领域(有标签数据)的知识迁移至目标领域(无标签数据),通过学习共享结果的跨域特征表征来缩小领域间差距。然而,已有方法主要...

从目标到源:域自适应语义分割的新视角

关于领域自适应语义分割的新视角:T2S-DA研究 背景与研究意义 语义分割在计算机视觉领域中具有重要的应用,但其性能往往依赖于大量标注数据。然而,标注数据的获取成本极高,特别是在复杂场景中,为此,许多研究转向利用合成数据来缓解标注需求的问题。然而,由于领域间的差异性(domain gap),基于合成数据训练的模型难以泛化到真实场景中。这种情况下,无监督领域适应(Unsupervised Domain Adaptation, UDA)方法成为解决此问题的有效手段,其目标是从标注的源域(source domain)迁移知识到未标注的目标域(target domain)。 传统的UDA方法主要分为两类:对抗训练和自训练。对抗训练通过分布对齐来缩小领域间的差异,而自训练则利用目标域的伪标签进行直接监...