对比式解耦表示学习与正则化用于语音保留的面部表情操纵

对比解耦表示学习在语音保留面部表情操控中的应用 背景介绍 近年来,随着虚拟现实、影视制作以及人机交互技术的快速发展,面部表情操控(Facial Expression Manipulation)成为计算机视觉和图形学领域的研究热点之一。其中,语音保留面部表情操控(Speech-Preserving Facial Expression Manipulation, SPFEM) 的目标是在保持说话者嘴部动作与语音同步的同时,改变其面部情绪表达。这一技术不仅能够增强人类表情的表现力,还为虚拟角色生成、电影后期制作等实际应用场景提供了重要支持。 然而,SPFEM 的实现面临诸多挑战。首先,语音内容和情绪信息在自然对话中高度交织,导致难以从参考视频或源视频中有效分离这两种信息。其次,现有的方法往往依赖于...

基于扩散模型的立体匹配方法DiffuVolume

 

DiffuVolume——基于扩散模型的立体匹配新方法 研究背景与问题提出 立体匹配(Stereo Matching)是计算机视觉领域的重要任务之一,广泛应用于自动驾驶、机器人导航等领域。其核心目标是从一对校正后的立体图像中生成密集的视差图(Disparity Map)。近年来,基于代价体积(Cost Volume)的方法在立体匹配中取得了显著成功。代价体积通过聚合左右图像特征中的几何信息,为视差预测提供了丰富的上下文信息。然而,代价体积中存在大量冗余信息,这些冗余信息不仅干扰了模型训练,还限制了性能的进一步提升。 针对这一问题,研究者们尝试从多个角度优化代价体积的设计,例如改进特征提取网络、设计更高效的代价聚合模块等。然而,这些方法往往忽略了对代价体积中冗余信息的过滤。虽然有少数研究引入注...

基于姿态感知对比学习的样本一致性面部表示学习

提升自监督面部表征学习的姿势感知能力 研究背景与问题提出 在计算机视觉领域,面部表征学习(Facial Representation Learning)是一项重要的研究任务。通过分析面部图像,我们可以提取身份、情绪和姿态等信息,从而为面部表情识别(Facial Expression Recognition, FER)、人脸识别(Face Recognition, FR)、头部姿态估计(Head Pose Estimation, HPE)等下游任务提供支持。近年来,深度卷积神经网络(Deep Convolutional Neural Networks, DCNNs)在面部理解任务中取得了显著成果,但这些方法通常依赖于大规模标注数据集进行监督学习,而标注数据需要大量人工成本,且可能无法很好地泛化...

基于相互监督框架的指代表达分割与生成

基于相互监督框架的指代表达分割与生成

一种用于指代表达分割与生成的互监督框架 研究背景与问题提出 近年来,视觉-语言交互技术在人工智能领域取得了显著进展。其中,指代表达分割(Referring Expression Segmentation, RES)和指代表达生成(Referring Expression Generation, REG)作为两个核心任务,分别旨在根据自然语言描述定位图像中的目标对象并生成其分割掩码,以及为特定目标生成清晰准确的语言描述。尽管这两个任务本质上是互逆的,但它们的研究通常被分开进行,缺乏系统性地探讨两者如何相互促进的方法。 现有研究面临的主要问题包括:1)RES任务依赖大量标注数据,而这些数据的获取成本高昂;2)REG生成的表达可能存在歧义,难以准确定位目标对象;3)联合训练RES和REG的任务虽然...

GL-MCM:全局和局部最大概念匹配的零样本分布外检测

GL-MCM:全局和局部最大概念匹配的零样本分布外检测

GL-MCM: 全局与局部最大概念匹配用于零样本分布外检测 研究背景与问题提出 在现实世界中,机器学习模型的应用环境往往面临数据分布的变化,例如新类别的出现。这种现象被称为“分布外检测”(Out-of-Distribution Detection, OOD)。为了确保模型在未知数据上的可靠性,OOD 检测成为一项关键任务。然而,传统的单模态监督学习方法虽然在特定任务上表现良好,但其训练成本高昂,且难以适应多样化的应用场景。 近年来,基于 CLIP(Contrastive Language–Image Pre-training)的零样本分布外检测方法引起了广泛关注。CLIP 是一种多模态预训练模型,能够通过自然语言监督学习视觉特征。尽管现有方法如 MCM(Maximum Concept Mat...

基于Lidar引导的视觉中心3D物体检测的几何预训练

基于Lidar引导的视觉中心3D物体检测的几何预训练

基于LiDAR引导的几何预训练方法提升视觉中心3D目标检测性能 背景介绍 近年来,多摄像头3D目标检测在自动驾驶领域受到了广泛关注。然而,基于视觉的方法在从RGB图像中精确提取几何信息方面仍面临挑战。现有的方法通常利用深度相关任务对图像骨干网络进行预训练以获取空间信息,但这些方法忽略了视角转换的关键问题,导致空间知识在图像骨干和视角转换模块之间存在错位,从而影响了性能。为了解决这一问题,本文提出了一种新颖的几何感知预训练框架——GAPretrain。 论文来源 该论文由Linyan Huang, Huijie Wang, Jia Zeng等作者撰写,他们分别来自厦门大学人工智能系、上海AI实验室OpenDriveLab以及上海交通大学。论文发表于《International Journal ...