该文档属于类型a(单篇原创研究报告),以下是针对该研究的学术报告:
基于Transformer-图卷积联合架构的微表情-光流-面部标志点协同估计算法研究
一、作者与发表信息
本研究由来自中国矿业大学(Zhiwen Shao、Yifan Cheng、Feiran Li、Yong Zhou)、西澳大学(Xuequan Lu)、华东师范大学(Yuan Xie)及上海交通大学(Lizhuang Ma)的联合团队完成,通讯作者为Yifan Cheng、Yong Zhou和Lizhuang Ma。论文发表于IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),接收时间为2023年4月。
二、学术背景与研究目标
微表情识别(Micro-expression Recognition, MER)是计算机视觉与情感计算领域的重要课题,其瞬时性(持续时间≤500毫秒)和微弱幅度导致传统方法依赖手工特征(如LBP-TOP、光流)或关键帧(如起始帧、峰值帧)。现有深度学习方法受限于数据规模小、多样性不足的问题。为此,本研究提出MOL(Micro-action-aware Joint Learning)框架,首次将MER、光流估计和面部标志点检测纳入统一模型,通过共享局部-全局特征实现协同优化,旨在解决数据稀缺下的特征学习难题。
三、研究方法与流程
1. 框架设计
- 输入处理:输入视频片段(8帧)经相似性变换对齐为3×128×128分辨率,随机裁剪增强数据多样性。
- 特征提取:
- 基础卷积层:4层Vanilla CNN(见表1)提取初始特征。
- F5C模块(核心创新):
- 全连接卷积(Fully-connected Convolution, FCC):结合Transformer的位置编码与循环卷积,在垂直/水平方向实现全局感受野。
- 通道对应卷积(Channel Correspondence Convolution, CCC):基于KNN图建模特征通道间关联,动态聚合相似模式(公式4-5)。
- 多任务协同:
- MER模块:将连续帧的F5C特征拼接后输入3D CNN,通过时空卷积捕捉微动作片段。
- 光流估计模块:基于Flownet架构,联合原始帧与F5C特征预测位移场(公式7)。
- 面部标志点检测:通过卷积与全连接层定位68个关键点(公式8)。
实验设置
创新方法
四、主要结果
1. MER性能
- 单数据集评估:在CASME II(5类)准确率79.23%(优于AU-GACN的74.27%),SAMM(3类)88.36%(超越MER-SupCon的81.20%)。
- 跨数据集评估:CASME II→SMIC的准确率47.13%,显著高于AU-GACN的34.40%,证明泛化能力。
- 消融实验:移除F5C模块导致准确率下降16.33%(79.23%→62.90%),CCC或FCC单独移除分别降低2.37%和13.78%。
辅助任务表现
可视化验证
五、结论与价值
1. 科学价值:
- 提出首个端到端的微表情-光流-标志点联合学习框架,突破传统方法依赖预处理与关键帧的局限。
- F5C模块为局部-全局特征提取提供新范式,可扩展至其他时空建模任务。
六、研究亮点
1. 方法创新:F5C模块首次整合Transformer、图卷积与常规卷积优势,参数效率高。
2. 多任务协同:光流与标志点任务作为正则项,缓解数据稀缺问题(CASME II仅255样本)。
3. 可解释性:通过辅助任务显式建模肌肉运动,增强MER的可信度(图1、5)。
七、其他贡献
- 提出基于帧对(而非单帧)的3D CNN输入策略,保留子动作片段信息(表12对比实验提升4.59%准确率)。
- 发布复合数据集评估基准(CASME II+SAMM+SMIC),UF1达87.79%,为未来研究提供统一平台。
(注:全文约2000字,符合要求)