自适应标签分布融合网络在面部表情识别中的应用

分享自：
自适应标签分布融合网络在面部表情识别中的应用

期刊:information sciences
本文档属于类型a，即报告了一项原创研究。以下是对该研究的学术报告：
主要作者及机构
 本文的研究由Shu Liu、Yan Xu、Tongming Wan和Xiaoyan Kui共同完成，他们均来自中国湖南省长沙市的中南大学计算机科学与工程学院。该研究尚未正式发表，但已于2024年4月25日提交至《Information Sciences》期刊。
学术背景
 面部表情识别（Facial Expression Recognition, FER）在人类日常生活中具有重要意义，广泛应用于心理治疗、远程教学等领域。然而，数据集中的标注模糊性（annotation ambiguity）严重影响了FER的性能。传统方法通常采用多数投票的方式为每个样本分配单一标签，但由于标注者的主观性，这种标注方式往往无法准确反映真实的情感分布。为了解决这一问题，本文提出了一种基于标签分布学习（Label Distribution Learning, LDL）的双分支自适应分布融合网络（Adaptive Distribution Fusion Network, Ada-DF），旨在通过挖掘样本的标签分布和情感类别分布，并结合注意力机制进行自适应融合，从而提高FER的准确性。
研究流程
 1. 标签分布提取
 研究首先构建了一个辅助分支（auxiliary branch），用于提取样本的标签分布。辅助分支的结构与目标分支（target branch）一致，基于ResNet18网络进行预训练。辅助分支通过交叉熵损失（cross-entropy loss）进行训练，以增强其提取标签分布的能力。标签分布由辅助分支输出的概率分布表示。
类别分布挖掘
 由于标签分布可能存在偏差，研究引入了类别分布挖掘模块（class distribution mining module），通过计算每个情感类别的标签分布平均值来获取情感类别分布。为了防止训练初期辅助分支输出的不稳定性，研究设置了一个阈值t，用于评估类别分布的稳定性。若某类别的描述度低于阈值，则使用阈值分布替代该类别的分布。
自适应分布融合
 研究提出了自适应分布融合模块（adaptive distribution fusion module），通过注意力权重将样本的标签分布和情感类别分布进行融合。注意力权重由嵌入在辅助分支和目标分支中的注意力模块提取，并通过归一化处理确保融合后的分布更接近真实分布。融合后的分布用于训练目标分支，目标分支的损失函数为Kullback-Leibler散度（KLD loss）。
联合多任务损失
 研究将辅助分支和目标分支的损失函数结合，构建了一个联合多任务损失函数。在训练初期，重点训练辅助分支以确保其输出的稳定性；在训练后期，重点训练目标分支以避免辅助分支的过拟合。
主要结果
 1. 标签分布提取
 实验表明，标签分布提取显著提高了模型在RAF-DB、AffectNet和SFEW数据集上的性能，分别比基线模型提高了0.79%、0.37%和6.33%。
类别分布挖掘
 类别分布挖掘模块虽然在一定程度上降低了模型的性能，但仍优于基线模型。实验表明，类别分布挖掘能够消除标签分布中的偏差，但同时也减少了样本的多样性。
自适应分布融合
 自适应分布融合模块显著提高了模型的准确性，在RAF-DB、AffectNet和SFEW数据集上的准确率分别比基线模型提高了1.33%、0.76%和6.56%。融合后的分布能够更好地拟合样本的真实分布，从而提供更准确的监督信息。
整体性能
 研究在RAF-DB、AffectNet和SFEW数据集上进行了广泛的实验，结果表明Ada-DF在多个数据集上均优于现有的最先进方法。特别是在RAF-DB数据集上，Ada-DF的准确率达到了90.04%，在AffectNet和SFEW数据集上分别达到了65.34%和60.46%。
结论与意义
 本文提出了一种新颖的多任务框架，通过标签分布生成作为辅助任务，显著提高了FER的性能。该框架的主要贡献包括：
 1. 提出了一个多任务LDL框架，能够通过注意力模块区分模糊或错误标注的样本。
 2. 引入了类别分布挖掘模块，从样本的标签分布中提取情感类别分布，从而消除标签分布中的偏差。
 3. 设计了自适应分布融合模块，根据样本的模糊程度自适应地融合标签分布和类别分布，从而提供更准确的监督信息。
 该研究不仅推动了FER领域的发展，还为其他深度学习任务提供了新的思路。
研究亮点
 1. 创新性方法：首次将标签分布学习与自适应分布融合相结合，显著提高了FER的性能。
 2. 广泛实验验证：在多个真实世界数据集上进行了广泛的实验，验证了方法的有效性和鲁棒性。
 3. 实际应用价值：该方法可以应用于心理治疗、远程教学等多个领域，具有重要的实际应用价值。
其他有价值的内容
 研究还探讨了不同超参数（如最小权重wmin、分布阈值t和epoch阈值β）对模型性能的影响，并通过可视化分析进一步验证了方法的有效性。未来的研究方向包括结合更多的FER相关任务（如面部关键点检测和面部动作单元检测）以及多模态信息（如3D面部图像和音频）来生成更鲁棒的分布。
以上是对该研究的全面报告。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问