分享自:

基于数据增强和特征增强的视觉Transformer高精度食品图像分类

期刊:journal of food engineeringDOI:10.1016/j.jfoodeng.2023.111833

学术研究报告:基于Vision Transformer的高精度食物图像分类方法

1. 研究作者与发表信息
本研究的通讯作者为Xinle Gao、Zhiyong Xiao(江南大学人工智能与计算机科学学院)和Zhaohong Deng,研究成果发表于*Journal of Food Engineering*(2024年,卷365,页码111833)。

2. 学术背景与研究目标
食物图像分类是计算机视觉与机器学习领域的重要研究方向,但在处理形状相似但营养价值差异显著的食物(如面包与披萨)时面临挑战。传统卷积神经网络(CNN)在应对大规模食物图像时,因类别多样性和形状相似性导致性能受限。Vision Transformer(ViT)通过自注意力机制(self-attention)提取全局特征,但存在小样本过拟合网络深度不足导致的早熟饱和问题。
本研究提出ALSMViT(AugmentPlus + LayerScale + Multi-layer Perception with Feature Local Enhancement),旨在通过数据增强(data augmentation)和特征增强(feature enhancement)提升ViT的分类精度,帮助用户通过图像识别管理饮食健康。

3. 研究方法与流程
研究分为以下核心步骤:

3.1 数据增强(AugmentPlus)
- 方法开发:结合3-Augment、TrivialAugmentWide和RandomErasing,改进随机裁剪函数(RandomResizedCrop),减少计算量。
- 增强操作:包括水平翻转(RandomHorizontalFlip)、高斯模糊(GaussianBlur)、灰度化(GrayScale)、色彩抖动(ColorJitter)等,增强模型对颜色和形状的鲁棒性。
- 验证效果:在Food-101和VIREO Food-172数据集上,AugmentPlus使ViT-B的准确率分别提升至91.7%和90.7%(基线为89.9%和89.2%)。

3.2 深度网络优化(LayerScale)
- 原理:在ViT的残差块输出端添加可学习对角矩阵,初始值设为1e-4,以控制残差分支的贡献,缓解梯度爆炸/消失问题。
- 公式改进:将原始ViT的残差计算(公式1-2)优化为带LayerScale的公式(公式3-4),引入矩阵向量提升收敛速度。
- 效果:在AugmentPlus基础上,ViT-L的准确率进一步提升至94.2%(Food-101)和93.5%(VIREO Food-172)。

3.3 特征局部增强(MLP-GC)
- 结构设计:结合全局响应归一化(GRN)和CNN的局部特征提取能力,对ViT的多层感知机(MLP)模块改进:
1. 通过GRN聚合特征,保留空间关系;
2. 将图像块(patch tokens)重塑为空间维度后,进行深度卷积(kernel size=k),增强局部相关性;
3. 引入对角矩阵(初始值0.1)进一步优化特征投影。
- 性能提升:最终ALSMViT-L的准确率达95.17%(Food-101)和94.29%(VIREO Food-172),较基线ViT-L提升5.26%和5.12%。

4. 实验结果与贡献
- 对比实验:与6种先进自监督方法(如DeiT、MAE、Swin Transformer)相比,ALSMViT在准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数上均显著领先(表5-6)。例如,在Food-101上,ALSMViT-L的F1分数达95.17%,优于ConvNextV2-L(94.28%)和Swin-L(93.71%)。
- 泛化能力:模型能区分形状相似但营养差异大的食物(如面包与披萨),为饮食健康管理提供技术支持。

5. 研究结论与价值
- 科学价值
- 提出AugmentPlus解决小样本过拟合问题;
- 通过LayerScale和MLP-GC突破ViT的深度限制,提升特征提取能力。
- 应用价值:可集成至移动健康应用,辅助用户识别高热量食物,改善营养不良或肥胖问题。

6. 研究亮点
- 方法创新:首次将GRN与CNN局部卷积结合到ViT的MLP中,增强空间特征关联。
- 性能突破:在公开数据集上达到SOTA(State-of-the-Art)性能,且模型参数和计算量可控。
- 跨领域潜力:未来可扩展至通用图像分类任务。

7. 其他信息
研究得到中国国家重点研发计划(2022YFE0112400)和国家自然科学基金(62176105)支持,数据可通过请求获取。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com