这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于Swin Transformer的细粒度食品图像识别研究
1. 作者与机构
本研究由江南大学人工智能与计算机科学学院的Zhiyong Xiao(通讯作者)、Guang Diao和Zhaohong Deng共同完成,合作单位包括江南大学食品科学与资源国家重点实验室。研究成果发表于《Journal of Food Engineering》2024年第380卷,文章编号112134。
2. 研究背景与目标
科学领域:本研究属于计算机视觉与机器学习交叉领域,聚焦细粒度图像识别(Fine-Grained Image Recognition, FGIR)在食品分类中的应用。
研究动机:现有食品图像识别方法在粗粒度分类(如区分“水果”与“蔬菜”)表现优异,但在细粒度场景(如区分不同种类的苹果派)面临挑战。主要困难包括:
- 类间差异微小(如不同子类食品的纹理、形状相似);
- 类内差异显著(同子类食品因烹饪方式、摆盘等呈现宏观差异)。
研究目标:提出一种结合Swin Transformer与深度残差卷积的混合模型(Swin-DR),通过增强局部特征表示与全局特征融合,提升细粒度食品分类准确率,助力健康膳食管理。
3. 研究方法与流程
3.1 整体架构
Swin-DR包含三部分:
1. 主干网络:基于Swin Transformer的层级结构,通过移位窗口自注意力机制(Shifted Window-based Self-Attention, SW-MSA)提取全局特征。
2. 局部特征增强模块(DRConvBlock):
- 通道扩展卷积:1×1卷积将输入特征通道数扩展N倍;
- 深度可分离卷积:3×3分组卷积与1×1逐点卷积结合,降低计算量;
- 挤压激励模块(Squeeze-and-Excitation):通过全局平均池化(GAP)与全连接层生成通道权重,增强关键特征;
- 通道回归卷积:1×1卷积恢复原始通道数。
3. 分类器(MLP-GD):多层感知机(MLP)结合GAP与Dropout(丢弃率0.1),逐步降维以实现端到端分类。
3.2 实验设计
- 数据集:
- FoodX-251:251类细粒度食品,含11.8万训练集、1.2万验证集与2.8万测试集;
- UEC Food-256:256类日本常见食品,含标注边界框。
- 对比方法:包括ResNet、EfficientNet、Vision Transformer(ViT)等16种先进模型。
- 评估指标:Top-1准确率(Acc.)、F1分数(F1)、精确率(Pre.)。
- 训练细节:
- 预训练:Swin Transformer在ImageNet-22k上初始化;
- 微调:输入分辨率224×224,批量大小8,AdamW优化器,学习率5×10⁻⁴,余弦衰减调度。
4. 研究结果
4.1 性能对比
- FoodX-251:Swin-DR达到81.07%准确率,较最优对比模型(CSWin-L的79.90%)提升1.17%;
- UEC Food-256:准确率82.77%,超越ViT-L(81.86%)与SwinT-L(82.52%)。
关键优势:
- 局部特征增强:DRConvBlock通过分组卷积与通道注意力,显著提升对细微差异的捕捉能力(如苹果派的酥皮纹理);
- 全局-局部融合:残差连接将Swin Transformer的全局上下文与DRConvBlock的局部特征结合,缓解类内差异干扰。
4.2 消融实验
- 单独模块测试:
- 仅添加DRConvBlock:FoodX-251准确率提升至80.74%(+1.16%);
- 仅使用MLP-GD:准确率80.19%(+0.61%)。
- 联合效果:DRConvBlock与MLP-GD协同作用,进一步将准确率推至81.07%,验证模块设计的互补性。
5. 研究结论与价值
科学价值:
- 提出首个结合Swin Transformer与深度残差卷积的细粒度食品识别框架,为跨模态特征融合提供新思路;
- 局部增强模块DRConvBlock可泛化至其他细粒度任务(如鸟类或车辆分类)。
应用价值:
- 助力个性化膳食管理:通过高精度分类帮助用户识别相似食品(如不同糖分的甜点),促进健康饮食;
- 推动食品计算(Food Computing)发展,为营养分析、食品安全等下游任务奠定基础。
6. 研究亮点
- 方法创新:首次将Swin Transformer的移位窗口机制与卷积网络的局部感知能力结合,解决细粒度食品识别的核心挑战;
- 技术突破:DRConvBlock通过通道扩展与动态加权,实现特征增强的可解释性;
- 工程贡献:公开代码与预训练模型,推动领域复现与改进。
7. 其他发现
- 数据增强策略:结合TrivialAugmentWide与RandomErasing,有效提升模型鲁棒性;
- 计算效率:Swin-DR在单块NVIDIA 2080Ti GPU上实现实时推理(约50 FPS),满足实际部署需求。
(注:实际生成文本约1500字,符合字数要求。若需扩展,可进一步细化实验细节或增加领域讨论。)