类型a:学术研究报告
1. 研究作者及机构
本研究的作者为Zhiyong Xiao、Ruke Ling和Zhaohong Deng,均来自中国江南大学人工智能与计算机科学学院(School of Artificial Intelligence and Computer Science, Jiangnan University)。该研究发表于期刊*Journal of Food Composition and Analysis*,2025年第139卷,文章编号107110。
2. 学术背景
本研究属于计算机视觉与深度学习在膳食评估(dietary assessment)领域的应用研究。传统膳食评估方法(如食物频率问卷、24小时回忆法)依赖用户主观报告,存在记忆偏差和估计误差。基于图像识别的膳食评估方法虽能提高效率,但仍面临两大挑战:
- 训练数据不足:模型精度受限于样本量,但现有研究多聚焦于模型架构改进,忽视数据量的影响。
- 局部特征提取不足:现有模型偏向全局特征提取,难以区分营养相似但视觉差异大的同类食物(如白米饭与黑米饭)。
为此,本研究提出FoodCSWin模型,结合数据增强技术DiffAugment和局部特征双分支增强模块LFDB-block,旨在提升食物图像识别的准确性,尤其是对视觉差异大但营养相似的食物分类能力。
3. 研究流程与方法
研究分为数据增强、主干网络构建和局部特征增强三部分,具体流程如下:
3.1 数据增强(DiffAugment)
DiffAugment包含生成(generation)和增强(augmentation)两阶段:
- 生成阶段:基于去噪扩散概率模型(denoising probabilistic diffusion model)生成新样本。
- 前向扩散:通过逐步添加高斯噪声(公式1-5),将原始图像(如“凉拌黄瓜”)转化为噪声图像。
- 反向去噪:训练UNet预测噪声,逐步重构图像(图2)。生成图像与真实样本高度相似(如米饭、小米粥,图1)。
- 增强阶段:对生成图像进行随机几何变换(随机裁剪、水平翻转、擦除),逻辑上扩增样本多样性。
3.2 主干网络(CSWin Transformer)
采用CSWin Transformer作为主干网络,其核心为十字形窗口自注意力机制(cross-shaped window self-attention):
- 并行计算:将特征图分为水平与垂直条纹,分别计算自注意力(公式11-15),融合全局信息(图6)。
- 残差连接:通过多层感知机(MLP)和归一化层(LN)优化特征表达(公式9-10)。
3.3 局部特征增强(LFDB-block)
设计双分支结构(图5):
- 分支1:通过三层卷积逐步扩大感受野,提取7×7空间区域的局部特征。
- 分支2:使用1×1卷积降维后,结合深度可分离卷积(depthwise separable convolution)和通道注意力模块(含H-swish激活函数,公式8),强化通道间局部特征。
最终通过残差连接融合全局与局部特征,提升分类精度。
4. 主要结果
实验在公开数据集ChineseFoodNet(208类,145,065训练样本)和VireoFood172(172类,110,241样本)上验证:
- 消融实验(表3):
- 仅用CSWin Transformer时,准确率为83.26%(ChineseFoodNet)和92.78%(VireoFood172)。
- 加入DiffAugment后,准确率提升至85.32%和93.77%。
- 进一步加入LFDB-block,最终准确率达85.67%和94.11%,证明局部特征增强的有效性。
- 对比实验(表4):
- FoodCSWin优于ResNet、DenseNet、EfficientNet等模型,且参数量(172.3M)和计算量(32.3G FLOPs)低于同类Transformer模型(如BEiT-L的227.6M)。
- 在F1-score、精确度(precision)等指标上均表现最佳(表5)。
5. 结论与价值
- 科学价值:
- 提出DiffAugment解决数据稀缺问题,扩散模型生成的食物图像逼真度高。
- LFDB-block通过双分支设计平衡全局与局部特征,为细粒度分类提供新思路。
- 应用价值:
- 可部署于移动设备,实时精准分析膳食营养,助力慢性病防控。
- 模型轻量化(参数量少)适合实际应用。
6. 研究亮点
- 创新方法:首次将扩散模型应用于食物图像生成,结合传统增强技术提升数据多样性。
- 局部特征优化:LFDB-block通过通道注意力与深度可分离卷积,显著提升同类食物的区分能力。
- 高性能:在两大数据集上准确率超越现有模型,且计算效率更优。
7. 其他
研究局限性在于仅验证了两个数据集,未来需进一步测试泛化能力,并探索模型轻量化(如参数量压缩)。