分享自:

基于深浅双分支网络的食物图像分割

期刊:multimedia systemsDOI:10.1007/s00530-025-01669-w

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于深度与浅层双分支网络的食品图像分割方法:FDSNet的创新与应用

作者及机构
本研究由江南大学人工智能与计算机学院的Zhiyong Xiao、Yang Li和Zhaohong Deng合作完成,发表于2025年的《Multimedia Systems》期刊(DOI: 10.1007/s00530-025-01669-w)。研究团队同时隶属于江南大学食品科学与资源国家重点实验室,体现了计算机视觉与食品科学的跨学科合作背景。

学术背景
食品图像分割是计算机视觉与机器学习领域的重要研究方向,其核心目标是从复杂背景中精确分割食品对象,以支持后续的营养成分分析与健康管理。传统方法面临两大挑战:
1. 计算成本高:直接输入高分辨率图像导致模型计算负担过重;
2. 特征区分难:相似外观的食品(如不同肉类)或同一食品的不同形态(如生熟状态)难以有效区分。
此前研究多依赖大规模预训练模型(如FoodSAM)或复杂网络结构,但存在精度不足或资源消耗大的问题。本研究提出FDSNet(Food Dual-branch Segmentation Network),通过双分支架构与多尺度特征融合技术,在降低计算成本的同时提升分割精度。

研究流程与方法
1. 数据准备与预处理
- 数据集:选用公开数据集FoodSeg103(7,118张成分级标注图像)和UECFoodPixComplete(10,000张菜品级标注图像),覆盖104类精细食品类别。
- 图像处理:采用拉普拉斯金字塔(Laplacian Pyramid)生成高频残差图像作为浅层分支输入,原始RGB图像降采样后输入深层分支,以保留空间细节并降低计算量。

  1. 双分支网络设计

    • 浅层分支:基于轻量级STDC网络(Six-stage Temporal Dense Convolution)处理全尺寸高频残差图像,输出1/8和1/16分辨率特征图,侧重提取边缘纹理等空间信息。
    • 深层分支:采用Swin Transformer处理降采样图像,输出1/32和1/64分辨率特征图,聚焦全局语义信息。
    • 创新点:两分支输入分辨率差异显著(如768×768 vs. 384×384),较传统双分支结构(如BiseNet)更高效。
  2. 多尺度关系感知特征融合(MRF模块)

    • 改进通道注意力机制:将浅层与深层特征图的通道权重分组(k组)后逐元素相乘,通过全连接层生成增强权重向量,再与原特征图加权融合。
    • 渐进式上采样:采用3次2倍上采样(而非单次8倍)逐步恢复分辨率,减少噪声干扰。
  3. 训练与优化

    • 参数设置:使用AdamW优化器,初始学习率1e-5,余弦衰减策略,混合精度训练加速。
    • 硬件平台:NVIDIA GPU 3090,批量大小8,训练120轮次。

主要结果
1. 分割精度
- FoodSeg103数据集:平均交并比(mIoU)达47.34,较FoodSAM(46.42)提升0.92;
- UECFoodPixComplete数据集:mIoU 75.89,超越PSPNet(74.50)1.39。
可视化结果显示,对湿润食品(如汤类)和混合形态食品(如寿司)的边界分割更清晰(图6-7)。

  1. 计算效率

    • 计算量(FLOPs)仅182.74G,参数101.93M,显著低于Vit-B/MLA(759.18G FLOPs);
    • 单图推理时间54ms,满足实时性需求。
  2. 消融实验验证

    • 双分支必要性:单独使用浅层分支mIoU仅21.51,联合训练后提升至47.34;
    • MRF模块贡献:替换为1×1卷积后精度下降1.07(FoodSeg103);
    • 高频残差输入:相比RGB输入,精度提升约1个百分点。

结论与价值
1. 科学价值
- 提出异构双分支输入策略,为高分辨率图像处理提供新思路;
- 设计MRF特征融合模块,增强跨尺度特征交互能力。

  1. 应用价值
    • 助力精准膳食管理:如区分高饱和脂肪的牛肉与猪肉(图2),辅助慢性病患者饮食选择;
    • 代码开源(GitHub: llevelingup/fdsnet),推动食品计算技术落地。

研究亮点
1. 方法创新:首次将拉普拉斯金字塔与Transformer/CNN双分支结合,平衡计算成本与精度;
2. 性能突破:在两大基准数据集上实现SOTA(State-of-the-art)性能;
3. 跨学科意义:为计算机视觉在食品健康领域的应用提供可扩展框架。

局限与展望
当前依赖人工标注数据,未来可探索自监督学习缓解数据稀缺问题。研究团队计划优化MRF模块的动态权重分配机制,进一步提升复杂场景(如遮挡食品)的分割鲁棒性。


(注:全文约1,800字,涵盖研究全流程与关键细节,符合学术报告规范。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com