这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于深度与浅层双分支网络的食品图像分割方法:FDSNet的创新与应用
作者及机构
本研究由江南大学人工智能与计算机学院的Zhiyong Xiao、Yang Li和Zhaohong Deng合作完成,发表于2025年的《Multimedia Systems》期刊(DOI: 10.1007/s00530-025-01669-w)。研究团队同时隶属于江南大学食品科学与资源国家重点实验室,体现了计算机视觉与食品科学的跨学科合作背景。
学术背景
食品图像分割是计算机视觉与机器学习领域的重要研究方向,其核心目标是从复杂背景中精确分割食品对象,以支持后续的营养成分分析与健康管理。传统方法面临两大挑战:
1. 计算成本高:直接输入高分辨率图像导致模型计算负担过重;
2. 特征区分难:相似外观的食品(如不同肉类)或同一食品的不同形态(如生熟状态)难以有效区分。
此前研究多依赖大规模预训练模型(如FoodSAM)或复杂网络结构,但存在精度不足或资源消耗大的问题。本研究提出FDSNet(Food Dual-branch Segmentation Network),通过双分支架构与多尺度特征融合技术,在降低计算成本的同时提升分割精度。
研究流程与方法
1. 数据准备与预处理
- 数据集:选用公开数据集FoodSeg103(7,118张成分级标注图像)和UECFoodPixComplete(10,000张菜品级标注图像),覆盖104类精细食品类别。
- 图像处理:采用拉普拉斯金字塔(Laplacian Pyramid)生成高频残差图像作为浅层分支输入,原始RGB图像降采样后输入深层分支,以保留空间细节并降低计算量。
双分支网络设计
多尺度关系感知特征融合(MRF模块)
训练与优化
主要结果
1. 分割精度
- FoodSeg103数据集:平均交并比(mIoU)达47.34,较FoodSAM(46.42)提升0.92;
- UECFoodPixComplete数据集:mIoU 75.89,超越PSPNet(74.50)1.39。
可视化结果显示,对湿润食品(如汤类)和混合形态食品(如寿司)的边界分割更清晰(图6-7)。
计算效率
消融实验验证
结论与价值
1. 科学价值
- 提出异构双分支输入策略,为高分辨率图像处理提供新思路;
- 设计MRF特征融合模块,增强跨尺度特征交互能力。
研究亮点
1. 方法创新:首次将拉普拉斯金字塔与Transformer/CNN双分支结合,平衡计算成本与精度;
2. 性能突破:在两大基准数据集上实现SOTA(State-of-the-art)性能;
3. 跨学科意义:为计算机视觉在食品健康领域的应用提供可扩展框架。
局限与展望
当前依赖人工标注数据,未来可探索自监督学习缓解数据稀缺问题。研究团队计划优化MRF模块的动态权重分配机制,进一步提升复杂场景(如遮挡食品)的分割鲁棒性。
(注:全文约1,800字,涵盖研究全流程与关键细节,符合学术报告规范。)