分享自:

基于人工尺寸切片辅助微调(ASSAFT)和超推理(ASSAHI)的番茄检测方法

期刊:computers and electronics in agricultureDOI:10.1016/j.compag.2024.109280

本研究由Tomas Bata University in Zlin的Alžběta Turečková、Tomáš Tureček和Zuzana Komínková Oplatková团队完成,发表于2024年的《Computers and Electronics in Agriculture》期刊(Volume 225, Article 109280)。研究聚焦于精准农业中的番茄果实检测与计数问题,提出了一种基于深度学习的创新方法,通过计算机视觉技术提升温室环境下番茄产量预测的准确性。

学术背景

精准农业的核心是通过精确监测植物健康来优化作物管理(如施肥和病虫害防治策略)。然而,传统图像处理技术在复杂农业环境中存在局限性,例如光照不均、叶片遮挡等问题。番茄作为全球重要经济作物,其产量预测偏差可能导致严重的商业损失和物流问题。现有研究(如YOLO-tomato、Faster R-CNN等)虽在单一图像检测中表现优异(F1-score达0.94),但难以处理超宽幅图像中番茄簇的密集重叠和遮挡问题。因此,本研究旨在开发一种适用于温室超宽图像的新型番茄检测与计数方法,以提升产量预测精度。

研究流程与方法

1. 数据准备与Tomato360数据集

研究团队开发了Tomato360数据集,包含58张超高分辨率图像(宽度7500-20000像素,高度1920-2048像素),共标注1385个番茄果实,按成熟度分为绿色(未成熟)、橙色(部分成熟)和红色(完全成熟)。数据集挑战包括:
- 环境复杂性:图像顶部过曝、底部欠曝(图1a-b),背景行番茄干扰(图1c),果实重叠(图1d)和叶片遮挡(图1e)。
- 标注主观性:成熟度分类存在人工判断差异(图1f)。

2. 创新方法开发

研究提出两项核心技术:
- 人工尺寸切片辅助微调(ASSAFT, Artificial Size Slicing Aided Fine-Tuning):基于番茄自然簇生特性,生成以对象群为中心的定制化图像切片。具体步骤包括:
- 通过实例分割掩模创建前景分割图,应用二值膨胀操作聚类对象。
- 裁剪时设置最小切片尺寸以避免孤立对象丢失,并通过降采样优化计算效率。
- 人工尺寸切片辅助超推理(ASSAHI, Artificial Size Slicing Aided Hyper Inference):结合语义分割CNN定位对象群,生成动态切片区域。其优势在于:
- 减少空切片处理,提升小对象检测精度(图2)。
- 与标准切片方法(SAHI)结合使用,平衡细节与覆盖率。

3. 实验设计

  • 模型选择:测试Faster R-CNN DCN和TOOD DCN模型,均采用ResNet-50骨干网络。
  • 训练配置:使用12/24周期训练计划,学习率在第8/11或16/22周期下降。
  • 评估指标:精确度(Precision)、召回率(Recall)、F1-score及计数精度(Precision_count)。

主要结果

  1. ASSAFT与ASSAHI性能验证

    • ASSAFT显著提升模型表现:Faster R-CNN DCN的F1-score从0.71(SAFT)增至0.82(ASSAFT + ASSAHI,使用真实掩模)(表2)。
    • TOOD DCN在24周期训练后达到最佳F1-score 0.80(表3),显示更长训练周期对边界框精度的改善。
  2. 番茄检测与计数

    • 五折交叉验证显示整体F1-score为0.89,但顶部20%图像区域因小果实和过曝问题导致性能下降(图3)。
    • 实际产量预测案例中,模型误差率(当前日2.18%,7日后1.41%)显著低于农艺师估计(表4),证明其商业应用潜力。
  3. 与现有方法对比

    • 在超宽图像处理中,ASSAHI优于传统切片方法(如Mu et al.的F1-score 0.84),且无需依赖深度传感器(对比Rong et al.的RGB-D融合方法)(表5-6)。

结论与价值

本研究通过ASSAFT和ASSAHI方法,解决了超宽图像中番茄簇检测的挑战,其科学价值体现在:
1. 方法学创新:首次将动态切片策略与对象群语义分割结合,提升密集小对象检测能力。
2. 应用价值:模型在真实温室中预测误差低于人工估计,可优化供应链管理和资源分配。
3. 扩展性:框架可适配其他簇生作物(如葡萄、浆果),推动精准农业技术发展。

研究亮点

  • 高精度检测:F1-score 0.89,优于同类研究在复杂场景的表现。
  • 计算效率:ASSAHI推理时间(60.9秒/12张图像)与SAHI(128.2秒)相比更具实用性。
  • 数据开源:Tomato360数据集将应请求公开,促进后续研究。

其他价值

研究团队开发了完整的图像处理流水线,包括360°视频转超宽图像技术(Turečková et al., 2022)和基于FCN-Unet的语义分割辅助,为农业计算机视觉提供了可复用的技术框架。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com