该文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于改进YOLOv8n和ByteTrack的电子元器件分拣多目标跟踪算法研究
作者及机构
本研究由史安旗(北京林业大学工学院)、张欣、高超(北京工商大学计算机与人工智能学院)、陈世超(中国科学院自动化研究所多模态人工智能系统全国重点实验室)合作完成,发表于《智能感知工程》(Intelligent Perception Engineering)2025年第2卷第4期。
学术背景
研究领域为计算机视觉与工业自动化,聚焦于3C电子元器件分拣场景中的多目标跟踪问题。电子元器件(如电阻、电容、芯片)具有体积小、外观相似、密集排列的特点,传统分拣方法依赖人工设计特征或单一检测模型,存在漏检、误匹配和实时性不足的缺陷。研究目标是通过改进YOLOv8n目标检测模型和ByteTrack跟踪算法,提升复杂工业场景下的检测精度、跟踪鲁棒性和实时性。
研究流程与方法
-
目标检测模型改进
-
基础模型:以轻量化的YOLOv8n为基础,针对小目标和遮挡问题提出两项关键改进:
-
Gold-YOLO模块替换Neck:采用聚合-分发(GD)机制动态融合多尺度特征,通过低阶分支(Low-GD)处理大尺寸特征图(空间注意力对齐细节),高阶分支(High-GD)建模全局语义(自注意力增强小目标检出率)。
-
ACMIX注意力模块嵌入:在Gold-YOLO的N3输出层(80×80高分辨率层)嵌入混合卷积-注意力机制(ACMIX),通过1×1卷积与自注意力协同优化局部特征与全局上下文表达。
-
-
数据集:自建包含11类元器件的2646张图像数据集(训练集2079张,验证集387张,测试集180张),模拟倾斜、堆叠、模糊等工业干扰场景。
-
-
跟踪算法优化
-
ByteTrack改进:
-
参数优化:调整置信度阈值(conf从0.25降至0.05)、IOU阈值(0.7降至0.5),新增轨迹激活步数(min_steps_before_activation=3)等,提升密集目标匹配容忍度。
-
嵌套框过滤算法:通过面积比例与置信度比较,剔除冗余检测框,减少误匹配(流程见图10)。
-
-
动态测试:利用合成视频流模拟传送带运动,评估跟踪连续性。
-
-
实验验证
-
硬件配置:训练采用NVIDIA RTX 3090 GPU,运行端为RTX 1650 GPU。
-
评估指标:检测精度(mAP@50)、跟踪性能(MOTA、IDF1、IDSW)、实时性(帧率)。
-
主要结果
-
目标检测性能
-
消融实验显示,YOLOv8n+Gold-YOLO+ACMIX组合的mAP@50达91.32%,较基线(90.30%)提升1.02%,计算量仅增加0.4 GFLOPs,帧率保持27.65 fps(表3)。ACMIX模块通过共享1×1卷积路径,在精度与速度间实现最优平衡。
-
可视化对比(图14)表明,改进模型显著减少小目标漏检(如密集排列的电阻器)。
-
-
多目标跟踪性能
-
ByteTrack改进版在YOLOv8n+Gold-YOLO+ACMIX组合下,MOTA达86.72%(较原始ByteTrack提升21.8%),IDF1为93.13%,且IDSW降为0(表4)。嵌套框过滤算法有效抑制了重叠框导致的误匹配(图15)。
-
实时性:27.65 fps满足工业分拣的实时需求。
-
结论与价值
-
科学价值:
-
提出Gold-YOLO与ACMIX的协同设计,为小目标检测提供动态多尺度融合方案。
-
改进ByteTrack的参数优化策略与嵌套框过滤算法,为密集目标跟踪提供高鲁棒性解决方案。
-
-
应用价值:算法在电子元器件分拣场景中兼顾精度(mAP@50>91%)、稳定性(IDSW=0)和实时性(>27 fps),可应用于智能工厂的柔性化生产线。
研究亮点
-
方法创新:首次将ACMIX注意力机制嵌入Gold-YOLO的N3层,增强对小目标的特征提取能力。
-
工业适配性:通过合成视频流模拟真实分拣场景,验证算法在动态环境下的实用性。
-
开源贡献:自建数据集涵盖11类元器件,填补该领域公开数据空白。
其他价值
-
嵌套框过滤算法可泛化至其他密集目标检测场景(如物流分拣)。
-
参数优化策略为轻量化模型部署提供参考。
该报告全面覆盖了研究的背景、方法、结果与价值,重点突出了算法改进的逻辑链条(如ACMIX如何解决小目标特征提取问题)和工业应用潜力。