掩码自动标注器：矿物处理半自动标注与分割的统一框架

分享自：
掩码自动标注器：矿物处理半自动标注与分割的统一框架

期刊:Minerals EngineeringDOI:10.1016/j.mineng.2026.110117
本文介绍并讨论了一项发表于《Minerals Engineering》期刊2026年第241卷上的原创性研究。本研究由来自中国北京矿冶科技集团有限公司（BGRIMM Technology Group）和矿物加工智能化制造国家工程实验室（State Key Laboratory of Intelligent Optimized Manufacturing in Mining & Metallurgy Process）的科研人员，以及中国煤炭科学研究院数字矿山研究所的研究人员合作完成。主要作者包括Kanghui Zhang， Qingkai Wang（通讯作者）， Guobin Zou， Jiawei Yang， Tao Song， Meng Liu， Haiyang Zhang和Yuhan Fan。论文题目为“Mask Auto-Labeler: A Unified Framework for Semi-Automatic Annotation and Segmentation in Mineral Processing”。这是一篇典型的类型a，即报告单一原创研究的学术论文。以下将对此研究进行全面介绍。
研究背景与目的
在矿物加工领域，智能监控与控制对于优化生产流程、提升效率、降低能耗和保证产品质量至关重要。其中，对工业图像进行精确的实例分割（Instance Segmentation），例如实时分析浮选泡沫气泡的分布和矿粒的粒度形态，是实现上述目标的关键技术。然而，构建大规模、高质量的标注数据集是阻碍技术发展的主要瓶颈。矿物加工现场图像具有鲜明的工业特征：浮选泡沫图像中通常每帧包含超过350个密集、重叠且边界模糊的小气泡；而矿石颗粒图像中虽然每帧对象数量较少（约100个），但颗粒尺寸差异巨大且经常相互遮挡。传统的人工像素级标注方式不仅极其耗时耗力，而且在处理此类复杂图像时难以保证一致性。
尽管当前目标检测（如Faster R-CNN, YOLO系列）和实例分割（如Mask R-CNN, SAM）模型在自然图像上表现出色，但它们在面对上述工业场景时性能会显著下降。近年来出现的视觉基础模型（如SAM）虽具有强大的泛化能力，但在处理高密度、边界模糊的小物体或尺寸多变、遮挡严重的物体时，依然存在分割不全或错误合并等问题。另一方面，完全依赖人工标注的成本过高，阻碍了数据驱动的工业视觉系统的规模化应用。
因此，本研究旨在解决一个核心矛盾：如何以最低的标注成本，获得可用于训练高性能分割模型的高质量数据集，并最终实现对这些工业图像的鲁棒、准确分割。为此，作者团队提出了一个名为 Mask Auto-Labeler 的集成框架。该框架的核心思想是“先检测，后分割”（detect-then-segment），将半自动标注、目标检测和提示学习（Prompt Learning）驱动的分割模块有机结合，从而有效降低像素级标注的依赖，同时保证分割质量。本研究的目标是开发一个兼具高效标注和在线分割双重功能的统一框架。
研究流程与方法详述
该研究包含三个核心阶段，并构建了两个互补的数据集进行验证。
第一阶段：数据集构建与半自动标注引擎 研究使用了两个具有代表性的工业数据集：浮选泡沫数据集（Froth Dataset, FD）和矿石颗粒数据集（Ore Dataset, OD）。FD包含500张图像，总计超过11.5万个标注气泡，特点是高密度（每帧>350个）、小物体、边界模糊。OD包含260张图像，总计6872个标注实例，特点是稀疏（每帧约100个）、物体尺寸差异大、存在遮挡。图像分别采集自安徽某铜矿的半自磨机给料皮带和浮选槽上方。
为了高效构建这些数据集，研究者开发了一个半自动标注引擎。其工作流程基于视觉提示检测，如图2所示，具体步骤如下： 1. 用户提供粗略提示：专业标注员在图像上手动绘制少数几个（如2-5个）目标物体的边界框（Bounding Box）作为视觉提示。 2. 模型辅助生成：标注引擎内置一个基于Transformer架构的检测模型（包含图像编码器、视觉提示编码器和框解码器）。该模型接收图像和用户提供的提示框，通过跨注意力机制，在图像中定位并预测出其他未被标注的目标边界框。 3. 专家审核与修正：系统自动生成的候选框被提交给专家进行审核和微调，以修正错误预测或遗漏的目标，特别是那些边界模糊或重叠严重的实例。 该流程显著提升了标注效率。据文中数据，对于矿石颗粒图像（约50个实例），该引擎可将每张图的标注时间从超过2分钟缩短至约5秒，效率提升超过24倍；对于高密度泡沫图像（300-500个实例），标注时间可从超过2小时缩短至1-3分钟，效率提升超过40倍。这是本研究流程中极为关键和创新的第一步，为后续所有工作提供了高质量的基础检测标签。
第二阶段：针对矿物处理图像的目标检测网络开发与训练 为了获得高质量的检测结果以指导后续分割，研究者没有直接使用通用检测器，而是设计并实现了一个专门的矿物处理检测网络（MineDet）。如图3所示，MineDet是一个高效、轻量化的网络，专为处理矿物加工图像（如气泡和矿粒）设计。其结构亮点包括： 1. 轻量化骨干网络：采用DualConv和DualC3K2模块，结合异构卷积和分组卷积，在减少参数的同时，捕获细节和全局上下文信息。 2. 高效的特征融合模块： * SPPCSPC模块：结合空间金字塔池化（Spatial Pyramid Pooling, SPP）和跨阶段部分连接（Cross-Stage Partial Connections, CSP），增强了多尺度上下文表示能力。 * C2PSA模块：结合CSP与点感知注意力机制（Pointwise Sensitive Attention），通过多注意力头机制重新校准通道和空间响应，提高了对模糊或重叠边界的细粒度特征的敏感性。 3. 简化的特征金字塔网络：采用简化的PANet结构，通过移除冗余连接，选择性地组合关键路径，平衡了表征能力和计算效率。 4. 解耦检测头：将分类和边界框回归任务解耦，并使用专门设计的损失函数进行优化。其中，边界框回归使用DFL损失（Distribution Focal Loss）和CIoU损失的组合，前者将坐标建模为离散分布以改善细粒度定位，后者通过考虑重叠、距离和纵横比一致性来提高几何精度。 研究人员使用第一阶段构建的FD和OD数据集（带有边界框标签）对MineDet进行训练，并将其性能与一系列先进的基线检测器（如YOLO系列、CenterNet、FCOS等）进行了比较。
第三阶段：基于提示学习的实例分割 这是整个框架的核心创新点。获得高质量的检测框后，研究人员将这些检测框作为空间先验知识（即提示），输入到一个基于提示学习的分割模块中，自动生成像素级的分割掩膜（Mask），整个过程如图8所示。 1. 图像编码：原始图像被输入一个基于Vision Transformer（ViT-B）预训练的编码器，生成一个高分辨率的、富含语义信息的图像特征嵌入。这个编码过程每个图像只执行一次，计算开销固定。 2. 提示编码：MineDet模型预测出的边界框被输入到一个提示编码器中。编码器将每个框的左上角和右下角坐标转换为高维向量嵌入，并加入前景/背景和角点类型（左上/右下）的可学习嵌入信息，最终形成提示嵌入向量。 3. 掩膜解码：图像特征和提示嵌入被送入一个轻量化的、基于Transformer架构的掩膜解码器中。解码器通过双向注意力机制，使提示信息与图像特征充分交互，最终输出每个提示（即每个检测框）对应的实例分割掩膜。解码器还能并行输出多个候选掩膜及其置信度，便于选择最佳结果。 该设计的优势在于，分割模型无需像素级标签进行训练，而是利用检测框作为强引导，将分割任务限定在特定的感兴趣区域内，有效解决了密集物体边界模糊、遮挡导致的错误合并问题。这实现了从检测标签到分割掩膜的自动化、低成本生成。
实验结果分析
本研究在FD和OD两个数据集上进行了全面的量化与定性评估，验证了Mask Auto-Labeler框架的有效性。
检测性能评估： 在FD和OD上，研究者比较了包括两阶段检测器、基于锚框的单阶段检测器和无锚框检测器在内的多种方法。结果表明： * 在FD（高密度小气泡）上，无锚框检测器普遍表现优异。其中，专门设计的MineDet模型取得了最高的mAP@0.5（94.50%），同时在召回率（87.44%）和精确率（87.44%）之间取得了最佳平衡，优于YOLOv9s（91.45%）和YOLOv8s（88.64%）等流行模型。 * 在OD（稀疏大尺寸矿粒）上，各模型性能普遍较高。MineDet同样取得了最佳性能（mAP@0.5为86.80%），表明其对于稀疏场景也具有良好的适应性。 这些结果证实了MineDet模型作为框架前端检测器的可靠性和优越性，为其作为高质量“提示生成器”提供了保障。
分割性能评估： 这是验证框架最终目标的关键环节。研究者将本框架（MineDet + 提示学习分割）与多个先进的基础分割模型（如SAM-B, SAM-L, MobileSAM, EdgeSAM等） 进行了对比，评估指标为平均交并比（mIoU）。 * 在FD上，本框架达到了 83.09% 的mIoU，与最强的基线模型SAM-L（82.8%）和SAM-B（82.12%）相比，性能略有提升且表现最优。重要的是，在气泡密集、边界模糊且重叠严重的挑战性场景下，本框架通过检测框引导，有效减少了欠分割（物体被合并）的问题，生成了更精细、更完整的单个气泡掩膜。而轻量级模型如FastSAM表现不佳（mIoU仅67.84%）。 * 在OD上，本框架获得了 76.72% 的mIoU，同样超越了所有对比的SAM变体模型。这证明了该框架对于尺寸多变、存在遮挡的矿石颗粒分割的有效性。 定量结果表明，本研究提出的“先检测，后提示分割”策略，在两种特性迥异的工业图像上均能实现优秀的分割精度。文中特别指出，数据集中存在大量因尺寸过小或边界极其模糊而未能标注的“真实”物体，而模型有时能正确检测和分割这些未标注的目标，这意味着传统的评估指标（如mAP, mIoU）可能低估了模型的真实能力，模型展现出一种弱监督发现（Weakly Supervised Discovery） 的潜力。
定性分析： 文中提供了丰富的可视化结果（图16， 图18-20）。结果显示： 1. FD: 对于浮选流程的不同阶段（粗选、扫选、精选），框架均能稳定、准确地分割出绝大多数气泡。这使得它可以作为实时监测工具，为过程工程师或专家系统提供关键的泡沫特征（如气泡数量、大小分布），以评估工况、优化药剂添加、调节充气量，甚至预警泡沫过载或欠流。 2. OD: 框架在矿石颗粒图像上也得到了满意的分割结果，尽管在颗粒严重重叠时存在个别分割不完整的现象。但考虑到极低的标注成本，这一性能已具有很高的实用价值。整体推理速度（检测+分割）约为每张图0.8秒（约100个矿粒），满足在线监测需求。 定性分析进一步印证了模型在实际工业图像上的鲁棒性和实用性。图19和图20尤其展示了一个有趣的现象：在OD上，模型可以检测出一些人工标注中遗漏的真实颗粒，这再次证明了其弱监督学习的潜力。
结论与研究价值
本研究成功地提出了 Mask Auto-Labeler——一个针对矿物加工工业图像的、集成的检测-分割半自动标注框架。该框架通过创新的“检测框作为提示”的策略，将成本高昂的像素级标注问题转化为更易操作的边界框标注问题，极大地降低了构建大规模高质量工业数据集的成本（标注时间减少90%以上）。
其科学价值在于： 1. 提供了一种高效的半自动标注范式：将交互式提示检测与专家精修结合，为工业视觉领域数据匮乏问题提供了可行的解决方案。 2. 设计了一个专用于矿物处理图像的检测模型（MineDet）：通过定制的轻量化骨干和特征融合模块，有效处理了工业图像中高密度、多尺度、边界模糊的挑战。 3. 创新地应用了提示学习于工业图像分割：利用检测框作为强空间先验，引导基础分割模型生成高质量掩膜，避免了像素级监督的需求，拓展了视觉基础模型在工业场景的应用方式。
其应用价值在于： 1. 双重应用潜力：在数据构建阶段，它是一个强大的半自动标注引擎；在模型部署阶段，它可以作为一个实时的在线分割模型，用于浮选泡沫或矿石粒度的智能监控。研究指出，对于工业监控而言，70%以上的mIoU已足以支持稳定的过程统计和后续的分析控制。 2. 推动智能化进程：该框架为矿物加工厂实现数据驱动的过程优化、能效提升和智能控制奠定了技术基础。生成的精细分割数据可用于建立视觉特征与工艺指标（如品位预测）间的数据驱动模型，实现预测性监控。
研究亮点与创新
统一框架解决双重需求：创造性地将半自动数据标注与高性能实例分割两个任务统一在一个框架内，同时解决了“数据从哪里来”和“模型如何用得好”两个核心问题。
高效协同的“检测-分割”策略：利用检测框作为强先验知识引导分割，是解决工业图像中密集、模糊、多尺度目标分割难题的有效路径，比直接使用通用分割模型或纯无监督方法更具针对性和鲁棒性。
专用网络设计与性能验证：针对矿物加工图像特点设计的MineDet检测器，在公开比较中性能优于多个通用SOTA模型，证明了领域自适应设计的重要性。
发现“弱监督学习”潜力：模型能够识别部分未标注的真实目标，这揭示了该框架在数据标注不完全的现实条件下，仍具备学习并发现知识的能力，为进一步发展弱监督或自监督方法提供了启示。
强大的实用性与可扩展性：研究在两个真实、复杂且互补的工业数据集上进行了全面验证，证明了其广泛的适用性。文中还展望了将该框架发展为全自动标注系统、开发适用于不完全标注数据集的新评估指标等未来方向。
总而言之，Mask Auto-Labeler是一项从工业实际需求出发，紧密结合前沿计算机视觉技术（提示学习、Transformer）的出色研究，为矿物加工乃至更广泛的工业智能视觉领域提供了一个高效、可扩展且实用的解决方案。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问