本文题为“Zero-Shot Behavior Detection Based on Multimodal Large Language Model Expansion”,发表在 2024 年 5 月 24–26 日于日本东京召开的 The 2024 5th International Conference on Computing, Networks and Internet of Things (CNIOT 2024) 上。研究的主要作者包括 Guangxin Wang、Xue Li、Dongshen Guo、Qiang Duan、Qibin Chen、Kai Jiang、Rui Li 和 Zizhong Wei,均隶属于 Inspur Academy of Science and Technology,位于中国济南。
本研究聚焦于社会生活与生产环境中的不安全行为检测问题,提出了一种基于多模态大语言模型的创新型零样本行为检测方法,用于复杂场景中的不安全行为识别。随着行为检测在公共安全、事故防控、生产效率提升等方面的重要性日益突出,研究团队旨在突破传统方法在数据需求和场景复杂性上的限制,提出更高效、更准确的技术解决方案。
不安全行为指那些可能导致人员伤亡或财产损失的行为。及时识别此类行为对于保护公共安全及提升生产效率具有重大意义。现有的行为检测方法多依赖于视频数据,基于人体外观、运动信息、时空兴趣点或人体骨骼信息进行分析,然而这些方法需要大量标注数据,难以应对动态复杂的真实场景。近年来,图像中基于单帧的信息进行行为检测的需求逐渐增多,但传统方法的检测精度有限,尤其是针对动作幅度较小、信息表现不明显的不安全行为。
多模态大语言模型(Multimodal Large Language Model)作为一种新兴技术,因其在多模态数据分析中的优异表现,受到了广泛关注,比如经典模型 CLIP 和 BLIP。这些模型在图像与文本语义对齐上表现出色。然而,单独依赖模型能力,无法在复杂场景中准确定位和分析个体行为。本研究提出了一种结合目标检测算法和多模态大语言模型的两阶段检测方法,同时构建了正负描述提示词库,以实现更高精度的零样本不安全行为检测。
研究方法分为三部分: 1. 行为描述短语库的构建; 2. 两阶段检测模型的设计与实现; 3. 基于行为描述向量的行为判断算法的开发。
为了便于模型理解和匹配不安全行为特征,研究团队构建了一个包含正负描述短语的短语库: - 首先,由领域专家根据经验为待检测的不安全行为(如吸烟、打电话)撰写一组描述短语; - 借助 GPT 模型生成更多多样化且准确的候选描述短语; - 从候选短语中筛选出和待检测行为最相关的前三个短语作为正描述短语,用于引导模型识别目标行为; - 同时生成三条可能导致干扰的负描述短语,模拟潜在误差。
该短语生成策略能够提升对行为特征的描述准确性,同时增强模型在复杂场景中的区分能力。
研究构建了一个两阶段检测模型(见文中 Figure 1 所示): - 第一阶段:目标检测模型
使用 YOLOv8 模型对图像进行目标检测,定位图像中所有人的像素坐标,并分割出人员区域图像。YOLOv8 模型基于预训练模型进行微调,以适应本研究所需的具体场景。
在行为描述向量基础上,研究设计了一种行为判断算法(见文中 Figure 2 所示): - 将行为描述向量分解为按行为类别排列的矩阵; - 通过权重系数计算每种行为发生的得分,其中正描述短语的权重为 1,负描述短语的权重为 -1; - 设置行为判断阈值(基于 0),判断得分是否超过阈值,从而决定是否存在目标行为。
此算法在考虑模型可能误判的基础上,通过人工经验设计增强了检测鲁棒性。
团队构建了一个全新的不安全行为数据集: - 来源:从互联网和无人机采集,共计 5467 张图像; - 标注范围:绘制并标注图像中个人框,共生成 10187 个边界框; - 行为类别:吸烟、打电话、玩手机、睡觉以及正常行为,具体统计见表格(Tab. 1)。
实验使用 mAP50(平均精准度,IoU=0.5)作为模型性能衡量指标,该指标从多类别下量化模型对目标行为的检测准确性。
团队将所提出的模型与其他检测方法进行了对比: - 对照组:零样本检测方法 OWL-ViT 和有监督检测方法 YOLOv8; - 实验结果(见 Tab. 2):本研究方法在所有行为类别上的检测精度均优于 OWL-ViT 和 YOLOv8,表现出卓越的检测能力; - 本方法 mAP50 值为 0.887,而 YOLOv8 为 0.822,OWL-ViT 为 0.802。
为验证正负描述短语策略的有效性,研究与查询型提示短语方法进行了比较(见 Tab. 3)。正负描述短语策略通过多描述细化区分不同行为,表现出更高的检测精度(mAP 从 0.865 提升到 0.887)。
本研究提出了一种创新的零样本不安全行为检测方法,通过结合目标检测算法与多模态大语言模型,利用正负提示短语策略显著提高了在复杂场景中的检测精度。具体而言: - 在理论上,该方法解决了图像中不安全行为检测难、适应性差的问题; - 在应用上,不仅促进了多模态语言模型在行为检测领域的落地应用,还能为生产场景中的安全管理提供技术支持。
同时,研究还提供了标注精细且行为类别丰富的数据集,为未来学术研究和工业应用提供了重要资源。
研究的创新点、数据资源和实践价值使其在行为检测领域具有重要意义,并为进一步的技术优化与场景扩展奠定了基础。