首页 / 监控视频图像的轻量化目标检测方法

监控视频图像的轻量化目标检测方法实质审查 发明

技术领域

[0001] 本发明涉及图像识别技术领域。更具体地说,本发明涉及一种监控视频图像的轻量化目标检测方法。

相关背景技术

[0002] 目前,业界使用最广的目标检测算法主要有两大类,RCNN系列检测网络和YOLO系列检测网络。其中YOLO系列目标检测网络相比RCNN系列,其推理速度有了大幅的提升,是安
防监控目标检测领域的一个里程碑,但仍然存在一些问题,比如很难同时拥有高精度和高
推理速度。准确度高的网络,推理速度往往较慢,且需要更好的计算设备;而推理速度快的
网络,其准确度一般都比较低。如何设计轻量化的网络结构,减少模型参数数量和计算复杂
度,提高模型的检测精度和实时性是目前亟需解决的问题。

具体实施方式

[0036] 下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0037] 需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述试剂和材料,如无特殊说明,均可从商业途径获得;在本发明的描述中,术语“横向”、“纵
向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,
并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因
此不能理解为对本发明的限制。
[0038] 如图1所示,本发明提供一种监控视频图像的轻量化目标检测方法,包括:
[0039] S1、获取视频图像;
[0040] 具体的,采用OpenCV进行计算机视觉处理,设计多线程,使用VideoCapture打开远程监控视频设备,读取RTSP流,再从中获取队列中的RGB图像,保存监控视频图像。
[0041] S2、对视频图像进行预处理;
[0042] 具体的,对监控视频图像预处理方法主要包括图像缩放和裁剪、归一化和标签处理等至少一种方法,以确保输入数据与模型的要求相匹配,并提高模型的训练效果和泛化
能力。在预处理阶段,将图像从原始格式转换为模型所需的格式(如numpy数组或Tensor),
然后图像会被缩放至指定的大小,并进行中心裁剪或填充以适应模型的输入尺寸。为了提
高模型的训练稳定性和收敛速度,通常会对图像进行归一化处理,这意味着将图像的像素
值转换到固定范围内,例如[0,1]或[‑1,1]。在经过这些预处理步骤后,才能确保输入数据
与模型的要求相匹配,并提高模型的训练效果和泛化能力。
[0043] S3、利用基于YOLOv5s改进得到的轻量化图像目标检测模型进行图像目标检测;
[0044] 具体的,基于YOLOv5s改进得到轻量化图像目标检测模型的方法包括:将YOLOv5s主干网络中的SPPF模块更换为SPPF‑A模块,并在SPPF‑A模块前插入CBAM模块;
[0045] 所述SPPF‑A模块包括串联的Conv模块、MPC模块和Conv模块,所述MPC模块包括:串联的第一池化层、第二池化层和第三池化层,用于将第一池化层得到特征和第三池化层得
到特征进行融合的第一融合层,与第一融合层串联的第四池化层,以及将第一池化层之前
的特征和第一池化层至第四池化层分别得到的特征均融合的第二融合层。
[0046] 上述步骤中,为了提高模型与数据集的匹配程度添加了CBAM注意力机制,通过空间和通道两个独立维度来计算出注意力图,增强细粒度特征表达能力。
[0047] CBAM(Convolutional Block Attention Module)是一种用于增强卷积神经网络(CNN)性能的注意力机制模块。它主要通过在CNN中引入通道注意力和空间注意力来提高模
型的感知能力,同时不增加网络复杂性。
[0048] 另外,为了改善特征检测受限于视野的池化和拼接的问题,拟采用SPPF_A模块。
[0049] 常规的yolo模型中,主干网络部分的池化模块常用SPP模块,SPP结构又被称为空间金字塔池化,具有多个窗口、单个窗口输出尺寸固定的特点。SPP在放大缩小图片的同时
不会扭曲原始图片,因此多个尺寸的输出能够减少过拟合,使网络能更好的进行收敛。此外
SPP结构替换的是原始pooling(池化)层,输出并不影响网络的结构。但是SPP模块的训练时
间长,检测速度较慢。
[0050] SPPF作为SPP的改进在输出相同的情况下速度更快。空间金字塔池化可以将尺度不固定的特征图,转为统一尺度的特征向量。但是根据源码,在YOLOv5中SPP与SPPF通过
padding(填充),其实做的是same池化(平均值池化),前后特征图的大小是相等的。SPPF在
yolov5中的主要作用是融合多尺度特征。将同一特征图不同尺度下的特征表现concat(融
合)到一起。但是SPPF模块对于小目标的分辨准确率较低。
[0051] 因此,本申请提出了SPPF_A模块,其结构如图2所示。利用四个kernel(卷积核)为5*5的MaxPool(最大池化层)变相得到不同尺度大小的特征。本申请提出了SPPF_A模块,将
第一个MaxPool和第三个MaxPool的concat融合,目的是使注意力更加集中在大目标和细小
目标上。原因在于人像图像的范围大小不固定,当只有少数时标注区域非常小,而在人群密
集的地区时标注区域则很容易与其他物品混淆,因此模型需要更加注重可变视野域,较小
的特征图可以更好的保留特征纹理。SPPF_A的空间金字塔结构兼容不同比例和大小的图片
输出,根据不同尺度的图像可以提取到对应合适尺度的特征,通过将不同尺度的特征相结
合能够更好的分辨目标的边缘像素,提高识别准确率。
[0052] 更具体的,基于YOLOv5s改进得到轻量化图像目标检测模型的方法还包括:将YOLOv5s主干网络中的C3模块更换为DSF模块;
[0053] 所述DSF模块为:将C3模块中的Conv模块更换为DSConv模块,并将C3模块中的bottleneck模块更换为FasterNet模块后所得到的模块。
[0054] C3模块是YOLO模型中重要的特征提取模块,由3个Conv卷积模块和1个Bottleneck模块组成。原始C3模块参数量较大,在实际复杂场景以及移动式设备上模型容易出现检测
速度较慢的问题,例如通过摄像头对行人进行实时检测。因此本申请基于原始C3模块设计
了一种残差特征提取模块——DSF模块。
[0055] 所述DSF模块结构如图3所示,DSF模块由卷积网络和残差网络组成,本申请选择将普通卷积(Conv)替换成深度可分离卷积(DSConv),这可以大幅度减少卷积的参数,减少模
型的大小。
[0056] 相同输入下深度可分离卷积的参数量只有普通卷积的约三分之一。虽然深度可分离卷积模块减少了每次运行的参数量,但与此同时增加了内存的读取次数,更加频繁的读
取内存将会导致浮点运算FLOPs的降低。因此本申请利用FasterNet来替换原始的
bottleneck模块。
[0057] FasterNet模块使用PConv(PConv模块如图4所示)作为卷积块,与普通卷积不同的点在于它对输入通道进行分割,每次特征提取时保持其余通道不变,只对这一部分应用常
规Conv进行空间特征提取。
[0058] 相比较普通卷积,PConv的FLOPs(每秒浮点操作数)只有原大小的1/16,这样极大优化了内存的使用效率,增加模型的检测速度。
[0059] 更具体的,基于YOLOv5s改进得到轻量化图像目标检测模型的方法还包括:在YOLOv5s的Neck部分插入CARAFE模块。
[0060] CARAFE上采样模块可以有效的提高模型对于复杂图片的密集特征提取能力,具有体积小和感受野大的优势,原因在于CARAFE可以对每个内容预测一个重组核,这样能更好
的保留其特征信息。CARAFE分为两个主要模块,分别是上采样核预测模块和特征重组模块。
假设上采样倍率为σ,给定一个形状为H×W×C的输入特征图(其中H×W为上采样核的长与
宽,C是通道数),我们首先利用上采样核预测模块预测上采样核,然后利用特征重组模块完
成上采样,得到形状为σH×σW×C的输出特征图。
[0061] 更具体的,基于YOLOv5s改进得到轻量化图像目标检测模型的方法还包括:在YOLOv5s的head部分使用Decoupled Head模块。
[0062] Decoupled Head解耦头区别于传统的图像分割网络,将特征提取和像素预测过程分别进行处理,目的是更好的处理不同尺度与粒度的特征。Decoupled Head构建出多个分
支网络来进行像素级预测,将分类与定位的关注点分开计算,对目标纹理特征与边缘定位
有更好的效果。
[0063] 经过上述改进,所述轻量化图像目标检测模型的结构如图5所示。本申请在YOLOv5s的Backbone部分插入CBAM注意力模块,并使用改进的空间金字塔结构SPPF‑A来替
换原本的SPPF模块。将CARAFE插入Neck部分,在YOLOv5s的检测头部分使用Decoupled Head
(Content‑Aware ReAssembly of FEatures)模块。上述模型通过构建多层级感受野,让模
型定位到更全面的目标,将可以提高目标特征的权值比重。
[0064] 在另一实施例中,基于YOLOv5s改进得到轻量化图像目标检测模型的方法还包括:将模型进行剪枝和知识蒸馏处理。
[0065] 具体的,剪枝处理采用的方法为Group‑wise Pruning剪枝方法,知识蒸馏处理采用的方法为FitNets知识蒸馏方法。
[0066] 现有的剪枝方法包括:Group‑wise Pruning(组稀疏化剪枝)、Global Pruning(全局剪枝)、Magnitude Pruning(幅值剪枝)和Channel Pruning(通道剪枝)等。
[0067] Global Pruning是一种简单直接的剪枝方法,它直接基于参数的绝对值大小进行剪枝。然而,Global Pruning容易导致剪枝后的模型结构不规整,且剪枝后的模型性能可能
受到较大影响;Magnitude Pruning是一种基于参数幅值大小的剪枝方法,它将参数幅值较
小的权重直接剪枝掉。虽然Magnitude Pruning相对简单,但它可能会导致模型剪枝后的稀
疏度不够高,且对模型性能的影响较大;Channel Pruning是一种基于通道重要性的剪枝方
法,它通过评估每个通道对模型性能的贡献程度来进行剪枝。虽然Channel Pruning能够一
定程度上保持模型结构的完整性,但它对模型的剪枝精度较低,容易导致剪枝后的模型性
能下降。
[0068] 本申请选择了Group‑wise Pruning(组稀疏化剪枝)作为剪枝的具体方法。这是因为与其他剪枝方法相比,Group‑wise Pruning综合考虑了全局剪枝和通道剪枝的优点,能
够在保持模型结构完整性的同时,更精确地剪枝模型的参数。由于Group‑wise Pruning能
够对每个卷积核组进行剪枝,因此可以更有效地减少模型的计算量和参数量,同时保持模
型性能的稳定性。因此,相对于其他剪枝方法,Group‑wise Pruning更适合应用于上述轻量
化图像目标检测模型的压缩与加速。
[0069] Group‑wise Pruning剪枝方法可以用以下伪代码表示(如表1所示),在这段伪代码中,对每个卷积层进行遍历,然后计算每个过滤器的重要性分数,最后剪枝掉重要性分数
最低的一些过滤器。
[0070] 表1
[0071]
[0072] 更具体的,首先确定剪枝的比例,以减少模型的计算量为目标,同时保持模型的检测性能。然后,根据模型的卷积层结构和通道特性,选择合适的剪枝位置,以保证剪枝后的
模型仍然具有较高的检测性能。本申请使用了迭代剪枝算法,对模型的每一层进行剪枝,以
逐步减少模型的计算量。迭代剪枝算法是一种通过多次迭代循环实现逐步剪枝的方法。该
算法首先在原始模型上进行一次剪枝,然后在剪枝后的模型上重新训练,以恢复或提升模
型性能。在每次迭代中,剪枝策略可能会根据模型性能和指标进行调整,以达到更好的剪枝
效果。迭代剪枝算法通常会进行多轮迭代,直到达到预设的剪枝目标或满足性能要求为止。
这种算法可以有效地减少模型复杂度,提高模型的轻量化和计算效率。
[0073] 在剪枝的过程中使用了教师模型的软标签来指导剪枝操作,以保证剪枝后的模型能够保持原模型的特性和性能,为此,我们引入了知识蒸馏的方法,将教师模型的知识引入
到剪枝后的学生模型中。具体来说,我们使用了教师模型的软标签来指导剪枝操作,并在剪
枝后的模型中引入了教师模型的知识。这样的结合策略可以在保持模型性能的同时,进一
步减少模型的计算量和参数量,实现对上述轻量化图像目标检测模型的有效压缩与加速。
[0074] 现有的知识蒸馏方法包括FitNets、Self‑Knowledge Distillation、Attention Transfer等。Self‑Knowledge Distillation方法是一种简单而直接的知识蒸馏方法,它将
学生模型自身的输出作为软目标来训练学生模型。虽然该方法简单易行,但由于学生模型
的表达能力有限,无法充分挖掘教师模型的丰富知识;Attention Transfer方法利用了注
意力机制来传递教师模型与学生模型之间的知识。该方法可以使学生模型学习到教师模型
在空间和通道维度上的重要信息,但在处理复杂数据和模型时,其效果不佳。
[0075] 本申请选择了FitNets作为知识蒸馏的具体方法。FitNets是一种用于深度神经网络蒸馏的方法,最初用于图像分类任务。它的主要思想是通过训练一个较深的学生模型来
学习教师模型的映射关系,而不是直接学习教师模型的输出。这种方法可以提高模型的泛
化能力,并且在轻量化模型时保持较高的性能。FitNets方法适用于大型模型到小型模型的
知识传递,与上述轻量化图像目标检测模型的剪枝和轻量化目标相符合。此外,FitNets方
法还能够在较小的模型尺寸下保持模型的准确性,这对于在资源受限的环境中部署模型非
常重要。
[0076] 具体的,接下来介绍FitNets知识蒸馏方法的具体思路和流程,将模型进行剪枝和知识蒸馏处理的过程包括:以剪枝前模型作为教师模型,剪枝后模型作为学生模型,采用知
识蒸馏方法和剪枝方法循环重复调整学生模型,直至模型收敛。
[0077] 更具体的,当使用FitNets进行知识蒸馏时,通常会遵循教师模型训练、学生模型设计、特征对齐、蒸馏损失设计和联合训练五个步骤。教师模型训练阶段使用大型的“教师”
模型(通常是较复杂的深度神经网络)在大规模数据集上进行训练。教师模型的目标是学习
有效的特征表示和复杂的决策边界,以达到较高的性能。学生模型设计阶段设计一个更小、
更轻量的“学生”模型,通常具有较少的参数和计算复杂度。学生模型的目标是在保持尽可
能高的性能的同时,实现模型的轻量化和加速。特征对齐阶段在知识蒸馏阶段,通过比较教
师模型和学生模型的中间特征来进行特征对齐。通常会选择一些中间层或特征图来进行对
齐,以确保学生模型能够学习到与教师模型相似的特征表示。
[0078] 蒸馏损失设计阶段通常会设计一个结合了监督学习和特征对齐的损失函数,以平衡模型在拟合训练数据和利用教师模型知识之间的权衡。这个损失函数的一般形式可以表
示为公式(1):
[0079] L=αLsupervised+(1‑α)Ldistilation                 (1)
[0080] 其中,Lsupervised是传统的监督学习损失,用于确保学生模型在训练数据上的表现良好;Ldistilation是特征对齐损失,用于确保学生模型能够学习到与教师模型相似的特征表
示;α是权衡两部分损失的超参数,通常取值在0到1之间,表示监督学习损失的权重。
[0081] Lsupervised和Ldistilation的形式会根据具体的任务和模型结构而有所不同。Lsupervised可以是交叉熵损失或其他监督学习损失,用于衡量学生模型在训练数据上的预测与真实标
签之间的差异。Ldistilation则可以是基于特征对齐的损失,比如均方误差(Mean Squared 
Error)或相关性损失(Correlation Loss),用于衡量学生模型和教师模型中间特征的相似
性。
[0082] 在分类问题中模型会有个Softmax层,该层会输出每个类别的概率,知识蒸馏让学生模型去拟合教师模型输出的每个类别的概率,教师模型输出的类别概率又称“Soft‑
target”,真实值称为为“Hard‑target”。Hard‑target像二分类分布,只有1和0,Soft‑
target输出的则是概率分布。Soft‑target能比Hard‑target得到更多标签类别信息,这可
以让模型不仅可以知道到正确的标签信息,也可以学习到其他标签的信息。知识蒸馏就是
教师模型的Soft‑target去指导用Hard‑target学习的学生模型,让其从Soft‑target中学
习到更多的信息,从而提高模型的表达能力。
[0083] 学生模型需要从教师模型的软标签中学习到其他的标签信息,但教师模型的预测标签结果并不是百分百正确。因此知识蒸馏的损失函数由Soft‑target的损失函数和Hard‑
target的损失函数加权组成,如公式(2)所示。
[0084] L=αLsoft+βLhard                       (2)
[0085] 在上述知识蒸馏损失函数公式中,权重α值和β值的取值范围在0和1之间。其中Lsoft表示教师和学生模型输出的概率分布之间的离散度,Lhard表示输入图像的标签和网络
输出的概率分布的交叉熵,也就是softmax输出的概率分布和标签之间的loss。
[0086] 知识蒸馏过程如图6所示,训练好的剪枝前模型使用较高的“温度”T值构建Soft‑labels,同时剪枝后模型使用较高的“温度”T值构建Soft prediction和使用T=1构建Hard 
predictions,最后通过与不同标签的计算得到不同的损失函数值,然后通过公式(2)得到
最终的损失函数。
[0087] 通常深度神经网络在剪枝后精度往往会下降,微调能够在一定程度上恢复剪枝后的模型精度,但当裁剪掉过多的参数时,剪枝后模型容量会大幅度下降以至于无法恢复到
原来的精度。本申请对教师模型剪枝来构造结构相似的学生模型,使用知识蒸馏替代微调
的过程弥补剪枝造成的精度损失,实现剪枝和知识蒸馏方法的互补结合。因此,本申请使用
剪枝后模型作为学生模型,剪枝前模型作为教师模型以达到更好的知识传递效果。本申请
剪枝+知识蒸馏过程如图7所示。
[0088] 下面通过具体的实验来说明本申请所述监控视频图像的轻量化目标检测方法在提高监控视频图像目标检测的准确性和检测速度方面的效果。
[0089] 检测实验采用Face Mask Detection YOLO Darknet Format公开数据集,共计6900张图片。该数据集包含了不同国家多种风格的背景建筑以及旅游、购物、采访等情境,
具有很高的鲁棒性。每张照片对应有一个与照片同名txt记录其标注坐标以及标注类别(0:
无遮掩物,1:有遮掩物)。部分图片带有动态模糊或是灰度图,这对检测来说增加了难度。
[0090] 实验使用的评价指标为精确率(Precision)、召回率(Recall)、平均精度(mAP)和GFLOPs(Giga Floating‑point Operations Per Second每秒浮点运算次数)。其中mAP为全
类AP值的均值,而AP为精确率和召回率组成的PR曲线取平均值。mAP@0.5是将IoU值设置为
0.5,计算每一类中所有图片的AP值,然后对这些类的AP值求平均,mAP@0.5:0.95表示在不
同IoU阈值(从0.5到0.95,步长0.05)(0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)
上的平均mAP。
[0091] 在进行实验之前,先对Face Mask Detection YOLO Darknet Format数据集进行预处理。将预处理后的数据集传入各个模型进行实验。实验结果如表2所示:
[0092] 表2
[0093]
[0094]
[0095] 从表2可以看出,本发明的方法在综合检测性能以及GFLOPs均优于原始YOLOv5s,mAP50提高了1.6%。说明Decoupled Head检测头、CARAFE、SPPF‑A和CBAM注意力确实在检测
方面有提升效果,证明本发明的方法具有有效性。
[0096] 图8为监控视频图像的检测结果,其中左侧一列为具有原始标注信息的图像,中间一列为经过YOLOv5s的检测得出检测结果的图像,右侧一列为采用本申请的方法检测得出
检测结果的图像。可以看到YOLOv5s在复杂背景以及高并发检测中存在误检,检测准确率较
低。本申请的方法的鲁棒性明显更好,对于背光、侧面和低头等情况的识别准确率更高。
[0097] 为了验明改进部分能够提高模型性能进行消融实验。消融实验将逐去除其中一个改进模块,将改进结构恢复为YOLOv5原模块,通过对比mAP结果,测试不同结构对结果的影
响程度,结果如表3所示:
[0098] 表3
[0099]
[0100] 通过表3不难看出,当不使用Decoupled Head解耦头时,平均精度mAP50下降约0.5%,说明Decoupled Head能够更加关注图片中的边缘与纹理信息;当不使用DSF时平均
精度mAP50下降约1.2%,说明DSF残差特征提取模块能够更好的保留特征信息;当不使用
CBAM时,平均精度mAP50下降约0.8%,说明注意力模块能对模糊背景的图像提取到更精准
的特征信息;当不使用SPPF_A时,平均精度mAP50下降约0.3%,说明特征提取对识别具有较
大影响。
[0101] 下面表4列出了替换FasterNet后的性能指标。可以看到,YOLOv5s集成FasterNet后,在mAP方面相比YOLOv5s默认主干网络有明显提升,从70.7提升到了74.1。同时,在每秒
处理图片数量方面也有所改善,从151张图像提高到了168张图像,说明DSF在目标检测中的
高效性。
[0102] 表4
[0103]
[0104] 基于同一发明构思,本发明还提供一种监控视频图像的轻量化目标检测设备,所述轻量化目标检测设备可以是个人计算机、服务器,或者其他实现前述轻量化目标检测方
法的设备。
[0105] 具体的,所述监控视频图像的轻量化目标检测设备,包括:
[0106] 存储器,用于存储计算机程序;;
[0107] 处理器,用于执行所述计算机程序时实现上述监控视频图像的轻量化目标检测方法的步骤。
[0108] 该轻量化目标检测设备可以为包括手机、笔记本电脑、台式电脑、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电
脑等任意终端设备。
[0109] 基于同一发明构思,本发明还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述监控视频图像的轻量化目标检测
方法的步骤。
[0110] 通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专
用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以
很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多
样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实
现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出
贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质
中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储
器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设
备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0111] 尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地
实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限
于特定的细节和这里示出与描述的图例。

当前第1页 第1页 第2页 第3页
相关技术
检测方法相关技术
监控视频相关技术
黄江涛发明人的其他相关专利技术