技术领域
[0001] 本公开涉及数字视频监控跟踪技术领域,具体涉及基于级联匹配和轨迹确认的多目标跟踪检测方法及系统。
相关背景技术
[0002] 本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
[0003] 在交通建设工程中,桥梁工程不断增加。与公路、铁路施工相比,桥梁工程具有一定的复杂性及危险性,不安全因素更多。尤其是高架桥施工时,施工方法交叉变换、高空作业多、施工难度大,而且也容易与周围的环境产生相互干扰,这些都是高架桥施工高风险性的集中表现。为了保证高架桥施工的安全、有序进行,有必要对高架桥施工的人员安全进行实时监测和研究。数字化监控系统是一种利用数字技术和网络通信技术来监控和管理现场的系统。这种系统通常包括传感器、数据采集设备、数据处理和分析软件、网络通信设备等组件,可以实时收集、传输、处理和展示监控数据,帮助用户进行远程监控和实时决策。在高架桥施工建设过程中,它可以帮助管理员用户实现远程监控、智能化分析和决策支持,提高人员施工安全性和可靠性。
[0004] 随着物联网、大数据和人工智能等技术的发展,传统数字化监控功能的局限性愈发暴露,主要集中在监测精度和视频安全两个方面,高架桥施工建设,工人面临安全问题颇多。作为管理人员,做好现场安全施工监测迫在眉睫。传统数字监控视频网络可实现基础报警功能,当现场出现火灾、外来人员入侵、设备运行故障等现象时会及时触发警铃,并有中心语音对讲或广播提示,但系统对于内部人员的不安全行为的监测并不完善。
[0005] 早期的机器学习检测算法从视频数据中学习浅层特征,并通过正态建模等方式在视频异常行为检测中取得了显著的效果。随机森林、贝叶斯网络、马尔可夫模型和支持向量机等方法被用于理解和识别目标行为,但是这些方法依赖于预处理和手工制作的特征,需要大量的时间和资源来处理,并且不能很好地扩展到不同的数据集,在实际应用中表现出较差的性能。除此之外,当数字监控网络上传云端后,传统的后端数字端口认证方式易于被攻击,产生的非法入侵会对保密的安全内容造成威胁。
具体实施方式
[0033] 下面结合附图与实施例对本公开作进一步说明。
[0034] 应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
[0035] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0036] 实施例1
[0037] 本公开的一种实施例中提供了一种基于级联匹配和轨迹确认的多目标跟踪检测方法,在视频集成前运用人工智能算法实现多目标的跟踪检测,包括:
[0038] 获取人员施工视频,将视频帧分解为多幅图像;
[0039] 基于改进的YOLOv5网络识别当前帧图像中的目标,获取目标检测框,并基于上一帧的轨迹框通过卡尔曼滤波算法得到当前帧的预测轨迹框;
[0040] 利用DeepSort算法对当前帧的目标检测框和预测轨迹框进行多目标跟踪,分别获取目标检测框和预测轨迹框的运动特征和外观特征,并利用匈牙利算法对两者的运动特征和外观特征进行级联匹配,并利用IOU匹配算法进行匹配优化;
[0041] 将匹配成功的目标检测框和预测轨迹框再利用卡尔曼滤波算法进行融合更新,替换原始预测轨迹框,得到跟踪结果。
[0042] 作为一种实施例,本公开的基于级联匹配和轨迹确认的多目标跟踪检测方法具体实施过程包括:
[0043] 步骤1:获取人员施工视频,将视频帧分解为多幅图像;
[0044] 具体地,opencv获取视频总帧数,设置for循环,按帧读取图像。
[0045] 步骤2:基于改进的YOLOv5网络识别当前帧图像中的目标,获取目标检测框;
[0046] 具体地,基于视频分解成的多幅图像,利用改进的YOLOv5算法进行目标检测并逐帧执行,可获取目标检测框随目标移动。
[0047] 其中,YOLOv5模型结构主要包括:
[0048] 输入端:YOLOv5的Head网络由3个不同的输出层组成,分别负责检测大中小尺度的目标。
[0049] Backbone网络:YOLOv5使用CSPDarknet53作为其主干网络,其具有较强的特征提取能力和计算效率。
[0050] Neck网络:YOLOv5使用的是FPN网络,可以融合来自不同特征图层次的信息。
[0051] 输出端:损失函数,YOLOv5使用的是Focal Loss损失函数,该函数可以缓解目标检测中类别不平衡的问题,提高模型的性能。非极大值抑制(NMS),YOLOv5在输出结果后,会对重叠的目标框进行NMS处理,以得到最终的检测结果。
[0052] 激活函数,YOLOv5使用的是Mish激活函数,该函数是一种替代ReLU的激活函数,可以提高模型的性能。
[0053] 目前,YOLOv5等一阶段目标检测算法具有速度和精度的优势,但面临目标误检、目标漏检、目标丢失等问题。本发明主要通过优化YOLOv5和DeepSort来解决上述问题,实现对特殊场景中关键目标人物的高效检测和跟踪。从注意力机制、损失函数、特征金字塔网络三个方面对YOLOv5进行改进。
[0054] 改进的方法为:在YOLOv5主干网络输出的3个有效特征层256、512、1024后面分别插入CBAM注意力机制模块,实现关键特征的有效提取。其次考虑到实际场景中获取的关键目标样本较少、难分类的问题,在YOLO Head的目标置信度处使用了更适合一阶段目标检测算法的焦点损失函数,替换原有的BCE Loss,有利于提高难分样本的检测准确度。最后采用加权双向特征金字塔网络结构替换原有的特征融合网络FPN+PANet,实现多尺度融合以充分利用有效特征,提升检测精度。基于改进的YOLOv5的关键目标人物检测模型如图1所示。关键目标检测流程如图2所示。
[0055] (1)注意力机制的引入
[0056] 注意力机制指的是在计算机视觉中能够把注意力放在重要区域而忽视不相关部分的方法。注意力机制通常可以分为四类:通道注意力告诉网络需要注意什么,空间注意力机制告诉网络哪里需要注意,时间注意力机制告诉网络什么时候需要注意,分支注意力机制告诉网络需要注意的事项。本内容主要用到CBAM通道和空间注意力机制,是一种卷积注意力模块。CBAM包括CAM和SAM两个子模块,通道注意力在前,空间注意力在后,输入特征图后,先进入通道注意力,经过全局平均池化(GAP)、全局最大池化(GMP)得到每个通道的特征值,然后通过多层感知机(MLP)计算每个通道的注意力权重,再使用Sigmoid函数将权重值归一化,最后将归一化的注意力权重逐通道与原始特征图相乘,完成了对原始特征的通道注意力标定。
[0057] (2)损失函数优化训练模型
[0058] 视频帧划分训练集和测试集后,进行损失函数训练模型,提高模型性能。FocalLoss是一种针对难分样本的损失函数,其核心思想是根据样本难易程度调整损失函数中每个样本的权重。当一个样本易于分类时,对应的权重较小;当一个样本难以分类时,对应的权重较大。
[0059] (3)特征金字塔优化网络模型
[0060] 引入了PANet结构,在FPN的自顶向下结构基础上添加了一条自底向上的路径,补充了FPN忽略的定位信息,将底层信息的强定位特征传递上去。网络模型基本训练完成,视频测试帧可输入网络模型进行预测。
[0061] 步骤3:基于上一帧的轨迹框通过卡尔曼滤波算法得到当前帧的预测轨迹框;
[0062] 具体地,利用卡尔曼滤波算法对目标运动轨迹进行预测和更新,预测是根据系统的状态方程,利用前一时刻的轨迹估计值,推算出当前时刻的轨迹的先验估计值以及对应的误差协方差先验估计值;更新是利用当前时刻的轨迹观测值,对预测阶段中得到的轨迹的先验估计值进行校正,以得到轨迹的最优估计值,即当前时刻的轨迹框。
[0063] 卡尔曼滤波是一种基于线性系统状态方程的算法,能够通过系统输入输出的观测数据来最优地估计系统状态。无论动态系统中是否存在不确定信息,卡尔曼滤波都可以协助预测系统的下一步状态,同时对各种干扰做出有根据的处理,通过这动方法,可以在平均意义上获得误差最小的真实信号估计值。卡尔曼滤波算法可以分为两个步骤:预测和更新。预测是根据系统的状态方程,利用前一时刻的状态估计值,推算出当前时刻的状态变量的先验估计值以及对应的误差协方差先验估计值,预测的过程可以看作是对当前状态的一个估计。公式如下:
[0064]
[0065] 更新是利用当前时刻的观测值,对预测阶段中得到的先验估计值进行校正,以得到状态变量的最优估计值,即当前时刻的后验估计值。公式如下:
[0066]
[0067] 其中 和 分别代表k‑1时刻和k时刻的后验估计值,即通过上一时刻的观测值更新后得到的最优估计结果。 是k时刻的先验估计值,它是根据上一时刻的最优估计值进行预测计算得到的当前时刻的估计值,即预测方程的结果。Pk‑1和Pk分别表示k‑1时刻和k时刻的后验估计协方差,而 则是k时刻的先验估计协方差,它用于衡量当前时刻估计值的精确程度。H用于将状态变量转换为测量值,即将状态和观测联系起来。zk表示观测值,作为滤波的输入,用于更新和纠正状态估计。Kk是滤波器的增益矩阵,用于权衡预测值和观测值之间的差异。A是状态转移矩阵,用于描述目标在不同时间点之间的运动规律和状态之间的关系。Q是系统过程的协方差矩阵,用于描述状态转移矩阵和实际过程之间的误差,即表示系统模型的不确定度。R是测量噪声协方差矩阵,用于描述测量误差的方差。B将输入信号转换为状态的矩阵。
[0068] 步骤4:利用DeepSort算法对当前帧的目标检测框和预测轨迹框进行多目标跟踪,分别获取目标检测框和预测轨迹框的运动特征和外观特征,并利用匈牙利算法对两者的运动特征和外观特征进行级联匹配,并利用IOU匹配算法进行匹配优化;
[0069] 具体地,对目标检测的关键人物应用多目标跟踪DeepSort算法,通过级联匹配和新轨迹确认来提高跟踪的准确性。将轨迹信息分为确认态和不确认态。新的轨迹信息是不确认态的,必须与目标检测框连续匹配一定次数才能转为确认态。确认态的轨迹信息必须与目标检测框连续失配一定次数才会被删除。
[0070] 首先利用卡尔曼滤波算法对目标运动轨迹进行预测和更新。预测是根据系统的状态方程,利用前一时刻的状态估计值,推算出当前时刻的状态变量的先验估计值以及对应的误差协方差先验估计值,预测的过程可以看作是对当前状态的一个估计。更新是利用当前时刻的观测值,对预测阶段中得到的先验估计值进行校正,以得到状态变量的最优估计值,即当前时刻的后验估计值。DeepSort采用具有匀速运动和线性观测模型的标准卡尔曼滤波器,引入8维向量来表示人物的位置信息和运动信息,进而实现更精确的位置追踪,减少目标误检的可能。同时,对于每个跟踪轨迹k,需要统计自上一次成功与测量相关联以来经过的帧数ak,该帧数在卡尔曼滤波的预测期间不断增加,但是当该轨迹再次成功与测量关联时,ak将被重置为0,而当ak超过预先定义的最大值时就会删除该轨迹。如果一个目标检测无法与任何现有轨迹成功匹配,那么会重新初始化一个新的轨迹信息,并将其标记为不确定状态。
[0071] 在接下来的三帧内,如果仍然无法成功关联到任何测量目标,则该轨迹将被删除。
[0072] 应用匈牙利算法解决卡尔曼滤波预测框和目标检测框之间的关联匹配问题。首先利用ResNet101网络来提取被检测物体的运动特征和外观特征,结合运动特征和外观特征来计算代价矩阵,利用余弦距离测算两个目标特征之间的相似性。最后引入CIOU匹配算法,,完成检测框和预测框的匹配,有效应对目标跟踪过程中的遮挡、重叠问题。具体关键目标人物跟踪模型如图3所示。关键目标人物跟踪流程图如图4所示。
[0073] CIOU匹配算法可度量预测框和真实框之间的重叠程度,其值越高代表模型预测越准确,反之,模型性能越差。
[0074]
[0075] 其中A为预测框,B为真实框,C为最小外接矩形面积,当A和B无重合部分时,GIOU的值越小代表两个元素之间距离越远,当两个框完全重合时,GIOU的值为1。
[0076] 作为一种实施例,本公开的基于级联匹配和轨迹确认的多目标跟踪检测方法应用过程为:
[0077] 利用改进的YOLOv5作为检测器,对跟踪视频中的当前帧图像进行识别获取检测框,然后基于卡尔曼滤波算法根据上一帧轨迹得到当前帧的预测轨迹框,利用改进的深度特征提取网络重新重识别行人特征,将检测框和预测框结合运动特征和外观特征利用匈牙利算法进行关联匹配,同时在级联匹配之后对IOU匹配算法进行优化,最后对匹配成功的检测框和预测框,使用卡尔曼滤波进行融合更新,替换原来的预测框,得到跟踪结果。
[0078] 根据跟踪结果集成工人危险行为,根据行为种类训练网络模型做分类问题。初步规定两种有效行为,分别是:翻越、未带安全帽。根据有效行为进行视频关键帧预处理,主要设置图像增强效果。经过增强处理后进行模型预训练,该处模型采用CNN网络。经过深度神经网络学习,实现视频集成后的目标识别,针对每个目标输入训练好的分类模型,得出预警信息。分辨属于A行为或者B行为。当出现AB行为时,数字视频监控网络将自动接入睿象云智能告警平台Cloud Alert,后端设备产生预警信息。
[0079] 视频集成到云端容易受到非法攻击,严重情况下可干扰工人正常施工过程,因此有一个安全的网络环境也是必须的。针对海量视频数据,利用视频生成的唯一噪声进行安全建设。将指纹噪声通过可逆信息隐藏技术以特定密码(视频生成噪声:PRNU)形式藏匿于视频序列中,可以防止非法攻击视频集成者。
[0080] 具体的,视频集成前逐帧分析图像。首先应用整数小波变换技术提取高频部分,高频部分可代表指纹信息特征。将指纹信息特征进行抑制,输出与源设备拍摄芯片指纹无关的图像。然后将抑制后的PRNU嵌入到上一步的输出图像中,以获得可逆性。嵌入方法采取基于CDM的可逆信息隐藏算法。扩频序列在基于CDM通信系统中起着重要的作用。一般采用Walsh Hadamard矩阵来推导扩展序列。它由“1”或“‑1”组成,每两行或两列彼此正交。基于扩展序列的正交性可嵌入秘密信息。可逆信息隐藏技术的一大优点即为可无损恢复嵌入信息及原始信息。因此在后端设备请求接入时,我们可以进行嵌入信息(PRNU)的恢复,和视频集成指纹信息做PCE匹配算法,规定若PCE值≥50时,认为有关联,则允许接入,进一步组织了非法设备的攻击。
[0081] 经过指纹信息抑制的监控视频信息,集成网络云端,部署于安全环境。通过目标检测与多目标跟踪进行关键人物跟踪,当视频工人出现两种规定的有效行为时,调用行为模块生成池代码,进行危险行为预分类。同时启动预警平台接入,发送预警信息至管理人员手机,供管理人员进行智慧决策。
[0082] 实施例2
[0083] 本公开的一种实施例中提供了一种基于级联匹配和轨迹确认的多目标跟踪检测系统,包括:
[0084] 数据获取模块,用于获取人员施工视频,将视频帧分解为多幅图像;
[0085] 识别模块,用于基于改进的YOLOv5网络识别当前帧图像中的目标,获取目标检测框,并基于上一帧的轨迹框通过卡尔曼滤波算法得到当前帧的预测轨迹框;
[0086] 多目标跟踪模块,用于利用DeepSort算法对当前帧的目标检测框和预测轨迹框进行多目标跟踪,分别获取目标检测框和预测轨迹框的运动特征和外观特征,并利用匈牙利算法对两者的运动特征和外观特征进行级联匹配,并利用IOU匹配算法进行匹配优化;
[0087] 将匹配成功的目标检测框和预测轨迹框再利用卡尔曼滤波算法进行融合更新,替换原始预测轨迹框,得到跟踪结果。
[0088] 实施例3
[0089] 本公开的一种实施例中提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的基于级联匹配和轨迹确认的多目标跟踪检测方法。
[0090] 实施例4
[0091] 本公开的一种实施例中提供了一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于级联匹配和轨迹确认的多目标跟踪检测方法。
[0092] 本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0093] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0094] 上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。