技术领域
[0001] 本发明属于图像处理与计算机视觉技术领域,具体涉及一种基于注意力机制的快速行为检测方法。
相关背景技术
[0002] 时空行为检测的主要任务是在视频中检测目标的行为类别,并对行为发生的时间和位置进行定位,是计算机视觉的重要研究领域。随着监控摄像、移动摄影设备的普及,对时空行为检测任务的需求日益增加,广泛应用于异常行为检测、质量监管、机场等各个场景和领域。然而,视频难以获取长时间的时序信息以及视频体量日益增大,导致了目前主流时空行为检测方法体量较大,检测速度较慢等问题。
[0003] 现有的时空行为检测方法主要分为双流网络和基于三维卷积的网络,并在近几年取得了较大的提升。然而,双流网络中光流只包含了短时间的时序信息,对于目前视频的长时间建模效果并不理想,对于类间差距较小的行为类别不能够进行有效地区分;三维卷积虽然在时序信息提取上获得了较大提升,但是需要消耗大量的计算资源,模型体量较大,检测速度较慢,难以进行广泛地应用。如何能够在减小网络体量的基础上,提升时空行为检测的准确率和检测速度具有重要的研究意义。
具体实施方式
[0019] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0020] 一种基于注意力机制的快速行为检测方法,如图1所示,包括:
[0021] S1:获取包含交互信息的待检测RGB视频,将待检测RGB视频以K帧连续帧进行片段划分;
[0022] S2:以端到端的时空行为检测网络YOWO建立快速行为检测模型;
[0023] 所述快速行为检测模型包括:时序检测模块、空间检测模块和交互处理模块;
[0024] 所述关键帧为视频连续帧的第一帧;
[0025] S3:通过快速行为检测模型的时序检测模块对交互信息和K帧连续帧进行时序特征检测,得到时序特征;
[0026] S4:在快速行为检测模型的空间检测模块中的DarkNet‑19特征提取器中增加残差模块,得到改进的DarkNet‑19特征提取器,通过改进的DarkNet‑19特征提取器对交互信息和关键帧进行特征提取,得到多尺度目标信息的特征图;
[0027] S5:根据多尺度目标信息的特征图在空间域中实现注意力机制,得到空间域的注意力机制特征;
[0028] S6:将时序特征和空间域的注意力机制特征视为n个不重叠特征图像,进行拼接融合,得到融合后的特征;
[0029] S7:快速行为检测模型的交互处理模块针对目标行为信息和其交互信息进行处理,得到目标信息和交互信息与环境信息的二阶关系;
[0030] S8:对融合后的特征和目标信息和交互信息与环境信息的二阶关系进行检测,得到视频中目标的时空行为检测结果。
[0031] 为了方便说明,本实施例中以尺寸224×224进行说明。对于原始RGB视频,将所有视频帧大小等比例调整为224×224。以K帧为一个片段进行输入时序检测模块中,K帧中第一帧为该片段的关键帧,输入至空间检测模块中。以步长为n的滑动窗口的方式对整段视频进行遍历,作为网络的输入。
[0032] 图2为本实施例空间域注意力机制结构示意图,如图2所示,空间域注意力机制由生成注意力机制参数支路和原始特征支路组成,从而得到更加准确的位置信息,加快训练收敛过程。
[0033] 通过快速行为检测模型的时序检测模块对交互信息和K帧连续帧进行时序特征检测,得到时序特征,包括:
[0034] 所述时序检测模块使用3D‑ResNet进行特征提取,3D‑ResNet结构基于ResNet和3D卷积网络的结合,由多个3D卷积层和残差块构成;
[0035] 利用交互信息中包含的标注信息,截取出对应交互物品的K帧连续帧,将交互信息和K帧连续帧进行堆叠,形成K×W×H×3的三维信息,输入到3D‑ResNet中进行特征提取,得到对应的时序特征图。
[0036] 所述改进的DarkNet‑19特征提取器,包括:
[0037] DarkNet‑19特征提取器由11层结构组成,其中包括6个卷积层和5个最大池化层,对DarkNet‑19特征提取器增加4个残差模块,分别为第2个最大池化层输出的特征与第3个卷积层输出的特征进行相加;第3个最大池化层输出的特征与第4个卷积层输出的特征进行相加;第4个最大池化层输出的特征与第5个卷积层输出的特征进行相加;第5个最大池化层输出的特征与第6个卷积层输出的特征进行相加;从而得到能够提取更多的浅层细粒度信息和多尺度目标信息的改进DarkNet‑19特征提取器。
[0038] 通过改进的DarkNet‑19特征提取器对交互信息和关键帧进行特征提取,得到多尺度目标信息的特征图,包括:
[0039] S41:利用交互信息中包含的包围框信息,截取出交互物品图像;
[0040] S42:将关键帧图像和与其匹配的交互物品图像,形成W×H×3的二维信息,输入到改进的DarkNet‑19特征提取器中输出关键帧和交互信息的多尺度目标信息特征图。
[0041] 根据多尺度目标信息的特征图在空间域中实现注意力机制,得到空间域的注意力机制特征,包括:
[0042] S51:将多尺度目标信息的特征图使用正弦函数进行位置编码;
[0043] S52:将位置编码输入全连接层中进行卷积核大小为1×1卷积操作,并通过ReLU激活函数输出卷积结果,输出结果使用softmax层进行逻辑回归,得到空间域注意力机制参数θ;
[0044] S53:根据空间域注意力机制参数θ和位置编码前的原始特征图通过双线性采样,得到输空间域的注意力机制特征的特征图V。
[0045] 将多尺度目标信息的特征图使用正弦函数进行位置编码,包括:
[0046]
[0047] 其中,H和W分别表示特征的高和宽。
[0048] 将时序特征和空间域的注意力机制特征视为n个不重叠特征图像,进行拼接融合,得到融合后的特征,包括:
[0049] S61:将时序特征和空间域的注意力机制特征视为n个不重叠图像,从而生成一个二维的输入表,设定输入特征大小为(H,W),图像分辨率为(l,l),使得所有patch具有同样的投影矩阵,获得的各个权重;
[0050] S62:先对每一列进行操作,共享所有列的权重;再对每一行进行操作,共享所有行的权重,从而对特征进行进一步提取,得到多个相对独立的特征图像;
[0051] S63:使用卷积层对相对独立的特征图像进行特征融合,得到融合特征。
[0052] 获得的各个权重,包括:
[0053] W=Wjzj,j=1,2,...,n
[0054] 其中,Zj表示第j张图像,Wj表示第j张图像每一列或每一行的权重,n表示特征图像数量。
[0055] 使用卷积层对相对独立的特征图像进行特征融合,得到融合特征,包括:
[0056]
[0057] 其中,PE表示融合后的特征,Wk表示第k张特征图像的权重,Zk表示第k第j张特征图像,n表示特征图像数量。
[0058] 快速行为检测模型的交互处理模块针对目标行为信息和其交互信息进行处理,得到与环境信息的二阶关系,包括:
[0059] S71:对目标信息和交互信息进行编码,将目标特征信息复制并连接到交互特征信息的所有H×W的空间位置,得到行为连接的特征图 其中,x,y表示在目标目标i在空间中所在位置;
[0060] S72:将 作为目标信息和交互信息的一届关系,将所有目标信息和交互信息的一届关系输入到交互处理模块中,获取与环境信息的二阶关系。
[0061] 将所有目标信息和交互信息的一届关系输入到交互处理模块中,获取与环境信息的二阶关系,包括:
[0062]
[0063] 其中, 表示目标信息和交互信息与环境信息的二阶关系, 表示目标信息的特征, 表示所对应的特征权重,x,y表示在目标i在空间中所在位置。
[0064] 对融合的特征和二阶关系进行检测,得到视频中目标的时空行为检测结果,包括:
[0065] 对对融合的特征和目标信息和交互信息与环境信息的二阶关系进行预测,设定片段中最大目标数为32,通过回归卷积对目标进行定位,从而生成该片段的链路通道,对该通道特征进行分类,得到行为类别。
[0066] 设定网络训练的batch size为16,总的迭代次数为100个epoche,学习率为10‑3设定权重衰减因子为0.0005,动量因子设置为0.9。
[0067] 网络在训练过程中,自动计算链路通道和ground truth的时空交并比,即,行为发生所在区域和起始时间与ground truth的交并比。链路通道的匹配原则为:对于片段中每个ground truth,找到与其时空交并比最大的链路通道,该链路通道与其匹配并判定其为正样本,反之,若一个链路通道没有与任何ground truth进行匹配,则该链路通道与背景匹配,则判定为负样本。对于剩余的未匹配链路通道,若某个ground truth的时空交并比大于阈值0.5,那么该链路通道也与这个ground truth进行匹配。
[0068] 网络的损失函数包括回归损失和分类损失为:
[0069]
[0070] 其中,N为链路通道的正样本数量,c为类别置信度预测值,l为预测值,而g是ground truth的位置参数,α为权重系数,设置为1。
[0071] 测试过程则自动根据网络参数进行前向传播,从而预测出目标所在位置信息、类别信息和持续时间,由于同一个目标预测的链路通道可能有多个,因此采用NMS算法滤掉重复的链路通道,NMS的阈值可根据实际场景调整,参考设置为0.35。
[0072] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。