首页 / 一种人物识别模型训练方法以及人物识别方法

一种人物识别模型训练方法以及人物识别方法有效专利 发明

技术领域

[0001] 本申请涉及图像处理技术领域,具体而言,涉及一种人物识别模型训练方法以及人物识别方法。

相关背景技术

[0002] 城市治安监控系统能够为交通、治安等各类案件的侦破提供技术支持,大大提高公安机关执法办案的水平和效率。城市治安监控系统包括设置在城市不同位置的摄像头,通过摄像头能够获得对人物、车辆的监控视频。在基于城市治安监控系统获取的监控视频对案件进行侦破的时候,通常需要联合多个监控视频,从多个监控视频中识别出目标人物,进而对目标人物的行为,例如移动方向、出现的地点等进行分析,获得侦查线索。
[0003] 但是由于位于不同监控位置的拍摄像头的生产厂家不一样,摄像头的硬件不同;硬件的差异导致不同厂家生产的摄像头对输入信号的处理方式不同,会导致人物的通过摄像头时的行走曲线是不一样的,人物通过不同摄像头的时空分布明显存在差异,这就造成基于这些摄像头获得的监控视频,对人物识别模型训练难度大。

具体实施方式

[0025] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026] 目前治安监控系统通过在监控场景布置安装位置不同的摄像头,以实现对监控场景的监控。但是由于下述情况的存在,很难对监控到的人物进行自动识别:
[0027] 其一,不同位置的生产厂家可能会有所区别,不同厂家生产的摄像头可能会采用不同的硬件,而硬件的差异又会导致生产厂家不同的摄像头对输入信号的处理方式有所区别,导致人物通过摄像头时的时空分布存在明显差异,时空的差异造成自动识别难的问题。
[0028] 其二,摄像头获取的人物在运动状态下的图像会存在抖动和画质模糊的情况,这些图像由于质量太差,无法用于对人物的重识别。
[0029] 其三,不同的摄像头所获取的图像质量有所区别,质量不同的摄像头所获取的图像存在明显的差异特征,使用质量不同的视频对人物识别模型进行训练比较困难。
[0030] 基于此,本申请实施例提供的一种人物识别模型训练方法以及人物识别方法,用以解决上述问题。
[0031] 参见图1所示,本申请实施例提供的人物识别模型训练方法包括:
[0032] S101:基于训练视频生成者对所输入信号处理方式不同,对多个训练视频进行分类。
[0033] 在具体实现的时候,训练视频生成者可以是摄像头,摄像头能够直接获取监控视频,将摄像头直接获取的监控视频作为训练视频生成者。另外,由于监控场景很多情况下都是基于远程进行监控的。也即摄像头在获取了监控视频后,需要基于互联网将监控视频发送至监控中心。摄像头是监控视频的直接获取设备;为了在将监控视频发送至监控中心的时候,保证数据的流畅传输以及降低对互联网的压力,摄像头还会连接编码设备,使用编码设备对监控视频进行编码压缩后通过互联网发送给监控中心;此时可以将编码设备作为训练视频生成者。另外,针对不同的实际情况还可以有其他的训练视频生成者。
[0034] 以训练视频生成者为摄像头为例对本申请实施例加以说明。摄像头的硬件区别,是造成摄像头对输入信号处理方式不同的主要原因;对输入信号处理方式不同,人物在通过摄像头时的速度正态分布曲线不同。
[0035] 参见图2所示,可以采用下述步骤,基于训练视频生成者对所输入信号处理方式不同,对多个训练视频进行分类:
[0036] S201:确定每个训练视频的人物速度正态分布曲线。
[0037] S202:根据得到的人物速度正态分布曲线之间的相似度,对多个训练视频进行分类。
[0038] 在具体实现的时候,若摄像头的硬件相同,则摄像头对输入信号处理方式是比较接近的,对输入信号处理的方式接近,则人物通过摄像头时,对于摄像头而言,人物的速度正态分布曲线的形状也是相似的。因此可以通过确定每个训练视频的人物速度正态分布曲线之间的相似度,来对训练视频进行分类。
[0039] 具体地,参见图3所示,本申请实施例提供一种确定每个训练视频的人物速度正态分布曲线的具体方法,包括:
[0040] S301:针对每个训练视频中的每个人物,确定该训练视频的样本训练图像帧中该人物的位置及样本训练图像帧的时间戳。
[0041] 在具体实现的时候,视频由多张具有时序的图像构成的。且为了实现视频的播放,具有时序的图像会对应有时间戳。
[0042] 在本申请中,样本训练图像帧即为训练视频中多张具有时序的图像。当人物通过摄像头时,人物在不同的训练图像帧中表现为位于该摄像头拍摄场景下的不同位置。在相邻的两张训练图像帧中,人物在两张训练图像帧中的位移,即为在该场景下,人物走过的路程;人物走过该路程所耗费的时间,即为两张训练图像帧的时间戳之差。
[0043] 为每个训练视频中的每个人物确定其在训练视频的样本训练图像帧中该人物的位置的过程,是对该人物在每张训练图像帧中出现位置进行标注的过程。
[0044] 可以采用人工标注的方法进人物位置的标注,在进人物位置标注的时候,除了要在训练图像帧中圈定人物的具体位置以外,还要每张训练图像帧中的每个人物添加标签,该标签用于指示在该训练图像帧中,人物的具体身份。
[0045] 另外,也可以采用人物检测的方法在训练图像帧中标注人物位置,然后利用物体运动曲线检测的方法,或者采用人工标注的方法,为每张训练图像帧中的每个人物标注标签。
[0046] 每张训练图像帧的时间戳是训练图像帧的固有属性,可以直接从训练视频文件中读取。
[0047] S302:根据各相邻样本训练图像帧中该人物的位置以及时间戳之间的差值确定该人物移动速度并生成该人物的速度正态分布曲线。
[0048] 在具体实现的时候,可以使用S301中标注的每张训练图像帧中同一个人物的人物位置,以及相邻的训练图像帧的时间戳之差来计算,人物从相邻的两张训练图像帧中,从位于前一帧的训练图像帧中所标注的人物位置置,运动到位于候后一帧训练图像帧中所标注的人物位置的平均速度,然后基于所得到的每相邻的两张训练图像帧得到的平均速度,对每个人物的速度正态分布曲线进行拟合,得到每个人物的速度正态分布曲线。
[0049] 例如,训练视频包括训练图像帧A、B、C、D、E、F、G共7张训练图像帧;每相邻的两张训练图像帧之间的时间戳之差为0.5秒;甲某在该训练视频中移动,且其在训练图像帧A中的位置,与其在训练图像帧B中的位置距离之差为1;其在训练图像帧B中的位置,与其在训练图像帧C中的位置距离之差为1.1;其在训练练图像帧C中的位置,与其在训练图像帧D中的位置距离之差为1.3;其在训练图像帧D中的位置,与其在训练图像帧E中的位置距离之差为1.1;其在训练图像帧E中的位置,与其在训练图像帧F中的位置距离之差为1.0;其在训练图像帧E中的位置,与其在训练图像帧F中的位置距离之差为0.95,则可以计算出该甲某从训练图像帧A中的位置,运动到训练图像帧G中的位置,平均速度依次为:2、2.2、2.4、2.6、2.2、1.9。则根据上述平均速度,拟合得到甲某的速度正态分布曲线如图4所示。
[0050] S303:针对每个训练视频,为该训练视频中多个人物速度正态分布曲线生成包络;并将生成的包络确定为该训练视频的人物速度正态分布曲线。
[0051] 在具体实现的时候,这里的多个人物速度正态分布曲线的包络是指与多个人物速度正态分布曲线中任意一条都相切的曲线。在同一个训练视频中,在人物以匀速运动通过摄像头的监控场景时,在人物不出现相对于摄像头而言角度过大的行进方向变化时,多个人物的速度正态分布曲线的形状是类似的。为形状类似的多个人物的速度正态分布曲线生成的包络的形状也与多个人物的速度正态分布曲线类似,因此为多个人物的速度正态分布曲线生成的包络,实际上能够表征人物在通过摄像头时,速度相对于摄像头的变化,进而将为该训练视频中多个人物速度正态分布曲线生成包络确定为该训练视频的人物速度正态分布曲线。
[0052] 在生成训练视频的人物速度正态分布曲线后,要根据得到的人物速度正态分布曲线之间的相似度,对多个训练视频进行分类。将人物速度正态分布曲线之间的相似度在预设相似度范围之内的训练视频分为一类。
[0053] 另外,由于不同的厂家在生产摄像头时,采用的硬件通常是一致的。或者对于其所生产的某一型号的摄像头,所使用的硬件是相同的,因此还可以基于训练视频生成者的生产厂家或者型号对训练视频生成者所生成的训练视频进行分类。将生产厂家相同,或者将型号相同的训练视频生成者产生的训练视频分为一类。
[0054] S102:将第一类别的训练视频的训练图像帧作为源域数据,将第二类别的训练视频的训练图像帧作为目标域数据输入目标神经网络,对所述目标域数据进行迁移学习,得到完成训练的目标神经网络和目标分类器;
[0055] 所述第一类别为对多个训练视频进行分类所得到的多个类别中的一个;所述第二类别为对多个训练视频进行分类所得到的多个类别除第一类别以外的类别。
[0056] 在具体实现的时候,源域数据为携带有标签的数据,该标签用于指示源域数据的正确分类结果;目标域数据为不携带标签的数据。在将源域数据和目标域数据输入同一个目标神经网络后,该神经网络对源域数据以及目标域数据进行共享参数的特征学习。将第一类别的训练视频的训练图像帧作为源域数据,将第二类别的训练视频的训练图像帧作为目标域数据输入至目标神经网络,对所述目标域数据进行迁移学习的过程,实际上是要使目标神经网络学习到源域数据特征的同时,还能够学习到源域数据和目标域差异特征。
[0057] 为了实现上述目的,目标神经网络会对源域数据进行有监督学习,而对目标域数据进行无监督学习,在使用同一目标神经网络对源域数据和目标域数据进行共享参数的学习过程中,会不断调整神经网络中所使用的参数,从而在对神经网络训练的过程中,让神经网络的参数受到目标域数据的影响,进而使得目标神经网络每个源域数据进行特征提取所得到的源域特征向量会受到目标域数据的干扰,使得为源域数据所提取的源域特征向量会具有部分目标域数据的特征;同样的,在对每个目标域数据进行特征提取所得到的目标域特征向量会受到源域数据的干扰,使得为目标域数据提取目标域向量会具有部分源域数据的特征,最终实现源域数据和目标域数据的域间混合。
[0058] 在将目标域数据输入至目标神经网络后,为目标域数据提取的特征向量会更加趋向于源域数据,使得目标分类器对源域数据进行分类的结果的准确程度增高。
[0059] 此处,在对目标域数据进行迁移学习的时候,包括如下两个过程:
[0060] 第一:使用目标神经网络为源域数据提取源域特征向量,为目标域数据提取目标特征向量,然后将源域特征向量和目标域特征向量输入至域分类器,得到通过源域特征向量表征的源域数据的域分类结果,以及通过目标域特征向量表征的目标域数据的域分类结果,并基于域分类结果,对目标神经网络以及域分类器进行参数调整。
[0061] 基于域分类结果,对目标神经网络以及域分类器进行参数调整,是要根据源域数据和目标域数据的域分类结果,计算源域数据和目标域数据分别对应的域分类损失,然后基于源域数据和目标域数据对应的域分类损失,对目标神经网络和域分类器的参数进行调整。该源域数据对应的域分类损失是指域分类器在基于源域特征向量对源域数据所属的域进行分类时,错将源域数据分类为目标域数据的结果数量。目标域数据对应的域分类损失是指域分类器在基于目标域特征向量对目标域数据所述的域进行分类时,错将目标域数据分类为源域数据的数量。
[0062] 当源域数据和目标域数据的域分类结果是错误的时候,就要调整目标神经网络和域分类器的参数,直至域分类器对所有源域数据和目标域数据的域分类结果完全正确。
[0063] 其二,将目标神经网络为源域数据提取的源域特征向量输入至目标分类器,使用目标分类器对源域特征向量表征的源域数据进行分类,并将目标分类器对源域特征向量表征的源域数据进行分类的结果与源域数据的标签进行比对,若有不一致,则调整目标神经网络和目标分类器的参数,再次进行训练,直至目标分类器对源域数据的分类结果完全正确。
[0064] 此处,需要注意的是,由于第二类别的训练视频的训练图像帧中,可能会包括多个人物。为了为每个人物提取目标域特征向量,需要在将第一类别的训练视频的训练图像帧作为源域数据,将第二类别的训练视频的训练图像帧作为目标域数据输入目标神经网络,对所述目标域数据进行迁移学习之前,目标域数据中每个人物的位置标注出来。该标注可以采用特征匹配的方式进行标注,也可以采用人工方式进行标注。
[0065] 在将目标域数据中每个人物的位置标注出来后,就能够基于为目标域数据中每个人物标注的位置,提取目标域数据中与每个人物对应的目标域特征向量。
[0066] 另外,在本申请另一实施例中,为了加快人物识别模型训练过程中的收敛速度,还在将第一类别的训练视频的训练图像帧作为源域数据,将第二类别的训练视频的训练图像帧作为目标域数据输入目标神经网络,对所述目标域数据进行迁移学习之前,将第一类别的训练视频的训练图像帧作为源域数据输入目标神经网络,对目标神经网络以及目标分类器进行训练;其中,源域数据对训练图像帧中的人物进行了标注。
[0067] 在具体实现的时候,在基于训练视频生成者对输入信号处理方式的不同,对多个训练视频进行分类后,每一类中的训练视频的图像质量均是相似的。属于同一类的训练视频中的训练图像帧具有共同的特点。若能够使用具有共同特点的训练图像帧对目标神经网络进行训练,则目标神经网络能够更容易学习到这些属于同一类别的训练图像中的训练图像帧具有的共同特点。
[0068] 在使用第一类别的训练视频的训练图像帧作为源域数据输入目标神经网络之前,需要对作为源域数据的训练图像帧进行人物的标注。在对源域数据的训练图像帧进行人物标注的时候,要圈定人物在训练图像帧中出现的位置,以及为该位置的人物标注标签。该标签用于指示该人物的身份。
[0069] 本申请实施例还提供一种将第一类别的训练视频的训练图像帧作为源域数据输入目标神经网络,对目标神经网络以及目标分类器进行训练方法,包括:
[0070] 使用所述目标神经网络为所述源域数据提取特征向量;
[0071] 将所述特征向量输入至所述目标分类器,得到所述源域数据的分类结果;以及基于所述源域数据的分类结果以及为所述源域数据标注的标签,对所述目标神经网络以及所述目标分类器的参数进行调整。
[0072] 在具体实现的时候,目标神经网络可以采用卷积神经网络(Convolutional Neural Network,CNN)来为源域数据提取特征向量。使用源域特征向量对目标分类器进行训练,
[0073] 使用源域数据对目标神经网络进行训练,是要让目标神经网络学习到源域数据所具有的特征。
[0074] 在将源域数据的特征向量输入至目标分类器后,分类器基于特征向量为源域数据进行分类的结果数量,与该源域数据中所标注的人物的数量相同。在得到源域数据的分类结果后,要将分类结果与源域数据包括的人物的标签进行比对。若目标分类器对标注出来的人物的分类结果,和为该人物标注的标签不相同,则调整目标神经网络和目标分类器的参数,所有目标分类器对标注出来的人物的分类结果和为该人物标注的标签相同为止,完成基于源域数据对目标神经网络和目标分类器的训练。
[0075] 在本申请另一实施例中,在基于为所述目标域数据中每个人物标注的位置,提取所述目标域数据中与每个人物对应的目标域特征向量之后,还包括:
[0076] 1、计算目标数据域中每个人物的目标域特征向量与所述源域数据中已标注人物的源域特征特征向量之间的余弦相似度。
[0077] 在具体实现的时候,可以目标域数据中某个人物的目标域特征向量与源域数据中已标注人物的源域特征向量之间的余弦相似度越大,则认为两个人为同一个人的概率就越大。
[0078] 2、若源域数据中存在已标注人物与所述目标域数据中任一人物的余弦相似度不小于预设的余弦相似度阈值,则确定该任一人物与对应已标注人物为同一个人。
[0079] 此处,为了确定源域数据和目标域数据中是否有同一人物,可以将源域数据中存在已标注人物与所述目标域数据中任一人物的余弦相似度和预设的预先相似度阈值进行比对;若余弦相似度阈值不小于预设的余弦相似度阈值,就认为目标域数据中的上述任一人物与源域数据中对应已标注人物为同一个人。
[0080] 或者,
[0081] 3、若存在预设数量的训练图像帧,其分别对应的目标域数据中均存在任一人物,各任一人物与所述源域数据中同一已标注人物余弦相似度不小于预设的余弦相似度阈值,则确定各任一人物与对应已标注人物为同一个人。
[0082] 在确定了目标域数据中的上述任一人物与源域数据中对应已标注人物为同一个人后,可以将源域数据对应的已标注人物的标签,作为该任一人物对应的目标域数据的分类结果。
[0083] 在得到该任一人物对应的目标域数据的分类结果后,还能够将该任一人物对应的目标域数据的分类结果作为该任一人物的标签,将该任一人物对应的目标域数据作为源域数据,对目标神经网络进行训练。
[0084] 本申请实施例在对人物识别模型进行训练的时候,首先会基于训练视频生成这对输入信号处理方式的不同,对多个训练视频进行分类,将人物的通过摄像头时的行走曲线类似的训练视频划归到一类后,将对训练视频分类的第一类别的训练视频的训练图像帧作为源域数据,将第二类别的训练视频的训练图像帧作为目标域数据输入目标神经网络,对所述目标域数据进行迁移学习,使得模型在训练过程中,能够先对训练视频中具有共同特征的训练视频帧进行学习,然后再按照训练视频对应的类别,对训练视频进行分别学习,降低模型训练的难度。
[0085] 另外,在本申请另一实施例中,由于第二类别有多个,且不同的第二类别中训练视频的人物速度正态分布曲线和第一类别中训练视频的人物速度正态分布曲线的相似性程度是不一样的。第二类别中训练视频的人物速度正态分布曲线和第一类别中训练视频的人物速度正态分布曲线的相似性越高,则目标神经网络越能够学习到该第二类别中训练视频中的训练图像帧,和第一类别中训练视频中的训练图像帧之间的差异性特征。
[0086] 因此,在将第一类别的训练视频的训练图像帧作为源域数据,将第二类别的训练视频的训练图像帧作为目标域数据输入目标神经网络,对所述目标域数据进行迁移学习之前,还包括:
[0087] 计算第二类别的训练视频的人物速度正态分布曲线和第一类别的训练视频的人物速度正态分布曲线之间的相似度。
[0088] 按照相似度从大到小的顺序,确定当前第二类别;
[0089] 将第一类别的训练视频的训练图像帧作为源域数据,以及当前第二类别的训练视频的训练图像帧作为目标域数据,输入至目标神经网络,对所述目标域数据进行本轮迁移学习;
[0090] 对所述目标域数据进行本轮迁移学习后,执行确定当前第二类别的步骤;
[0091] 其中,当前第二类别为所有所述第二类别中,没有对目标神经网络训练过的第二类别。
[0092] 如此能够按照第一类别的练视频的人物速度正态分布曲线和第一类别的训练视频的人物速度正态分布曲线之间的相似度从大到小的顺序,依次将第二类别的训练视频的训练图像帧输入到目标神经网络,以实现按照目标域数据的训练从易到难的顺序对目标神经网络进行训练,即时不同的摄像头所获取的图像质量有所区别,质量不同的摄像头所获取的图像存在明显的差异特征,也能够逐步对差异性特征进行学习,降低对模型训练的困难程度。
[0093] 本申请实施例还提供另外一种人物识别模型训练方法,该方法还包括:
[0094] 对每个训练视频的训练图像帧进行画面质量增强处理。
[0095] 在具体实现的时候,摄像头获取的人物在运动状态下的图像会存在抖动和画质模糊的情况,这些图像由于质量太差,无法用于对人物的重识别。为了提高这部分训练视频的可用性,还可以在使用训练视频对人物识别模型训练之前,对训练视频的训练图像帧进行画面质量增强处理。
[0096] 参见图5所示,本申请实施例还提供一种对训练视频进行画面质量增强的方法,包括:
[0097] S501:从训练视频当前位置获取第一预设帧数的连续图像。
[0098] 在具体实现的时候,训练视频由多张具有时序的图像组成,在使用压缩技术对视频编码的后,会造成组成训练视频的每张图像的画质都有一定程度的下降,并且不同图像的画质下降程度可能不同。以高效视频编码(High Efficiency Video Coding,HEVC)压缩编码下的视频为例,从处于质量低谷的图像到与其相邻的处于质量顶峰的图像之间相差6帧左右的图像;而其它格式压缩编码下的视频,从处于质量低谷的图像到与其相邻的处于质量顶峰的图像之间相差数量更多或更少的图像。因此为了实现基于处于质量顶峰的图像对其它图像进行图像质量增强,需要从视频的当前位置获取第一预设帧数的连续图像。
[0099] 第一预设帧数可以根据实际的需要进行具体的设定,也即,该第一预设帧数可以根据压缩技术所生成的视频中,处于质量低谷的图像到与其相邻的处于质量顶峰的图像之间的帧数差别来进行具体设定。例如假若视频是采用HEVC进行压缩编码的,则可以将该第一预设帧数设定为3帧至6帧中任意一种。
[0100] S502:检测第一预设帧数的连续图像中是否包括满足预设质量条件的基准图像。
[0101] 在具体实现的时候,当获取了第一预设帧数的连续图像后,要对所获取的连续图像的图像质量进行检测或者评估,检测其中是否包括预设质量条件的基准图像。
[0102] 此处,预设质量条件可以根据实际的需要进行具体的设定;对于不同的视频来说,其图像质量实际上的呈现不同的趋势的,部分视频所包括的图像整体质量较高,可以将该预设质量条件设置的较为严格一些;对于包括的图像整体质量较低的视频,可以将预设质量条件设置的较为宽松一些。
[0103] 具体地,可以采用下述方式中任意一种检测第一预设帧数的连续图像中是否包括满足预设质量条件的基准图像:
[0104] 其一:基于无参考图像质量评估方法对第一预设帧数的连续图像的质量进行评价,找到满足预设质量条件的基准图像。
[0105] 无参考图像质量评估方法(No Reference Image Quality Assessment,NR-IQA),即没有原始图像信息作为参考的图像质量评估方法。无参考图像质量评估方法有多种实现方式,可以是常规的评估方法,例如计算反映图像质量的相应指标,以衡量图片的质量,也可以是基于机器学习的方法、或者基于图像信息熵的无参考图像质量评估方法等。
[0106] 其二:将第一预设帧数的连续图像输入至预先训练好的二值分类器,[0107] 根据二值分类器对第一预设帧数的连续图像的分类结果判断是否包括满足预设质量条件的基准图像。
[0108] 在具体实现的时候,二值分类器是预先使用符合预设质量条件的训练图像进行训练而得到。在对所获得的连图图像进行质量检测的时候,可以将得到的连续图像依次输入至该预先训练好的二值分类器,二值分类器能够输出各图像的二值分类结果,为:满足预设质量条件,或不满足预设质量条件。
[0109] S503:若从训练视频当前位置获取的第一预设帧数的连续图像中包括了满足预设质量条件的基准图像,将第一预设帧数的连续图像中除基准图像外的图像作为待重构图像,基于基准图像对待重构图像执行图像重构处理。
[0110] 该实施例在对训练视频进行画面质量增强的时候,首先要从当前位置获取第一预设帧数的连续图像,然后从获得的连续图像中,检测是否包括满足预设质量条件的基准图像。若存在基准图像,则基于该基准图像,对所获取的连续图像中的其他图像进行图像重构处理,也即能够基于质量较高的图像对质量较低的图像进行重构,因而对于本身质量较差的图像而言,其重构后会在很大程度上受到质量较高的图像的影响,能够较大程度地提升这部分图像的质量。并且,从获得的连续图像中,基准图像与其他图像的画面内容通常差别很小,使用基准图像对其他图像进行增强处理,能够使得处理结果较为“平滑”,画质增强的效果更好。
[0111] 基于基准图像对待重构图像执行图像重构处理,具体包括如下步骤:
[0112] 将基准图像以及待重构图像输入至卷积神经网络,为基准图像提取第一特征向量,并为待重构图像提取第二特征向量。
[0113] 对第一特征向量和第二特征向量进行加权叠加处理,得到重构特征向量。
[0114] 基于重构特征向量得到重构图像,使用重构图像替换待重构图像。
[0115] 对第一特征映射和第二特征映射进行加权叠加,可以分为两个过程,加权和叠加。加权即为按照预设的比重系数,对第一特征映射和第二特征映射进行加权处理。此处,第一特征映射和第二特征映射均对应有比重系数,切第一特征映射的比重系数大于第二特征映射的比重系数,且第一特征映射的比重系数和所第二特征映射的比重系数的和等于1。
[0116] 基于同一发明构思,本申请实施例中还提供了与人物识别模型训练方法对应的人物识别模型训练装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述人物识别模型训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0117] 参见图6所示,本申请实施例所提供的一种人物识别模型训练装置包括:
[0118] 分类模块61,基于训练视频生成者对所输入信号处理方式不同,对多个训练视频进行分类;
[0119] 第一训练模块62,用于将第一类别的训练视频的训练图像帧作为源域数据,将第二类别的训练视频的训练图像帧作为目标域数据输入目标神经网络,对所述目标域数据进行迁移学习,得到完成训练的目标神经网络和目标分类器;
[0120] 所述第一类别为对多个训练视频进行分类所得到的多个类别中的一个;所述第二类别为对多个训练视频进行分类所得到的多个类别除第一类别以外的类别。
[0121] 可选地,分类模块61具体用于:确定每个训练视频的人物速度正态分布曲线;
[0122] 根据得到的人物速度正态分布曲线之间的相似度,对多个训练视频进行分类。
[0123] 可选地,分类模块61具体用于通过下述步骤确定每个训练视频的人物速度正态分布曲线:
[0124] 针对每个训练视频中的每个人物,确定该训练视频的样本训练图像帧中该人物的位置及样本训练图像帧的时间戳;
[0125] 根据各相邻样本训练图像帧中该人物的位置以及时间戳之间的差值确定该人物移动速度并生成该人物的速度正态分布曲线;
[0126] 针对每个训练视频,为该训练视频中多个人物速度正态分布曲线生成包络;并将生成的包络确定为该训练视频的人物速度正态分布曲线。
[0127] 可选地,第一训练模块62,具体用于:使用所述目标神经网络,为作为所述源域数据提取源域特征向量,并为所述目标域数据提取目标特征向量;
[0128] 将所述源域特征向量和所述目标域特征向量输入至域分类器,得到所述源域数据和所述目标域数的域分类结果;
[0129] 基于所述域分类结果,对所述目标神经网络以及所述域分类器进行参数调整;
[0130] 以及,
[0131] 将所述源域特征向量输入至目标分类器,得到所述源域数据的分类结果;
[0132] 基于所述源域数据的分类结果,对所述目标神经网络以及所述目标分类器进行参数调整。
[0133] 可选地,第一训练模块62,具体用于通过下述步骤为所述目标域数据提取目标特征向量:
[0134] 基于为所述目标域数据中每个人物标注的位置,提取所述目标域数据中与每个人物对应的目标域特征向量。
[0135] 可选地,还包括:结果确定模块63,用于为所述目标域数据中每个人物标注的位置,提取所述目标域数据中与每个人物对应的目标域特征向量之后,
[0136] 计算目标数据域中每个人物的目标域特征向量与所述源域数据中已标注人物的源域特征特征向量之间的余弦相似度;
[0137] 若所述源域数据中存在已标注人物与所述目标域数据中任一人物的余弦相似度不小于预设的余弦相似度阈值,则确定该任一人物与对应已标注人物为同一个人;或者[0138] 若存在预设数量的训练图像帧,其分别对应的目标域数据中均存在任一人物,各任一人物与所述源域数据中同一已标注人物余弦相似度不小于预设的余弦相似度阈值,则确定各任一人物与对应已标注人物为同一个人。
[0139] 可选地,还包括:计算模块64,用于计算所述第二类别的训练视频的人物速度正态分布曲线和第一类别的训练视频的人物速度正态分布曲线之间的相似度;
[0140] 第一训练模块62具体用于:按照相似度从大到小的顺序,确定当前第二类别;
[0141] 将第一类别的训练视频的训练图像帧作为源域数据,以及将当前第二类别的训练视频的训练图像帧作为目标域数据,输入至所述目标神经网络,对所述目标域数据进行本轮迁移学习;
[0142] 对所述目标域数据进行本轮迁移学习后,执行确定当前第二类别的步骤;
[0143] 其中,当前第二类别为所有所述第二类别中,没有对目标神经网络训练过的第二类别。
[0144] 可选地,还包括第二训练模块65,用于将第一类别的训练视频的训练图像帧作为源域数据输入目标神经网络,对所述目标神经网络以及目标分类器进行预训练;其中,所述源域数据对训练图像帧中的人物进行了标注。
[0145] 可选地,还包括增强处理模块66,用于对每个训练视频的训练图像帧进行画面质量增强处理。
[0146] 对应于图1中的人物识别模型训练方法,本申请实施例还提供了一种计算机设备,如图7所示,该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序,其中,上述处理器2000执行上述计算机程序时实现上述人物识别模型训练方法的步骤。
[0147] 具体地,上述存储器1000和处理器2000能够为通用的存储器和处理器,这里不做具体限定,当处理器2000运行存储器1000存储的计算机程序时,能够执行上述人物识别模型训练方法,从而解决由于摄像头的硬件不同造成人物通过不同摄像头的时空分布明显存在差异,导致了人物识别模型训练难度大的问题,进而达到多个训练视频进行分类,将人物的通过摄像头时的行走曲线类似的训练视频划归到一类,训练的时候,采用分类别为人物识别模型输入训练视频的方法,降低模型训练的难度的效果。
[0148] 对应于图1中的人物识别模型训练方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述人物识别模型训练方法的步骤。
[0149] 具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述人物识别模型训练方法,从而解决由于摄像头的硬件不同造成人物通过不同摄像头的时空分布明显存在差异,导致了人物识别模型训练难度大的问题,进而达到多个训练视频进行分类,将人物的通过摄像头时的行走曲线类似的训练视频划归到一类,训练的时候,采用分类别为人物识别模型输入训练视频的方法,降低模型训练的难度的效果。
[0150] 参见图8所示,本申请实施例还提供一种人物识别方法,该方法包括:
[0151] S801:获取待识别视频;
[0152] S802:使用通过如本申请任意一实施例所述的人物识别模型训练方法得到的人物识别模型对所述待识别视频中的人物进行识别;
[0153] 所述人物识别模型包括:目标神经网络以及目标分类器。
[0154] 参见图9所示,本申请实施例还提供杨总人物识别装置,该装置包括:
[0155] 待识别视频获取模块91,用于获取待识别视频;
[0156] 识别模块92,用于使用通过如本申请任意一实施例所述的人物识别模型训练方法得到的人物识别模型对所述待识别视频中的人物进行识别;
[0157] 所述人物识别模型包括:目标神经网络以及目标分类器。
[0158] 本申请实施例所提供的人物识别模型训练方法以及人物识别方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0159] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0160] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0161] 以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

当前第1页 第1页 第2页 第3页
相关技术
方法人物相关技术
模型训练相关技术
孙源良发明人的其他相关专利技术