首页 / 一种面向低质量视频流的实时追踪人脸识别方法及系统

一种面向低质量视频流的实时追踪人脸识别方法及系统公开 发明

技术领域

[0001] 本发明涉及深度学习领域,尤其涉及一种面向低质量视频流的实时追踪人脸识别方法及系统。

相关背景技术

[0002] 随着深度学习技术的发展,尤其是卷积神经网络的普及,人脸识别的精度已经得到大幅提升。然而,目前因设备限制,仍然存在很多实际低质量视频。低质量视频指的是分辨率低、亮度变化频繁、背景干扰多的图像数据。这种视频常见于低端摄像设备拍摄的监控视频中,存在人脸特征不清晰、运动模糊、光线不足等问题。关于低质量视频的定义:
[0003] 设V为视频序列,包含K帧,Vt为第t帧。定义以下质量指标:
[0004] 分辨率R:R=W×H,其中W和H分别为帧的宽度和高度;
[0005] 亮度变化ΔL:ΔLt=|L(Vt)‑L(Vt+1)|,平均亮度变化:
[0006] 噪声水平N: 其中Pi为视频帧中的像素, 为全帧的平均像素值,M为总像素数;
[0007] 运动模糊度B: 其中Blur(Vt)是衡量第t帧模糊程度的函数,如拉普拉斯变换的结果。
[0008] 设Q为视频质量指标,定义如下:
[0009] Q=α·R+β·Δ‑L+γ·N+δ·B
[0010] 其中α,β,γ,δ是权重系数,用于调整各个指标对整体质量的贡献。一个视频可以被认为是低质量的条件可以表示为:
[0011] Q>Qth
[0012] 其中Qth是一个预设的阈值,用于区分低质量和高质量视频。
[0013] 在现有场景的监控方案中,对实时视频流进行人脸检测的方案往往基于单帧图像,较少考虑视频帧间的连续性和关联性。通过深度学习模型预测来获得人脸检测框,随后在将检测框中的人脸与数据库中的人脸进行特征匹配,来判断场景中是否出现了目标人物。这种做法在应用到摄像头捕捉的低质量的视频流时会存在一些问题。
[0014] 首先,目前已有的深度学习模型仍然难以处理失真明显的图像上的人脸识别或者人脸匹配任务。特别是在距离摄像头位置较远的情况下,人脸的特征会比较模糊,严重影响模型识别的准确度、精确度和召回率。
[0015] 其次,基于单帧图像的识别和匹配没有充分挖掘和利用视频流中前后帧图像关联,孤立地处理每一帧图像会导致模型之前的检测结果未被充分利用,甚至很容易出现对于同一个人物的识别事件被误认为是多个不同人物出现的异常情况。
[0016] 最后,大多数依赖深度学习的方案总是不可避免地会在应用到实际特殊场景如工地、仓库等中时出现泛化性不足的问题,需要一种机制来自适应地调整算法检测结果,提高方法的鲁棒性。
[0017] 在视频质量较低的情况下,利用已有的人脸识别模型进行迁移时往往无可避免地出现大量误识别、漏识别的问题,影响用户体验。单纯通过现有模型来进行人脸识别和追踪的效果仍然有待进一步的提升。因此,需要一种能降低方法误报漏报率的技术来提升低质量视频流的实时追踪人脸识别的准确度。

具体实施方式

[0064] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0065] 应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
[0066] 本发明实施例提供一种面向低质量视频流的实时追踪人脸识别方法,所述方法包括:
[0067] 步骤100,获取初步检测事件以及检测框;所述检测框用于定位人脸信息,所述初步检测事件表征已识别到人脸;
[0068] 步骤200,计算外观相似度与交并比的重叠程度;其中,所述外观相似度基于所述人脸信息的特征向量之间的距离计算;所述交并比用于评估两个所述检测框的重叠程度;
[0069] 步骤300,基于所述外观相似度与交并比的重叠程度生成相似度矩阵;
[0070] 步骤400,基于所述相似度矩阵确定与所述检测框匹配的追踪目标。
[0071] 较佳的实施例中,获取初步检测事件以及检测框前,所述方法还包括:
[0072] 初始化人脸检测算法模型以及记录器;所述记录器用于记录并维护视频图像中所出现的人脸信息;所述人脸检测算法模型包括:人脸检测模型以及人脸匹配模型。具体的,人脸检测模型包括Retinaface模型,本发明实施例通过结合Retinaface和Arcface两种模型进行人脸定位与匹配,并引入MIRNetv2图像增强模型来改善图像质量。通过使用该图像增强模型,显著提升了低质量视频图像的对比度、亮度等特性,从而能够降低在人脸识别任务中的整体难度,解决了视频质量差对识别效果的影响。
[0073] 加载所述人脸检测算法模型的模型参数及人脸特征数据库;所述人脸特征数据库中记录已知人脸信息。具体的,加载所述人脸检测算法模型的模型参数θRetina,θArc,θMIR:
[0074] θRetina←Load(RetinaFace)
[0075] θArc←Load(ArcFace)
[0076] θMIR←Load(MIRv2)
[0077] 所述人脸特征数据库可参考图2所示,人脸特征数据库中提前记录已知人脸信息,不同的人脸信息对应不同的Id号,使用人脸检测模型预先进行识别以得到对应的128维的人脸特征,并保存在人脸特征数据库中。
[0078] 获取所述视频图像并通过所述人脸检测模型定位所述视频图像中的人脸信息。具体的,通过OpenCV的视频接口以多线程的方式从摄像头实时获取视频图像的视频流I(t),并使用Retinaface人脸检测模型来检测和定位视频流中的人脸信息。
[0079] 基于所述人脸特征数据库对所述人脸信息进行人脸检测并更新所述记录器。具体的,记录器是本发明实施例中的一个重要组件,其利用人脸检测模型的单帧识别结果来维护和产生关于场景中存在过的所有人脸信息的记录。所述记录器包括:保存记录R的字典D,以及为字典D中的每个记录R维护一个计数器C,并使用一个跟踪算法Tracker来追踪人脸信息。每个记录R的格式为:
[0080] R={ID,C,S}
[0081] 其中ID为该人脸信息当前匹配到人脸特征数据库中的目标,或者为人脸特征数据库中不存在的其他目标UNKNOWN,S为人脸匹配模型ArcFace为该人脸检测过程中输出的匹配相似度。通过引入记录器维护视频图像中所有出现的人脸信息,并通过比对人脸特征数据库中的长期信息,自动修正误检测和漏检测问题。此改进有效应对了多目标场景下的人脸匹配难题,提高了系统的准确性。
[0082] 本发明实施例所述方法,通过结合多种深度学习模型,利用成熟的跟踪算法,提高了算法记录的有效性和鲁棒性,增强了用户体验。
[0083] 本发明具体实施例所述的面向低质量视频流的实时追踪人脸识别方法,较佳的,获取所述视频图像后,所述方法还包括:
[0084] 根据算法关注区域构造所述视频图像的帧图像以用于后续进行编辑和处理。具体的,根据算法关注区域(Region of Interest,ROI)来构造视频图像I(t)的帧图像IROI(t):
[0085] IROI(t)=ROI(I(t))
[0086] 本发明具体实施例所述的面向低质量视频流的实时追踪人脸识别方法,较佳的,定位所述视频图像中的人脸信息包括:
[0087] 输入所述视频图像并对所述视频图像进行预处理。具体的,输入视频图像的帧图像IROI并将其调整为指定大小,例如:H×W,并进行归一化处理,以适应模型的输入要求。令预处理后的所述视频图像为Inorm:
[0088] Inorm=Normalize(Resize(IROI,H,W))
[0089] 其中,H,W分别为所述帧图像的高度和宽度。
[0090] 从预处理后的所述视频图像中提取特征图,并通过特征金字塔网络(Feature Pyramid Network,FPN)生成和融合第一多尺度特征图。具体的,RetinaFace模型使用基于ResNet的主干网络(Backbone),对处理后的所述视频图像Inorm进行特征提取得到提取特征图FRet:
[0091] FRet=Backbone(Inorm;θbackbone)
[0092] 其中θbackbone是主干网络的参数。
[0093] 使用特征金字塔网络生成第一多尺度的特征图{Fs},以适应不同大小的人脸检测:
[0094] {FS}=FPN(FRet;θFPN),s∈{P3,P4,P5}
[0095] 其中,s表示P3,P4,P5尺度的特征图,θFPN为FPN的参数。
[0096] 锚点框(Anchor Boxes)是在物体检测任务中用于预定义的一组框架,锚点框与输入图像的不同特征尺度相对应,并用于预测目标的边界框。锚点框允许模型在不同的尺度和纵横比下进行预测。输入图像被划分为网格,网格的每个单元对应多个锚点框。在第一多尺度特征图上通过卷积生成每个锚点的分类分数和边框回归偏移量,并利用所述分类分数和边框回归偏移量生成候选边框。具体的,在第一多尺度的特征图{Fs}中的每个特征图Fs上,RetinaFace模型通过卷积层(Conv)生成每个锚点(anchor)的分类分数pcls和边框回归偏移量Δbreg:
[0097] pcls=Sigmoid(Convcls(Fs;θcls))
[0098] Δbreg=Convreg(Fs;θreg)
[0099] 其中θcls和θreg分别是分类卷积层Convcls和回归卷积层Convreg的参数。利用锚点框Anchors和边框回归偏移量Δbreg,重新计算框的位置和宽高,生成候选边框Bcandidate:
[0100] Bcandidate=Anchors+Δbreg
[0101] 通过非极大值抑制从所述候选边框中筛选出检测框,并在所述检测框中定位人脸信息。具体的,为了消除冗余检测框,使用非极大值抑制(NMS)筛选出检测框B:
[0102] B=NMS(Bcandidate,pcls,IoUthreshold)
[0103] 其中IoUthreshold是交并比(IOU)阈值,通常取0.5。
[0104] 较佳的,除了人脸检测,RetinaFace还会输出人脸的n个关键点位置 的偏移量Δlkp,用以辅助人脸匹配或者其他如表情分析等任务:
[0105] Δlkp=Convkp(Fs;θkp)
[0106] 其中θkp是关键点检测的卷积层Convkp参数。最终,RetinaFace输出的是经过NMS后的检测框B,以及对应的关键点位置
[0107] 本发明具体实施例所述的面向低质量视频流的实时追踪人脸识别方法,较佳的,通过所述检测框中定位人脸信息后,所述方法还包括:
[0108] 对检测框中定位的人脸信息的个数进行判断;
[0109] 若人脸个数为0,继续识别下一帧所述视频图像。具体的,当人脸个数为0时,直接更新记录器并继续识别下一帧的所述视频图像,具体识别方案和上面的具体实施例相同。
[0110] 本发明具体实施例所述的面向低质量视频流的实时追踪人脸识别方法,较佳的,所述方法还包括:
[0111] 使用多尺度特征提取模块提取所述视频图像的第二多尺度特征图。其中,利用MIRNetv2模型对得到的视频图像B(t)进行降噪、亮度增强、对比度增强等多种操作以提升图像质量。主要步骤如下:使用多尺度特征提取模块MultiScaleFeaturtor,提取出输入的视频图像的第二多尺度特征图FMIR:
[0112] FMIR=MultiScaleFeatureExtractor(Inorm;θMSFE)
[0113] 其中θMSFE是多尺度特征提取模块的参数。
[0114] 对所述第二多尺度特征图进行特征融合与增强,得到增强特征。具体的,对提取到的第二多尺度特征图FMIR进行特征融合与增强,得到增强特征Fenhanced:
[0115] Fenhanced=FeatureEnhance(FMIR;θFE)
[0116] 其中θFE是特征增强模块FeatureEnhance的参数。
[0117] 将所述增强特征通过上采样与重建模块,对整个图像区域生成增强后的输出图像。具体的,将增强特征Fenhanced通过上采样与重建模块Reconstruction,生成增强后的输出图像Ienhanced:
[0118] Ienhanced=Reconstruction(Fenhanced;θrec)
[0119] 其中θrec是重建模块Reconstruction的参数。最终,输出增强后的输出图像Ienhanced。在此图像上,亮度ΔL、噪声水平N、模糊B等属性都得到了针对性的改善。
[0120] 本发明具体实施例所述的面向低质量视频流的实时追踪人脸识别方法,较佳的,基于所述人脸特征数据库对所述人脸信息进行人脸检测包括:
[0121] 通过所述人脸匹配模型提取人脸特征;
[0122] 将所述人脸特征与所述人脸特征数据库中记录的已知人脸信息进行匹配。
[0123] 具体的,使用人脸匹配模型Arcface提取人脸特征fi(t):
[0124] fi(t)=ArcFeatureExtractor(Ienhanced;θAFE)
[0125] 其中θAFE是特征提取网络ArcFeatureExtractor的参数,fi(t)是一个128维的特征向量。将fi(t)与人脸特征数据库中的人脸特征进行匹配。匹配相似度Si(t)计算为:
[0126]
[0127] 其中,||fi(t)||指向量的2范数。
[0128] 设定一个相似度阈值τ,如果相似度Si(t)超过该相似度阈值,则判定为匹配成功,匹配结果为具有最大相似度的人脸目标。输出本帧视频图像中所有人脸在人脸特征数据库中的ID,每个人脸的检测框B,以及每个人脸对应的最大相似度S。
[0129] 本发明具体实施例所述的面向低质量视频流的实时追踪人脸识别方法,较佳的,所述方法还包括:
[0130] 通过记录器跟踪更新至所述记录器的人脸信息;
[0131] 比较所述检测框定位的人脸信息与所述记录器的记录字典中跟踪的人脸信息之间的外观相似程度和交并比重叠程度来判断该人脸信息是否属于所述记录器记录过的人脸;
[0132] 当人脸匹配模型匹配成功时,重置所述记录器的计数器;
[0133] 当跟踪结束时,所述记录器的计数器加一;若所述计数器超过计数阈值,则删除所述人脸信息的跟踪记录。
[0134] 需要注意,即使如前述操作改善了输入图像的质量,由于模型本身的泛化问题,模型的检测结果也未必完全可靠。本发明具体实施例中,创新性地结合Deepsort跟踪算法来利用人脸匹配的结果,同时提高跟踪算法的可靠性。具体的,在每个新的检测事件产生时,对于传入的所有检测框Bi(i∈{0,1…,N},N为检测框总数),计算外观相似度和交并比IOU的重叠程度。外观相似度基于特征向量之间的距离来进行计算,使用余弦相似度来衡量外观特征的相似性:
[0135]
[0136] 其中,fi为初步检测事件,fiR表示所有存在字典D中的记录R的外观特征,维度为d,Rfi[k]和fi[k]表示特征向量的第k个分量,这里可直接使用ArcFace的输出特征。
[0137] IOU是用于评估两个边界框重叠程度的常见指标,公式如下:
[0138]
[0139] 其中,Ri是追踪目标的检测框。Area(Ri∩Bi)是两个框重叠区域的面积,Area(Ri∪Bi)是两个框的并集区域面积。
[0140] 结合外观相似度和IOU重叠指标,生成一个相似度矩阵SM,其中元素SM[i][j]表示检测框Bi和当前目标Rj的综合相似度:
[0141] SM[i][j]=αa·Sima+βIOU·IOU(Rj,Bi)
[0142] 其中αa,βIOU分别代表外观相似度和IOU重叠指标在分数中的占比权重。
[0143] 随后,使用匈牙利算法来解决最小化成本匹配问题。通过最大化相似度矩阵SM,为每个检测框找到匹配的追踪目标,该追踪目标可以作为最佳匹配的追踪目标,此时可作为最小成本匹配。一旦找到最小成本匹配,算法将返回一个匹配对的索引。具体来说,对于每个检测框Bi,找到与之匹配的追踪目标Rj,并记录下这个匹配关系。
[0144] 根据匹配结果进行进一步处理:首先更新匹配目标为与所述检测框匹配的追踪目标。具体的,如果匹配的相似度大于设定的阈值T,则将检测框Bi与追踪目标Rj关联,更新目标的状态(如位置和外观特征)。随后处理未匹配的情况,如果某个检测框没有找到对应的追踪目标,则将其视为新目标,添加到跟踪列表中。
[0145] 对于匹配成功的记录R,重置该计数器T=0。跟踪过程结束后,所有记录R的计数器T加一,如果某个记录的计数器超过了某一阈值,则认为该人物已经离开了场景,从D中删除该记录r,并针对关于该人物的整个事件触发记录。
[0146] 除此之外,为了处理低质量视频帧中远距离目标难以与数据库中已有的清晰人脸特征匹配成功,从而导致可能的大量识别失败的记录,本发明通过采信人脸匹配模型输出的高可信的结果,来不断修正单个人物的跟踪身份。
[0147] 具体的,引入一个信任度指标BC,将其表示为:
[0148] BC=ωc·C+ωP·P+ωKP·KP
[0149] 其中:C是人脸匹配模型输出的置信度,范围在[0,1]。P是检测框的质量指标,通过检测框所处的位置和大小来计算。设检测框的表示为(x,y,w,h),其中(x,y)代表框的左上角点位置,w和h分别代表检测框的宽与高。计算距离画面边缘的最小距离:
[0150] dedge=min(x,W‑(x+w),y,H‑(y+h))
[0151] 定义检测框的面积A=W×H,使用一个指数衰减函数来定义P:
[0152]
[0153] 其中,αedge和βA是控制衰减速率的参数,分别用于距离和面积的影响。P能够在距离画面边缘较近时减少信任度,同时考虑检测框的大小影响。
[0154] KP是关键点数量的标准化值,若检测结果有n个关键点,则:
[0155]
[0156] 其中Nmax是该类别人脸的最大关键点数量。
[0157] ωc,ωp,ωKP是权重系数,表示三个因素对BC的贡献程度。
[0158] 在每帧Ft的检测过程中,计算每个检测结果的BC。然后,对完整过程选择具有最大BC的检测结果作为该追踪目标的身份IDtrack:
[0159] IDtrack=argmaxID(BCID)
[0160] 通过引入信任度指标BC,我们能够综合评估检测结果的可信度,进而选择最可信的身份作为追踪目标的身份。这种方法能够有效提高在复杂场景下的人脸识别的可靠性。
[0161] 对于已经存在于D中的记录R,如果某次检测结果中的S大于记录中的匹配相似度,则更新该记录对应的S和追踪目标的身份IDtrack,即对应的人脸。
[0162] 如图3所示,在处理连续多帧的过程中,人脸从监控区域左侧远处向右侧近处移动,由于跟踪器tracker根据每次识别结果对该人物进行了跟踪,并在记录字典D中进行了记录的更新和维护,远距离的误检测可以随着目标在近距离中被以高置信度识别出来而自动矫正,从而避免了这种情况下的误报。在处理工地监控中摄像头捕获的低质量视频流时,这种方法能很好地改善对光照条件差、人脸模糊情况下的完整事件的识别。
[0163] 本发明实施例还提供一种面向低质量视频流的实时追踪人脸识别系统,如图4所示,所述系统包括:
[0164] 获取单元401,用于获取初步检测事件以及检测框;所述检测框用于定位人脸信息,所述初步检测事件表征已识别到人脸;
[0165] 计算单元402,用于计算外观相似度与交并比的重叠程度;其中,所述外观相似度基于所述人脸信息的特征向量之间的距离计算;所述交并比用于评估两个所述检测框的重叠程度;
[0166] 矩阵生成单元403,用于基于所述外观相似度与交并比的重叠程度生成相似度矩阵;
[0167] 匹配单元404,用于基于所述相似度矩阵确定与所述检测框匹配的追踪目标。
[0168] 本发明具体实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任意一项所述方法的步骤。
[0169] 本发明实施例具有如下有益效果:
[0170] 1.基于人物出现在整个场景的事件而不是孤立的单帧图像,充分利用了深度学习模型的输出,提高了识别记录的准确性,并降低了冗余的汇报。
[0171] 2.记录器的引入充分利用了相邻帧之间的关系,长期完整的跟踪弥补了远距离下深度学习模型识别准确度受限的缺陷。结合了人脸外观特征的跟踪确保了跟踪的准确性。
[0172] 3.引入的提升图像质量的模型进一步提高了本方法的识别性能和鲁棒性,MIRNetv2模型通过多种增强方式改善了获得的图像的亮度ΔL、噪声水平N、模糊B情况,从而有针对性地降低了人脸识别和匹配的难度,进一步适配人脸识别和匹配模型的输入分布,提升了检测的效果。
[0173] 4.引入自纠正机制避免了深度学习模型在实际低质量视频的处理过程中由于模型本身缺陷导致误报的情况。结合信任度指标BC综合考量人脸外观、人脸位置、输出置信度等多方面因素,实现跟踪机制对所跟踪目标身份的动态调整,进一步确保跟踪的准确性。
[0174] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0175] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0176] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0177] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0178] 前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

当前第1页 第1页 第2页 第3页
相关技术
低质量相关技术
实时追踪相关技术
王俊杰发明人的其他相关专利技术