首页 / 骨骼关键点知识增强的地铁乘客异常行为视频描述方法

骨骼关键点知识增强的地铁乘客异常行为视频描述方法有效专利 发明

技术领域

[0001] 本发明涉及视频描述领域,特别是涉及一种骨骼关键点知识增强的地铁乘客异常行为视频描述方法。

相关背景技术

[0002] 目前,基于外部知识和公开数据集设计的视觉描述方法虽取得了一系列理论进展,但鲜有面向真实监控场景的视频描述研究,生成的内容缺乏地铁场景应用的针对性,难以满足真实监控场景下地铁乘客异常行为视频描述的需求。此外,现有的视频描述技术在乘客多样化异常行为甄别、描述的准确性和可用性方面均存在不足。以上难题严重制约了视频描述技术的落地应用推广。针对以上两个难题,本发明设计了一种骨骼关键点知识增强的地铁乘客异常行为视频描述方法。本发明通过构建地铁乘客异常行为关节点知识图谱并引入跨模态注意力知识增强模型,能够提升对乘客多样化异常行为甄别的准确性。同时,本发明在提高地铁乘客异常行为甄别准确度的基础上,能够生成直接应用于地铁日常运营管理决策的自然语言描述。
[0003] 现阶段基于外部知识的视频描述方法研究可以分为以下两个类别:(1)基于场景图的视频描述模型:在模型编码阶段引入场景图编码细粒度的视觉信息,以提高描述语句的多样性;(2)基于知识图谱的视频描述模型:在模型解码阶段,从外部知识库提取知识来补充描述文本的生成,以生成更自然的描述语句。但这两类方法生成的自然语言描述语句内容缺乏地铁场景应用针对性,描述表达无法适应于乘客多样化异常行为甄别的实际需求。

具体实施方式

[0029] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0030] 本发明的目的是提供一种骨骼关键点知识增强的地铁乘客异常行为视频描述方法,通过构建异常行为知识图谱和骨骼关键点知识图谱,并引入跨模态注意力知识增强模型,能够在提高地铁乘客异常行为描述准确度的基础上,生成能够直接应用于地铁日常运营管理决策的自然语言描述。
[0031] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0032] 实施例一
[0033] 如图1所示,本实施例提供了一种骨骼关键点知识增强的地铁乘客异常行为视频描述方法,包括:异常行为视频分割与乘客骨骼关节点特征提取、地铁乘客异常行为知识图谱与骨骼关键点知识图谱构建、骨骼关键点知识增强的地铁乘客异常行为视频描述三个大步骤。如图2所示,其具体步骤如下:
[0034] 步骤100:获取地铁异常行为视频。
[0035] 步骤200:对所述地铁异常行为视频进行分割,得到多个异常行为视频片段,并提取各异常行为视频片段中各乘客的骨骼关节点。能够依据乘客时序行为对异常行为视频进行分割,进而提取出各个异常行为视频片段中的乘客骨骼关节点时空特征。
[0036] 具体地,采用视频分割算法BSN++对所述地铁异常行为视频进行分割,得到多个异常行为视频片段。本实施例中,采用视频分割算法BSN++分割出地铁异常行为视频中乘客的异常行为视频片段集合 其中, 和 分别表示异常行为视频片段 的开始时间和结束时间,n为异常行为视频片段的编号,N为异常行为视频片段的总数,n∈N。能够降低无关视频片段对乘客行为识别的干扰,并为乘客骨骼关节点特征提取的步骤提供有效的数据信息。
[0037] 如图3所示,视频分割算法BSN++包括基础模块、互补边界生成器及提名关系建模。其中,互补边界生成器与基础模块连接,用于生成表征边界信息的边界图,提名关系建模与基础模块连接,用于生成置信度图以进行置信度评估,最后根据边界图及置信度图输出结果。
[0038] 采用人体骨骼关节点提取算法OpenPose‑slim提取各异常行为视频片段中各乘客的骨骼关节点。本实施例中,将分割出的每个异常行为视频片段输入人体骨骼关节点提取算法OpenPose‑slim中,获取异常行为视频片段中乘客的骨骼关节点时空序列特征包括图像编号、乘客编号和所有骨骼关节点的位置,其中, 为异常行为视频片段 中第t帧(即时间步t)图像内第m位乘客的骨骼关节点,k表示骨骼关节点的编号, 为异常行为视频片段
中第t帧图像内第m位乘客第k个骨骼关节点的坐标。采用人体骨骼关节点提取算法OpenPose‑slim提取出地铁高密度客流出行真实视频片段中乘客的骨骼关节点特征,作为步骤500中骨骼关键点知识图谱的实体对象以及步骤700中跨模态注意力知识增强模型的视觉特征输入。
[0039] 如图4所示,人体骨骼关节点提取算法OpenPose‑slim包括依次连接的空间编码阶段、时序编码‑解码阶段及空间解码阶段。其中,空间编码阶段包括依次连接的卷积层、池化层及卷积层。空间解码阶段包括依次连接的反卷积层、反池化层及反卷积层。
[0040] 步骤300:基于地铁领域知识构建异常行为知识图谱。所述异常行为知识图谱中包括多个异常行为类别及多个骨骼关节点,每个异常行为类别通过多个骨骼关节点表征,且每个骨骼关节点包括多个属性特征。
[0041] 本实施例中,异常行为知识图谱中包括8类异常行为,每位乘客的行为通过18个骨骼关节点表征,每个骨骼关节点包含5类属性特征。
[0042] 具体地,基于地铁领域知识和监控视频特征分析,融合ConceptNet5.5数据集及Subway数据集中的地铁乘客异常行为,使用地铁乘客异常行为与乘客骨骼关节点构建异常行为知识图谱。
[0043] 图5中展示了ConceptNet5.5数据集中的地铁乘客异常行为。
[0044] Subway数据集中的地铁乘客异常行为包括:翻越逃票、楼梯奔跑、扶梯逆行、下钻逃票、将身体探出扶梯外、扶手滑倒、尾随逃票及楼梯摔倒。
[0045] 多个异常行为类别分别为:翻越逃票、下钻逃票、尾随逃票、楼梯摔倒、楼梯奔跑、扶梯逆行、将身体探出扶梯外和扶手滑倒。
[0046] 每位乘客的18个骨骼关节点分别为:左手、右手、左肩、右肩、左肘、右肘、左膝、右膝、左脚、右脚、左腰、右腰、脖子、鼻子、左眼、右眼、左耳以及右耳。
[0047] 每个骨骼关节点的多个属性特征分别为:骨骼关节点组成的夹角f1,k、骨骼关节点间的夹角变化量f2,k、骨骼关节点的加速度f3,k、骨骼关节点与骨架重心间的距离f4,k和骨骼关节点的偏移量f5,k。相应地,每个骨骼关节点的特征表示为:Fk=[f1,k,f2,k,f3,k,f4,k,f5,k],其中,k表示骨骼关节点的编号。
[0048] 如图6所示为本发明构建的异常行为知识图谱。
[0049] 步骤400:根据各异常行为视频片段中各乘客的骨骼关节点的各属性特征,从各异常行为视频片段中筛选出各乘客的骨骼关键点,并确定各异常行为视频片段中各乘客的骨骼关键点视觉特征向量。
[0050] 具体地,针对任一乘客,分别计算所述乘客的各骨骼关节点的各属性特征与各属性特征阈值的差值,对差值从大到小排序后,从每个异常行为视频片段中选取10个时空相关性最高的骨骼关节点作为骨骼关键点。
[0051] 步骤500:基于所述异常行为知识图谱构建骨骼关键点知识图谱。所述骨骼关键点知识图谱中包括多个异常行为类别、各乘客的骨骼关键点及骨骼关键点知识向量。所述骨骼关键点知识向量包括各骨骼关键点的多个属性特征。如图7所示为本发明构建的骨骼关键点知识图谱。
[0052] 具体地,以乘客的骨骼关键点视觉特征作为查询,从异常行为知识图谱中提取其对应的骨骼关节点的属性特征,然后构建骨骼关键点知识图谱。骨骼关键点知识图谱中,骨骼关键点 与骨骼关键点的属性特征 相连,生成与异常行为视频片段对应的骨骼关键点知识图谱G={V,E},其中V={va}表示节点集,E={eab}表示边集,a和b为节点编号,a≠b。
[0053] 本发明中,步骤300构建的异常行为知识图谱和步骤500构建的骨骼关键点知识图谱能够基于异常行为知识引导表征地铁乘客各类异常行为的骨骼关键点间动态语义关联。同时兼顾了真实监控视频片段中乘客异常行为和骨骼关键点的知识。其中,异常行为知识图谱通过度量抽取实体间的相互关系能够量化表征乘客多样化的异常行为知识,同时骨骼关键点知识图谱能够进一步凝练出乘客各类异常行为的骨骼关键点间动态语义关联关系。
[0054] 步骤600:针对任一异常行为视频片段,根据所述异常行为视频片段中各乘客的骨骼关键点视觉特征向量及骨骼关键点知识向量,采用时空图卷积神经网络确定所述异常行为视频片段的异常行为视觉表征。
[0055] 具体地,如图8所示,使用Skip‑Gram模型将异常行为知识图谱进行词向量化,将乘客的骨骼关键点视觉特征向量 与乘客的骨骼关键点知识向量 进行串联后,采用时空图卷积神经网络学习骨骼关键点知识引导的异常行为视觉表征。
[0056] 时空图卷积神经网络采用以下公式确定异常行为视频片段 的异常行为视觉表征:
[0057]
[0058]
[0059] 其中,X为时空图卷积神经网络的输入, 为异常行为视频片段 中各乘客的骨骼关键点视觉特征向量, 为异常行为视频片段 中各乘客的骨骼关键点知识向量, 为异常行为视频片段 中时间步t的图像内第m位乘客的骨骼关键点,B为一个全为1的向量,S为节点特征嵌入矩阵(代表前向传播方程中节点之间的边缘或连接的矩阵),Z为时空图卷积神经网络输出矩阵,即异常行为视频片段 的异常行为视觉表征,包括节点之间的连接关系,Xh为X在时空图卷积神经网络的第h层的特征, 为度矩阵, 为添加了自连接的无定向图的邻接矩阵,Θg为滤波器参数矩阵, 表示克罗内克积,⊙表示点积。
[0060] 步骤700:根据所述异常行为视频片段中各乘客的骨骼关键点视觉特征向量及骨骼关键点知识向量,采用跨模态注意力知识增强模型,确定所述异常行为视频片段中各时间步的知识感知上下文向量。
[0061] 具体地,基于跨模态注意力知识增强模型将视觉上下文向量和知识上下文向量整合到解码器的知识增强模型中,通过解码器更新学习一个知识感知上下文向量。如图9所示为跨模态注意力知识增强模型的异常行为甄别过程示意图。
[0062] 跨模态注意力知识增强模型采用以下公式确定异常行为视频片段 中时间步t的知识感知上下文向量:
[0063]
[0064]
[0065]
[0066] θ(uw,r,un)=fmlp(TransE(uw,r,un));
[0067] 其中, 为异常行为视频片段 中时间步t的知识感知上下文向量,即时间步t的知识边注意力,Usub为由地铁乘客异常行为输入序列生成的子图,地铁乘客异常行为输入序列包括视觉上下文向量和知识上下文向量,视觉上下文向量由骨骼关键点视觉特征向量确定,知识上下文向量由骨骼关键点知识向量确定,u为Usub中的节点,N(u)为Usub中包含节点u的边的集合,uw和un为通过卷积神经网络生成的节点特征嵌入,且w≠n,w表示知识三元组的编号,r为节点间的连接关系矩阵,α(u)为地铁乘客异常行为输入序列的隐藏状态对于决定下一个隐藏状态的重要性,γ(·)为将参数转化为多层感知计算软对齐,sn,t为跨模态注意力知识增强模型中异常行为视频片段 中时间步t的隐状态,sn,t‑1为跨模态注意力知识增强模型中异常行为视频片段 中时间步t‑1的隐状态,yn,t‑1为异常行为视频片段中时间步t‑1生成的单词,e(yn,t‑1)为yn,t‑1的嵌入,cn,t为异常行为视频片段 中时间步t的上下文状态,通过特征拼接得到,fde(·)为解码器,fmlp(·)为多层感知机,TransE(·)表示将关系解释为对实体的低维嵌入操作的转换来对关系建模的方法。
[0068] 步骤800:根据所述异常行为视频片段的异常行为视觉表征及所述异常行为视频片段中各时间步的知识感知上下文向量,采用异常行为视频描述生成模型,生成所述异常行为视频片段的描述语句。
[0069] 具体地,通过视频描述生成模型学习视觉与自然语言的更细粒度联合表示,得到针对地铁乘客异常行为的视频描述自然语言语句,如图10所示。异常行为视频描述生成模型采用以下公式生成异常行为视频片段 的描述语句:
[0070]
[0071]
[0072]
[0073] 其中, 为异常行为视频描述生成模型的输入,Z为异常行为视频片段 的异常行为视觉表征, 为异常行为视频片段 中时间步t的知识感知上下文向量, 为注意力模型中异常行为视频片段 中时间步t‑1的隐状态,GRUlan()为视频描述生成模型,为视频描述生成模型中异常行为视频片段 中时间步t的隐状态,GRUlan()通过卷积操作根据 和 得到 Wp为视频描述生成模型的学习参数,bp为视频描述生成模型的偏差,yn,t为异常行为视频片段 中时间步t生成的单词,p(yn,t)为异常行为视频片段 中时间步t生成的单词的分布,根据p(yn,t)确定异常行为视频片段 的描述语句。p(yn,t)直接影响描述语句的准确性。
[0074] 上述步骤600至步骤800中,融合了骨骼关键点知识图谱引导的异常行为视觉表征和跨模态注意力知识增强的异常行为知识。首先,将乘客骨骼关键点视觉特征向量与乘客关键点知识向量进行串联后,采用时空图卷积神经网络对骨骼关键点知识引导的异常行为视觉表征进行学习,并通过视觉注意力机制使视频描述生成模型关注到视频片段中的重点异常行为视觉信息。其次,基于跨模态注意力知识增强模型将视觉上下文向量和知识上下文向量整合到解码器的知识增强模型中,通过解码器更新学习一个知识感知上下文向量。最后,将基于时空图卷积神经网络的骨骼关键点表征和跨模态注意力骨骼关键点知识增强模型的输出协同输入异常行为视频描述生成模型,通过学习视觉与自然语言的更细粒度联合表示,得到针对地铁乘客异常行为的视频描述语句。
[0075] 为了验证本发明的有效性,首先基于真实监控视频数据构建地铁乘客异常行为视频描述数据集。具体地,收集到的2000个乘客异常行为视频中包含翻越逃票、下钻逃票、尾随逃票、楼梯摔倒、楼梯奔跑、扶梯逆行、将身体探出扶梯外和扶手滑倒这8类地铁乘客异常行为,平均每类视频数量为250个;每位乘客的行为通过左手、右手、左肩、右肩、左肘、右肘、左膝、右膝、左脚、右脚、左腰、右腰、脖子、鼻子、左眼、右眼、左耳和右耳这18个骨骼关节点进行表征;此外,每个骨骼关节点包含的5类属性特征分别为关节点组成的夹角、关节点间夹角变化量、关节点加速度、关节点与骨架重心间的距离和关节点偏移量。每个乘客异常行为视频对应一句自然语言描述语句。特别地,该自然语言描述语句是包含乘客特征、行为发生位置和异常行为类别等信息且表达连贯的语句。分别从构建的地铁乘客异常行为视频描述数据集中抽取1600、200和200个视频与自然语言语句对用于模型训练、测试和验证。分析实验结果发现,本发明通过构建地铁乘客异常行为‑骨骼关键点知识图谱并引入跨模态注意力骨骼关键点知识增强的异常行为甄别模型,能够提高面向真实监控视频的地铁乘客异常行为视频描述内容的准确性和可用性,有助于推进视频描述技术在地铁日常运营管理领域的落地应用和推广。
[0076] 如图11所示为本发明生成的地铁乘客异常行为视频描述的一种示例,如图12为本发明生成的地铁乘客异常行为视频描述的另一种示例。
[0077] 综上,与现有技术相比,本发明具有以下优点:
[0078] (1)本发明能够有效克服视频描述技术难以满足真实监控场景下地铁乘客异常行为视频描述需求,对乘客多样化异常行为甄别、描述的准确性和可用性不足的问题。不仅能够提高地铁乘客异常行为描述的准确度,还能生成可直接应用于地铁日常运营管理决策的自然语言描述,助推视频描述技术落地应用。
[0079] (2)本发明同时兼顾了监控视频片段中乘客异常行为和乘客骨骼关建点两个层次的知识图谱,相对于单一层次的知识图谱能够更有针对性地凝练出乘客各类异常行为的骨骼关建点间动态语义关联关系。能够为地铁乘客异常行为视频描述生成模型提供更加准确的地铁乘客异常行为知识。
[0080] 实施例二
[0081] 为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种骨骼关键点知识增强的地铁乘客异常行为视频描述系统。
[0082] 如图13所示,本实施例提供的骨骼关键点知识增强的地铁乘客异常行为视频描述系统包括:视频获取模块21、骨骼关节点提取模块22、异常行为知识图谱构建模块23、骨骼关键点筛选模块24、骨骼关键点知识图谱构建模块25、异常行为视觉表征模块26、异常行为甄别模块27及异常行为描述模块28。
[0083] 视频获取模块21用于获取地铁异常行为视频。
[0084] 骨骼关节点提取模块22用于对所述地铁异常行为视频进行分割,得到多个异常行为视频片段,并提取各异常行为视频片段中各乘客的骨骼关节点。
[0085] 具体地,骨骼关节点提取模块22由视频分割算法BSN++和人体骨骼关节点提取算法OpenPose‑slim串联而成。
[0086] 异常行为知识图谱构建模块23用于基于地铁领域知识构建异常行为知识图谱。所述异常行为知识图谱中包括多个异常行为类别及多个骨骼关节点,每个异常行为类别通过多个骨骼关节点表征,且每个骨骼关节点包括多个属性特征。
[0087] 骨骼关键点筛选模块24用于根据各异常行为视频片段中各乘客的骨骼关节点的各属性特征,从各异常行为视频片段中筛选出各乘客的骨骼关键点,并确定各异常行为视频片段中各乘客的骨骼关键点视觉特征向量。
[0088] 骨骼关键点知识图谱构建模块25用于基于所述异常行为知识图谱构建骨骼关键点知识图谱。所述骨骼关键点知识图谱中包括多个异常行为类别、各乘客的骨骼关键点及骨骼关键点知识向量。所述骨骼关键点知识向量包括各骨骼关键点的多个属性特征。
[0089] 异常行为视觉表征模块26用于针对任一异常行为视频片段,根据所述异常行为视频片段中各乘客的骨骼关键点视觉特征向量及骨骼关键点知识向量,采用时空图卷积神经网络确定所述异常行为视频片段的异常行为视觉表征。
[0090] 异常行为甄别模块27用于根据所述异常行为视频片段中各乘客的骨骼关键点视觉特征向量及骨骼关键点知识向量,采用跨模态注意力知识增强模型,确定所述异常行为视频片段中各时间步的知识感知上下文向量。
[0091] 异常行为描述模块28用于根据所述异常行为视频片段的异常行为视觉表征及所述异常行为视频片段中各时间步的知识感知上下文向量,采用异常行为视频描述生成模型,生成所述异常行为视频片段的描述语句。
[0092] 相对于现有技术,本实施例提供的骨骼关键点知识增强的地铁乘客异常行为视频描述系统与实施例一提供的骨骼关键点知识增强的地铁乘客异常行为视频描述方法的有益效果相同,在此不再赘述。
[0093] 实施例三
[0094] 本实施例提供一种电子设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行实施例一的骨骼关键点知识增强的地铁乘客异常行为视频描述方法。
[0095] 可选地,上述电子设备可以是服务器。
[0096] 另外,本发明实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的骨骼关键点知识增强的地铁乘客异常行为视频描述方法。
[0097] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0098] 本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页 第1页 第2页 第3页