首页 / 一种防止电影盗摄的观众行为识别分析方法与系统

一种防止电影盗摄的观众行为识别分析方法与系统有效专利 发明

技术领域

[0001] 本发明属于计算机视觉和行为识别技术领域,具体涉及一种防止电影盗摄的观众行为识别分析方法与系统。

相关背景技术

[0002] 电影盗摄是指未经授权在电影院内使用摄像设备非法录制电影的行为。这种行为不仅侵犯了电影制作者的版权,还可能对电影产业造成巨大的经济损失。现有的防盗摄技术主要依赖于人工监控、简单的摄像头监控以及数字水印等技术,存在效率低、误报率高等问题。因此,开发一种高效、准确的观众行为识别分析方法与系统显得尤为重要。
[0003] 随着人工智能和大数据技术的不断发展,基于计算机视觉的目标行为识别与分析也不断完善。如何利用人工智能和大数据技术,通过采集多源化的观众行为数据,实现多角度的综合识别分析,得到更加实时、准确地观众行为识别结果,是本发明要解决的技术问题,因此本发明旨在提供一种防止电影盗摄的观众行为识别分析方法与系统。

具体实施方式

[0021] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0022] 实施例1如图1所示,本实施例提供一种防止电影盗摄的观众行为识别分析方法,包括如下步骤:
拍摄机位架设:预先架设3个视频拍摄机位,每个机位上放置一台拍摄设备,其中,第一机位设置在电影屏幕上方,用于采集全部观影观众的整体正视角视频数据;第二机位设置在电影厅最后一排观众席的后方,用于采集全部观影观众的整体后视角视频数据;第三机位设置在电影厅的侧方,用于采集全部观影观众的整体侧视角视频数据;
采集多视角视频数据:在电影放映过程中,采集第一视频数据,所述第一视频数据为所述第一机位采集的全部观影观众的整体正视角视频数据,所述整体正视角视频数据记录了观影过程中全部观众的头部正面区域、躯干正面区域和上肢正面区域;采集第二视频数据,所述第二视频数据为所述第二机位采集的全部观影观众的整体后视角视频数据,所述整体后视角视频数据记录了观影过程中全部观众的头部背面区域、躯干背面区域和上肢背面区域;采集第三视频数据,所述第三视频数据为所述第三机位采集的全部观影观众的整体侧视角视频数据,所述整体侧视角视频数据记录了观影过程中全部观众的头部侧面区域、躯干侧面区域和上肢侧面区域;
训练目标识别模型:提取训练图像集A的拍摄设备特征向量集,输入预先搭建的人工神经网络A中训练得到拍摄设备识别模型,所述人工神经网络A以多层感知机为基础,模型输出为图像中分别包含和不包含拍摄设备的概率值向量;提取训练图像集B的录屏影像特征向量集,输入预先搭建的人工神经网络B中训练得到录屏影像识别模型;所述人工神经网络B以多层感知机为基础,模型输出为图像中分别包含和不包含录屏影像的概率值向量;
提取训练图像集C的观众姿态特征图集,输入预先搭建的人工神经网络C训练得到握持行为识别模型,所述人工神经网络C以CNN为基础,模型输出为图像中分别检测到和未检测到握持行为的概率值向量;
处理多视角视频数据:对所述第一、第二和第三视频数据按照相同的时间间隔进行关键帧抽取,分别得到第一、第二和第三视频关键帧时序图像数据集keyframe_i=((Ii1,t1),(Ii2,t2),...,(Iij,tj)),其中,i表示视频序号,i取值为1、2或3,j表示关键帧图像的数量,tj表示第j张关键帧图像对应的时间戳;对所述第一和第二视频关键帧时序图像集进行处理,得到包括时间戳信息的实时拍摄设备特征向量集Vob=((vob1,t1),(vob2,t2),...,(vobj,tj));对所述第二视频关键帧时序图像集进行处理,得到包括时间戳信息的实时录屏影像特征向量集Vima=((vima1,t1),(vima2,t2),...,(vimaj,tj));对所述第一、第二和第三视频关键帧时序图像集进行处理,得到包括时间戳信息的实时观众姿态特征图集Vpos=((vpos1,t1),(vpos2,t2),...,(vposj,tj));
观影视频数据目标识别:将所述Vob输入到训练好的拍摄设备识别模型中,得到拍摄设备识别结果A;将所述Vima输入到训练好的录屏影像识别模型中,得到录屏影像识别结果B;将所述Vpos输入到训练好的握持行为识别模型中,得到握持行为识别结果C;
数据分析及预警:综合分析所述识别结果A、B和C,根据预先设置的识别结果和预警等级之间的对应关系,确定预警信息并通知工作人员。
[0023] 实施例2如图2所示,本实施例提供一种防止电影盗摄的观众行为识别分析方法,其中,所述拍摄机位架设时:
本发明默认电影厅是一个规则的矩形结构,具有前后左右四面墙体。本发明共设置3个机位,其中,第一机位设置在电影屏幕上方,以便从正面视角采集观影过程中的观众行为,第二机位设置在电影厅观众席最后一排的后方,以便从背面视角采集观影过程中的观众行为;第三机位设置在电影厅的侧方,左侧或者右侧均可,以便从侧面视角采集观影过程中的观众行为。所有机位均可以固定在电影厅的墙上或者采用支架的方式固定,具体架设位置和角度调整根据实际情况来确定,本发明不对此作具体限定。值得注意的是,为了保证观影观众的隐私,首先监控区域会给出明确的提示语提醒观众已经进入监控区域;其次,监控视频仅用于识别观众观影过程中是否存在盗摄行为,经过预设时间后,监控视频会被删除。
[0024] 采集多视角视频数据时:设置3个机位,主要是为了解决单一视角下目标遮挡以及误识别的问题,对于同一个目标的多视角视频数据,不同视角的视频数据能够反映出目标更为丰富全面的特征,有利于提升后续目标识别的准确性。
[0025] 本发明的方法能够针对如下方式的“盗摄”行为进行有效识别:利用手机、相机等拍摄设备进行拍摄操作,且手机或者相机以手持或者固定在支架上的方式正对电影屏幕拍摄。由于本发明目的在于识别出观众的“盗摄”行为,考虑到电影观影过程中的具体场景特点,观众均是以坐姿正对屏幕进行观看,采集的视频数据中主要记录的是观众的头部区域、躯干区域以及上肢区域,多视角的视频数据能够全方位的记录拍摄设备以及观众的姿态,降低误判的概率。
[0026] 在采集多视角视频数据时,为了保证样本数据的有效性,事先需调整不同机位的拍摄设备,确保第一机位采集的整体正视角视频数据能够记录观影过程中全部观众的头部正面区域、躯干正面区域和上肢正面区域;第二机位采集的整体后视角视频数据能够记录观影过程中全部观众的头部背面区域、躯干背面区域和上肢背面区域;第三机位采集的整体侧视角视频数据能够记录观影过程中全部观众的头部侧面区域、躯干侧面区域和上肢侧面区域。
[0027] 实施例3如图3所示,本实施例提供一种防止电影盗摄的观众行为识别分析方法,其中,训练目标识别模型,具体包括:
拍摄设备识别模型:设置训练图像集A,该训练集A中的正样本是一组电影观看场景下存在拍摄设备的图像,负样本是电影观看场景下不存在拍摄设备的图像,事先进行了人工标注,正样本和负样本数据均包括同一目标的正视角和后视角下采集的图像。利用多层感知机(Multilayer Perceptron ,MLP)作为模型基础,包括一个输入层、一个输出层、2个隐藏层,选用Relu作为激活函数。训练时,首先需要对原始训练A集进行处理提取拍摄设备特征向量,以减少数据冗余,拍摄设备特征向量的具体提取方式与多视角视频数据对应的特征提取方式一致,将在后续实施例中介绍,此处不再赘述。
[0028] 录屏影像识别模型:设置训练图像集B,该训练集B的正样本是一组电影观看场景下存在录屏影像的图像,负样本是电影观看场景下不存在录屏影像的图像,事先进行了人工标注,正样本和负样本数据仅为同一目标的后视角下采集的图像。利用多层感知机(Multilayer Perceptron ,MLP)作为模型基础,包括一个输入层、一个输出层、2个隐藏层,选用Relu作为激活函数。训练时,首先需要对原始训练集B进行处理提取录屏影像特征向量,以减少数据冗余,拍摄设备特征向量的具体提取方式与多视角视频数据对应的特征提取方式一致,将在后续实施例中介绍,此处不再赘述。
[0029] 握持行为识别模型:设置训练图像集C,该训练集C的正样本是一组电影观看场景下观众存在握持行为的图像,负样本是电影观看场景下观众不存在握持行为的图像,事先进行了人工标注,正样本和负样本数据均为同一目标的正视角、后视角和侧视角下采集的图像。利用卷积神经网络(Convolutional Neural Networks,CNN)作为模型基础,包括一个输入层、一个输出层、2个卷积层、1个激活层、1个池化层、1个全连接层,选用Relu作为激活函数。训练时,首先需要对原始训练集C进行处理提取观众姿态的特征向量,以减少数据冗余,拍摄设备特征向量的具体提取方式与多视角视频数据对应的特征提取方式一致,将在后续实施例中介绍,此处不再赘述。
[0030] 拍摄设备识别模型输出为图像中分别包含和不包含拍摄设备的概率值向量,例如:将拍摄设备特征向量输入到拍摄设备识别模型中,得到的结果为一个概率值向量(a,b),其中a表示拍摄设备特征向量所代表的图像中包含拍摄设备的概率,b表示拍摄设备特征向量所代表的图像中不包含拍摄设备的概率。基于相同的原理,录屏影像识别模型和握持行为识别模型的输出结果也是相同的形式,此处不再赘述。
[0031] 实施例4如图4所示,本实施例提供一种防止电影盗摄的观众行为识别分析方法,其中,得到包括时间戳信息的实时拍摄设备特征向量集,具体包括:
采用如下方式计算实时拍摄设备特征向量:
对图像数据集keyframe_1作如下处理:首先利用基于Faster R‑CNN的目标检测算法定位出图像中的人体区域,在所述人体区域中利用骨骼关键点检测算法定位出人体手部区域,利用手部区域设置分割区域,获得分割后的手部区域图像。
[0032] 电影院观影场景属于多目标场景,对于“拍摄设备”来说,其会受到其他众多干扰目标的影响,为了减轻这种干扰,首先是对原始图像数据进行区域检测和分割。考虑到大多数情况下,“拍摄设备”在拍摄时,要么是人手对其握持,要么是人手对其操作,“拍摄设备”的出现区域范围均位于人体手部区域附近,因此,首先通过目标检测算法将人体手部区域定位出来。
[0033] 本实施例采用由粗到细的区域定位和分割方式,采用Faster R‑CNN检测定位图像中的人体区域,Faster R‑CNN是现有技术中成熟的算法,对此不再赘述;定位出人体区域后,利用骨骼关键点检测算法定位出人体手部区域,骨骼关键点检测算法也属于现有技术中成熟的算法,对此不再赘述;当检测出人体手部区域的位置后,计算出能包围手部区域的最小外接矩形,以该最小外接矩形的中心点作为原点,按照预先设置的尺寸将所述外接矩形放大n倍后,得到分割区域。此操作是为了使得分割后的图像能够将存在于“手部区域”附近的“拍摄设备”包含进来。
[0034] 将所述分割后的手部区域图像映射到HSV颜色空间中,分别计算出H、S、V三个颜色通道的像素均值和标准差,得到6个颜色特征值,拼接形成颜色特征向量。
[0035] 对于正视角下的拍摄设备来说,其颜色通常与周围物体的颜色有所区别,因此颜色特征向量属于一个较佳的特征表达,颜色通道的像素均值和标准差能够反映整体颜色分布,因此本实施例选择像素均值和标准差作为颜色特征向量。
[0036] 对所述分割后的手部区域图像进行轮廓检测,通过轮廓检测结果定位出分割后的手部区域图像中的矩形区域作为疑似拍摄设备区域,对所述疑似拍摄设备区域进行纹理特征提取,得到纹理特征向量。
[0037] 对于正视角下的拍摄设备来说,其纹理通常与周围物体的纹理存在较大区别,因此纹理特征向量同样属于一个较佳的特征表达,本实施例采用灰度共生矩阵的方式提取纹理特征向量。
[0038] 对所述疑似拍摄设备区域内部进行轮廓检测,计算区域内部轮廓的面积值和周长值,形成形状特征向量。
[0039] 对于正视角下的拍摄设备来说,不管是手机还是相机,其都会存在“光学摄像头”,而“光学摄像头”最为明显的是其圆形形状,因此形状特征向量同样属于一个较佳的特征表达,本实施例采用轮廓的面积值和周长值作为形状的几何参数,形成形状特征向量。
[0040] 对图像数据集keyframe_2作如下处理:首先利用基于Faster R‑CNN的目标检测算法定位出图像中的人体区域,将所述人体区域分割出来得到分割后的人体区域图像,将所述人体区域图像转换成灰度图,计算所述灰度图的像素均值和方差,形成亮度特征向量。
[0041] 对于后视角下的拍摄设备来说,其突出的特点是“亮着的屏幕”,因此利用亮度特征可以较佳的表达这一特点。为了减小计算量,本实施例首先仍然是定位并分割出人体区域图像,抛弃掉其他无关区域,在此基础上实现亮度特征向量的提取。
[0042] 将所述颜色特征向量、纹理特征向量、形状特征向量以及亮度特征向量进行拼接融合,得到实时拍摄设备特征向量。由于后续的识别模型是基于多层感知机构建的,因此直接将每个特征向量横向拼接起来形成维数更多的向量即可。
[0043] 将每张关键帧图像对应的时间戳和实时拍摄设备特征向量汇总形成所述包括时间戳信息的实时拍摄设备特征向量集。时间戳信息可以看成是一个标记位,为了反向定位图像在视频中所对应的时间点,其不属于图像本身的特征值,也不参与后续目标识别模型的输入和计算过程。
[0044] 采用如下方式计算实时录屏影像特征向量:对图像数据集keyframe_2作如下处理:识别图像中的电影屏幕区域,将图像分割成电影屏幕区域图像和其余区域图像,将所述电影屏幕区域图像转换成灰度图并统计出亮度均值b1;将其余区域图像转换成灰度图,利用所述亮度均值b1作为阈值将所述其余区域图像进行二值化,得到亮度大于或等于所述亮度均值b1的区域,作为疑似拍摄设备屏幕区域,提取疑似拍摄设备屏幕区域的亮度特征向量、颜色特征向量以及纹理特征向量,融合拼接成实时录屏影像特征向量;将每张关键帧图像对应的时间戳和实时录屏影像特征向量汇总形成所述包括时间戳信息的实时录屏影像特征向量集。
[0045] 录屏影像仅会出现在后视角图像中,因此仅选择后视角视频数据进行处理。对于后视角的拍摄设备来说,其另一个明显特征是“存在和电影屏幕相同的录屏影像”,基于此种特点,首先可以将后视角图像中的疑似拍摄设备屏幕区域分割出来,以缩小整体的计算量。对分割出来的摄设备屏幕区域,再提取亮度特征向量、颜色特征向量以及纹理特征向量,以对“拍摄设备”的特征进行表达。可以采用与正视角图像相同的亮度特征向量、颜色特征向量以及纹理特征向量提取方式,在此不再赘述。
[0046] 采用如下方式计算实时观众姿态特征图:对图像数据集keyframe_1、keyframe_2和keyframe_3分别作如下处理:首先利用基于Faster R‑CNN的目标检测算法定位出图像中的人体区域并进行分割,得到分割后的人体区域图像,对所述分割后的人体区域图像进行关键点检测,得到头部、颈部、肩膀、肘部和手腕的关键点及其对应坐标,将相邻关键点进行连线得到分别代表躯干、左上臂、左小臂、右上臂和右小臂的5个上肢向量,利用所述5个上肢向量计算相邻向量之间的夹角值,得到关节夹角值向量;分别计算出同一时间戳下keyframe_1、keyframe_2和keyframe_3中关键帧图像的3个关节夹角值向量,将所述3个关节夹角值向量进行拼接得到实时观众姿态特征图;将每张关键帧图像对应的时间戳和实时观众姿态特征图汇总形成所述包括时间戳信息的实时观众姿态特征图集。
[0047] 对于同一时间戳下,三个视角分别对应了三张图像,按照上述方式计算出每张图像的关节夹角值向量,将三个关节夹角值向量进行拼接形成矩阵,矩阵的每一行对应一个关节夹角值向量;为了保证矩阵的维度对齐,利用0填充的方式使得矩阵的行和列具有相同数量的特征值,填充后的方形矩阵就是实时观众姿态特征图。
[0048] 将每张关键帧图像对应的时间戳和实时观众姿态特征图汇总形成所述包括时间戳信息的实时观众姿态特征图像集。时间戳信息可以看成是一个标记位,为了反向定位图像在视频中所对应的时间点,其不属于图像本身的特征值,也不参与后续目标识别模型的输入和计算过程。由于后续的识别模型是基于CNN构建的,模型的输入是图像,因此需要将每个特征向量纵向拼接起来形成矩阵,使得其与图像的表达方式一致。
[0049] 实施例5如图5所示,本实施例提供一种防止电影盗摄的观众行为识别分析方法,其中,目标识别具体包括:
若所述Vob对应的所有识别结果中,识别出包含拍摄设备的结果数量占比超过预设比例阈值,则认为所述拍摄设备识别结果A为存在拍摄设备;若所述Vima对应的所有识别结果中,识别包含出录屏影像的结果数量占比超过预设比例阈值,则认为所述录屏影像识别结果B为存在录屏影像;若所述Vpos对应的所有识别结果中,检测到握持行为的结果数量占比超过预设比例阈值,则认为所述握持行为识别结果C为存在握持行为。
[0050] 预设比例阈值根据实际需求进行设置,例如可以将三个模型结果全部设置相同,也可以分别设置不同的比例阈值,对此不作限定。例如,模型输入为实时拍摄设备特征向量集Vob=((vob1,t1),(vob2,t2),...,(vobj,tj)),该向量集中共有j个特征向量,将每个向量逐一输入到拍摄设备识别模型中进行识别会得到j个识别结果,将预设比例阈值设置为20%,若识别出包含拍摄设备的结果数量占比超过20%,则认为拍摄设备识别结果A为存在拍摄设备,同理可以分析录屏影像识别结果B和握持行为识别结果C。
[0051] 数据分析及预警具体包括:综合分析所述识别结果A、B和C,根据预先设置的识别结果和预警等级之间的对应关系,确定预警信息并通知工作人员。
[0052] 预先可设置识别结果和预警等级之间的对应关系,将识别结果对应到低风险等级、中风险等级和高风险等级。例如,若拍摄设备识别结果A、录屏影像识别结果B和握持行为识别结果C均为是(也就是说拍摄设备识别结果A为存在拍摄设备,录屏影像识别结果B为存在录屏影像,握持行为识别结果C为存在握持行为),则对应到高风险等级;若拍摄设备识别结果A、录屏影像识别结果B和握持行为识别结果C中有任意两项结果为是,则对应到中风险等级;若拍摄设备识别结果A、录屏影像识别结果B和握持行为识别结果C中仅有任一项结果为是或者全部为否,则对应到低风险等级。根据不同的风险等级,设置不同的响应状态,以提升工作效率。例如,高风险等级下,表示非常有可能存在盗摄行为,此时需要工作人员立即进行核实、固定证据并采取干预措施;中风险等级下,表示存在盗摄行为的可能性一般或者情节比较轻微,此时只需要在观影结束前核实监控视频即可;低风险等级下,表示存在盗摄行为的可能性很低或者行为,此时无需核实。具体的预警方式根据影厅的实际需求进行设置,本发明不作具体限定。
[0053] 实施例6如图6所示,本实施例提供一种防止电影盗摄的观众行为识别分析系统,包括如下功能模块:
拍摄机位架设模块:预先架设3个视频拍摄机位,每个机位上放置一台拍摄设备,其中,第一机位设置在电影屏幕上方,用于采集全部观影观众的整体正视角视频数据;第二机位设置在电影厅最后一排观众席的后方,用于采集全部观影观众的整体后视角视频数据;第三机位设置在电影厅的侧方,用于采集全部观影观众的整体侧视角视频数据;
多视角视频数据采集模块:在电影放映过程中,采集第一视频数据,所述第一视频数据为所述第一机位采集的全部观影观众的整体正视角视频数据,所述整体正视角视频数据记录了观影过程中全部观众的头部正面区域、躯干正面区域和上肢正面区域;采集第二视频数据,所述第二视频数据为所述第二机位采集的全部观影观众的整体后视角视频数据,所述整体后视角视频数据记录了观影过程中全部观众的头部背面区域、躯干背面区域和上肢背面区域;采集第三视频数据,所述第三视频数据为所述第三机位采集的全部观影观众的整体侧视角视频数据,所述整体侧视角视频数据记录了观影过程中全部观众的头部侧面区域、躯干侧面区域和上肢侧面区域;
目标识别模型训练模块:提取训练图像集A的拍摄设备特征向量集,输入预先搭建的人工神经网络A中训练得到拍摄设备识别模型,所述人工神经网络A以多层感知机为基础,模型输出为图像中分别包含和不包含拍摄设备的概率值向量;提取训练图像集B的录屏影像特征向量集,输入预先搭建的人工神经网络B中训练得到录屏影像识别模型;所述人工神经网络B以多层感知机为基础,模型输出为图像中分别包含和不包含录屏影像的概率值向量;提取训练图像集C的观众姿态特征图集,输入预先搭建的人工神经网络C训练得到握持行为识别模型,所述人工神经网络C以CNN为基础,模型输出为图像中分别检测到和未检测到握持行为的概率值向量;
多视角视频数据处理模块:对所述第一、第二和第三视频数据按照相同的时间间隔进行关键帧抽取,分别得到第一、第二和第三视频关键帧时序图像数据集keyframe_i=((Ii1,t1),(Ii2,t2),...,(Iij,tj)),其中,i表示视频序号,i取值为1、2或3,j表示关键帧图像的数量,tj表示第j张关键帧图像对应的时间戳;对所述第一和第二视频关键帧时序图像集进行处理,得到包括时间戳信息的实时拍摄设备特征向量集Vob=((vob1,t1),(vob2,t2),...,(vobj,tj));对所述第二视频关键帧时序图像集进行处理,得到包括时间戳信息的实时录屏影像特征向量集Vima=((vima1,t1),(vima2,t2),...,(vimaj,tj));对所述第一、第二和第三视频关键帧时序图像集进行处理,得到包括时间戳信息的实时观众姿态特征图集Vpos=((vpos1,t1),(vpos2,t2),...,(vposj,tj));
观影视频数据目标识别模块:将所述Vob输入到训练好的拍摄设备识别模型中,得到拍摄设备识别结果A;将所述Vima输入到训练好的录屏影像识别模型中,得到录屏影像识别结果B;将所述Vpos输入到训练好的握持行为识别模型中,得到握持行为识别结果C;
数据分析及预警:综合分析所述识别结果A、B和C,根据预先设置的识别结果和预警等级之间的对应关系,确定预警信息并通知工作人员。
[0054] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、计算机设备或计算机可读存储介质。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
[0055] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0056] 以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

当前第1页 第1页 第2页 第3页