技术领域
[0001] 本发明涉及计算机技术领域,尤其涉及一种基于运动捕捉的一体机交互方法及其视觉互动一体机。
相关背景技术
[0002] 随着物联网的快速发展,教学方式随之也多样化发展,如通过物联网的线上教学、视频教学等。对于视频教学,主要是将录制完整的讲座或课程内容的教学视频通过终端设备进行播放展示,因此,学生可以通过教学视频进行学习,使得教师和学生之间缺乏互动。对于线上教学,主要是教师通过线上教课的方式向学生进行单向的知识传递,使得教师和学生之间缺乏面对面的讨论和交流。因此,现有的教学方式缺乏趣味性,极大可能导致学生的学习积极性下降,从而降低了教学效果。
具体实施方式
[0026] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0027] 在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0028] 在本发明的描述中,术语“例如”一词用来表示“用作例子、例证或说明”。本发明中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本发明所公开的原理和特征的最广范围相一致。
[0029] 图1是本发明提供的基于运动捕捉的一体机交互方法的流程示意图,基于运动捕捉的一体机交互方法应用于视觉互动一体机,视觉互动一体机中安装有固定设置的摄像相机,基于运动捕捉的一体机交互方法包括:
[0030] 步骤10,响应教学用户的在线教学请求,基于视觉一体机中的摄像相机获取教学用户在教学过程中的教学视频,以及教学视频中每一帧对应的教学动作图像。
[0031] 需要说明的是,教学用户需要进行线上教学时,需要在视觉互动一体机中触发请求。因此,视觉互动一体机响应教学用户的在线教学请求。此时,视觉互动一体机调用视觉一体机中的摄像相机对教学用户的教学过程进行录制,从而获取到教学用户在教学过程中的教学视频。同时,视觉互动一体机获取教学视频中每一帧对应的教学动作图像。
[0032] 步骤20,采用特征金字塔网络对教学动作图像的目标特征进行多尺度特征融合,得到多个层级的特征图,多个层级的特征图包括目标层级的第一特征图以及其他层级的第二特征图。
[0033] 其中,特征金字塔网络(Feature PyramidNetwork,FPN)是一种被广泛应用于目标识别和语义分割等任务的深度神经网络。特征金字塔网络通过构建特征金字塔,提取并融合不同尺度的特征信息。特征金字塔包含多个层级,每个层级对应一个不同尺度的特征图(Feature Maps)。
[0034] 特征金字塔的层级通常包括:自下而上的特征提取层级(如C2、C3、C4、C5)和自上而下特征融合后生成的层级(如P2、P3、P4、P5),这些层级为目标识别任务提供了丰富的多尺度特征信息。
[0035] 示例性的,目标层级可以是P3层级,P3层级的特征图通常具有适中的分辨率,这有助于捕捉目标的特征,教学动作图像中的目标由于其像素面积小,需要足够的分辨率来保留其关键信息,而P3层级恰好处于高分辨率与强语义信息之间的平衡点,并且,P3层级通过横向连接融合了来自高层级(如P4、P5)的强语义信息和来自低层级(如C3)的高分辨率信息,这种融合使得P3层级的特征图既包含了丰富的语义信息,又保留了足够的图像细节,有助于提升目标的识别性能。
[0036] 在提取教学动作图像的目标特征之后,视觉互动一体机可采用特征金字塔网络对该目标特征进行多尺度特征融合,得到多个层级的特征图,可以理解的是,每个层级对应一个不同尺度的特征图,多个层级中的目标层级(如P3层级)对应的特征图即第一特征图,多个层级中除了目标层级以外的其他层级对应的特征图即第二特征图,有多少个其他层级,就有多少个第二特征图。
[0037] 在一实施例中,基于运动捕捉的一体机交互方法还可以包括:视觉互动一体机采用主干网络(Backbone)对教学动作图像进行特征提取,得到目标特征;其中,主干网络可以包括:多个第二卷积层和跨阶段局部网络(Cross Stage Partial networks,CSP)。视觉互动一体机可采用主干网络(包括多个第二卷积层和跨阶段局部网络CSP)对教学动作图像进行特征提取,具体的,该视觉互动一体机可利用主干网络中一系列的卷积操作和残差连接来提取教学动作图像中关键的特征信息,即目标特征。
[0038] 步骤30,采用多尺度空洞卷积掩膜对第一特征图进行稀疏化处理,得到稀疏特征图。
[0039] 其中,多尺度空洞卷积掩膜(Multi‑scale Dilated ConvolutionMask,MDCM)是本发明提出的一种用于对特征图进行稀疏化处理,以得到稀疏特征图的模块。
[0040] 在确定多个层级的特征图之后,视觉互动一体机可采用多尺度空洞卷积掩膜对多个层级的特征图中目标层级的第一特征图进行稀疏化处理,得到稀疏特征图。整个过程不仅能够保留第一特征图中关键的特征信息,还能够有效过滤冗余信息,得到的稀疏特征图是较为准确的,且冗余度较低,使得之后的目标识别过程更加准确、高效。
[0041] 在一实施例中,多尺度空洞卷积掩膜可以包括:第一卷积层和第一输出层;视觉互动一体机采用多尺度空洞卷积掩膜对第一特征图进行稀疏化处理,得到稀疏特征图,可以包括:视觉互动一体机采用第一卷积层对第一特征图进行处理,得到稀疏掩码向量;该视觉互动一体机采用第一输出层基于稀疏掩码向量,对第一特征图进行稀疏化处理,得到稀疏特征图。
[0042] 需要说明的是,稀疏掩码向量能够精确地定位前景区域。
[0043] 在确定稀疏特征图的过程中,视觉互动一体机可先采用第一卷积层对第一特征图进行处理,得到稀疏掩码向量,这样一来,该视觉互动一体机可采用第一输出层基于该稀疏掩码向量,对该第一特征图进行稀疏化处理,得到稀疏特征图。在保留第一特征图中关键的特征信息的同时,对第一特征图中的冗余信息进行有效过滤,减少不必要的计算负担,有效提高后续目标识别的效率。
[0044] 第一卷积层可以包括:多个不同空洞率的空洞卷积核、至少一个通道压缩卷积层以及第二输出层;视觉互动一体机采用第一卷积层对第一特征图进行处理,得到稀疏掩码向量,可以包括:视觉互动一体机采用多个不同空洞率的空洞卷积核从第一特征图中,提取不同尺度的初始信息;该视觉互动一体机采用至少一个通道压缩卷积层对不同尺度的初始信息进行通道压缩处理,得到目标信息;该视觉互动一体机采用第二输出层,基于目标信息,确定稀疏掩码向量。
[0045] 其中,空洞卷积(Dilated Convolution,简写为Dilated Conv),也称为扩张卷积,是一种在不增加计算成本的情况下扩展卷积核感受野的方法,在目标识别中的应用越来越广泛。为了增强识别头对不同大目标的识别能力,通过设置不同的空洞率,利用多个不同空洞率的空洞卷积核在不同尺度上提取特征。
[0046] 在确定稀疏掩码向量的过程中,视觉互动一体机可采用第一卷积层中的多个不同空洞率的空洞卷积核,从第一特征图中,提取不同尺度的初始信息,接着,该视觉互动一体机可采用第一卷积层中的至少一个通道压缩卷积层,对不同尺度的初始信息进行通道压缩处理(目的是为了对不同尺度的初始信息中的冗余信息进行有效过滤,以减少计算量),得到目标信息;然后,该视觉互动一体机可采用第二输出层,基于该目标信息,确定稀疏掩码向量。整个过程中,通过多个不同空洞率的空洞卷积核,可获取多样化的感受野,捕捉不同尺度的初始信息,并且,通过至少一个通道压缩卷积层,可有效减少计算量。
[0047] 步骤40,对第二特征图和稀疏特征图进行目标识别,得到教学动作图像对应的用户动态形象。
[0048] 其中,识别头(Head)主要负责预测边界框、置信度和类别概率。
[0049] 在确定稀疏特征图之后,视觉互动一体机可以将其他层级的第二特征图以及该稀疏特征图一起送入识别头进行目标识别,得到识别头输出的教学动作图像对应的用户动态形象,该用户动态形象是较为准确的。整个过程中,在保证识别效率的同时,有效提高目标识别的准确性。
[0050] 示例性的,图2是本发明提供的目标识别模型的结构示意图。从图2中可以看出,目标识别模型可以采用YOLOv5框架,YOLOv5可以包括:输入层(Input)、主干网络(Backbone)、颈部网络(Neck)和识别头(Head),其中,主干网络可以包括多个第二卷积层(Conv)和跨阶段局部网络(CSP),该跨阶段局部网络包括多个CSP模块;颈部网络中包括上文涉及的特征金字塔网络(FPN)。在图2的多尺度空洞卷积掩膜(MDCM)中,Conv表示通道压缩卷积层;Dilated Conv表示空洞卷积核,两个Dilated Conv的空洞率不同。这样一来,视觉互动一体机可采用特征金字塔网络,对教学动作图像的目标特征进行多尺度特征融合,得到多个层级的特征图,多个层级的特征图包括目标层级(如P3层级)的第一特征图以及其他层级的第二特征图,针对P3层级,该视觉互动一体机可采用多尺度空洞卷积掩膜对P3层级的第一特征图进行稀疏化处理,得到稀疏特征图,进而将该稀疏特征图以及其他层级的第二特征图一起送入识别头进行目标识别,得到识别头输出的教学动作图像对应的用户动态形象。
[0051] 步骤50,将用户动态形象和教学视频展示在视觉互动一体机,其中,用户动态形象跟随教学视频的播放进行律动。
[0052] 进一步地,视觉互动一体机将用户动态形象和教学视频展示在视觉互动一体机,其中,用户动态形象跟随教学视频的播放进行律动。
[0053] 本发明实施例能够将用户动态形象和教学视频共同展示在视觉互动一体机,且用户动态形象跟随教学视频的播放进行律动,增强了教学用户和学生之间的互动性,增加了教学趣味性,提高了学生的学习积极性,从而提高了教学效果。
[0054] 在一实施例中,为了提高动作捕捉的准确性,在进行动作捕捉之前,还需要对视觉互动一体机中摄像相机的位置标定,因此,本发明实施例提供的基于运动捕捉的一体机交互方法还包括:
[0055] 控制视觉互动一体机通过摄像相机对标定物进行拍摄,获得第一图像集;第一图像集包括不同拍摄距离和/或不同拍摄角度的标定物图像;基于第一图像集对摄像相机的俯仰角进行标定,确定摄像相机的俯仰角标定结果;控制视觉互动一体机移动至标定物的正前方;控制底盘自转,并通过摄像相机对标定物进行拍摄,获得第二图像集;第二图像集包括不同自转角度下拍摄的标定物图像;基于第二图像集和底盘的自转角度信息,对摄像相机与底盘的相对位置进行标定,确定摄像相机的位置标定结果。
[0056] 第一图像集包括不同拍摄距离和/或不同拍摄角度的标定物图像。
[0057] 具体地,先将标定物固定在一个确定的位置(例如墙面上),使得标定物中心与视觉互动一体机上固定设置的摄像相机的高度基本一致,并确保标定物四周区域内无杂物,避免对视觉互动一体机的移动造成干扰。
[0058] 可选地,标定物为标定板。
[0059] 进一步地,控制视觉互动一体机通过摄像相机对标定物进行拍摄,获得第一图像集。在一实施例中,控制视觉互动一体机距离标定板2米左右的位置,启动俯仰角标定程序,视觉互动一体机将按照设定好的俯仰角标定程序自主移动,通过摄像相机对标定板进行拍摄,采集一系列不同拍摄距离和/或不同拍摄角度的标定物图像,构成第一图像集。
[0060] 获得第一图像集后,俯仰角标定程序可对采集的第一图像集进行处理分析,通过使用PNP算法求解摄像相机外参数据,结合摄像相机内参数据和标定物数据(即标定物的已知参数),对摄像相机的俯仰角进行标定,计算摄像相机相对于标定物的姿态角,姿态角记为(Roll,Pitch,Yaw),其中,Roll表示横滚角,Yaw表示偏航角,Pitch表示俯仰角,解算得到的Pitch角即为3D摄像相机相对于视觉互动一体机的移动平面的俯仰角,通过计算多组Pitch角数据并进行加权聚合计算,可确定摄像相机最终的俯仰角标定结果。
[0061] 进一步地,控制视觉互动一体机移动至标定物的正前方约0.5米的位置,使视觉互动一体机正对标定物。
[0062] 进一步地,控制底盘自转,并通过摄像相机对标定物进行拍摄,获得第二图像集,第二图像集包括不同自转角度下拍摄的标定物图像。
[0063] 在视觉互动一体机正对标定物时,启动位置标定程序,视觉互动一体机将按照设定好的位置标定程序自动控制底盘自转,并通过摄像相机对标定物进行拍摄,获得第二图像集。
[0064] 视觉互动一体机可按照设定好的位置标定程序先采集参考图像I,通过控制底盘自转小角度θ,采集当前标定物图像,并记录当前的自转角度θ;通过自转不同的角度,对标定物进行拍摄,采集不同自转角度下拍摄的标定物图像,构成第二图像集,生成多组数据,每组数据均包括一个标定物图像以及该标定物图像对应的自转角度(即底盘的自转角度)。
[0065] 进一步地,基于第二图像集和底盘的自转角度信息,对摄像相机与底盘的相对位置进行标定,计算3D摄像相机相对于视觉互动一体机底盘中心的水平位置偏移量,即摄像相机的位置标定结果。
[0066] 本发明实施例无需技术人员借助额外的采集工装件进行数据采集和摄像相机标定,仅需要利用视觉互动一体机自身设置的摄像相机采集的图像即可完成摄像相机标定,提高了摄像相机标定的准确性,从而提高动作捕捉的准确性。
[0067] 在一实施例中,自转角度信息包括第二图像集中每一标定物图像对应的自转角度;基于第二图像集和底盘的自转角度信息,对摄像相机与底盘的相对位置进行标定,确定摄像相机的位置标定结果,包括:获取摄像相机的摄像相机内参数据和标定物数据;基于摄像相机内参数据、标定物数据、第二图像集中的每一标定物图像和第二图像集中每一标定物图像对应的自转角度,对摄像相机与底盘的相对位置进行标定,确定多个位置偏差值;基于多个位置偏差值,进行加权聚合计算,获得摄像相机的位置标定结果。
[0068] 具体地,获取摄像相机的摄像相机内参数据和标定物数据。
[0069] 其中,标定物数据指的是标定物的已知参数。
[0070] 在计算机视觉中,特别是在摄像相机标定和立体视觉领域内,摄像相机内参数据(intrinsic parameters)和摄像相机外参数据(extrinsic parameters)是非常重要的概念,两者与摄像相机的几何属性和姿态有关。
[0071] 其中,摄像相机内参数据是描述摄像相机内部属性的参数,包括焦距、主点(光学中心)坐标、畸变系数等。摄像相机内参数据通常在摄像相机标定时确定,特定摄像相机型号的摄像相机内参数据通常是固定的,不随时间变化,一旦摄像相机内参数据被确定,摄像相机内参数据在摄像相机的使用过程中通常是保持不变的。
[0072] 摄像相机外参数据是描述摄像相机在世界坐标系中的位置和姿态的参数,通常包括旋转矩阵和平移向量。摄像相机外参数据在不同的摄像相机位置或拍摄时刻可能会发生变化。例如,在立体视觉中,假设存在两个摄像相机,那么两个摄像相机之间的相对位置和方向会在每次移动摄像相机时发生变化,从而导致摄像相机外参数据的变化。
[0073] 进一步地,基于摄像相机内参数据、标定物数据、第二图像集中的每一标定物图像和第二图像集中每一标定物图像对应的自转角度,对摄像相机与底盘的相对位置进行标定,确定多个位置偏差值。
[0074] 进一步地,基于多个位置偏差值进行加权聚合计算,获得摄像相机的位置标定结果。
[0075] 在一实施例中,基于摄像相机内参数据、标定物数据、第二图像集中的每一标定物图像和第二图像集中每一标定物图像对应的自转角度,对摄像相机与底盘的相对位置进行标定,确定多个位置偏差值,包括:在第二图像集中选取任意两个标定物图像,分别作为第一标定物图像和第二标定物图像;基于摄像相机内参数据和标定物数据,分别确定第一位置向量和第二位置向量;第一位置向量为第一标定物图像中标定物与摄像相机之间的位置向量,第二位置向量为第二标定物图像中标定物与摄像相机之间的位置向量;基于第一位置向量和第二位置向量,确定第一位置与第二位置之间的距离;第一位置为摄像相机在拍摄第一标定物图像时的摄像相机位置,第二位置为摄像相机在拍摄第二标定物图像时的摄像相机位置;基于第一位置、第二位置与底盘的中心点的平面几何关系、第一标定物图像对应的自转角度和第二标定物图像对应的自转角度,对摄像相机与底盘的相对位置进行标定,计算得到一个位置偏差值;返回在第二图像集中选取任意两个标定物图像的步骤,直至计算得到多个位置偏差值。
[0076] 在获得摄像相机的摄像相机内参数据和标定物数据之后,可开始对摄像相机位置进行标定。
[0077] 请参阅图3,图3是本发明实施例提供的位置标定过程的示意图。由于在本实施例中,摄像相机是固定设置在视觉互动一体机上的,因此,当视觉互动一体机执行自转动作(即控制底盘自转)时,摄像相机将以视觉互动一体机底盘的中心点o为圆心,以位置偏差长度length为半径,作圆周运动。
[0078] 具体而言,视觉互动一体机每旋转一个角度后,旋转前后的摄像相机位置将与圆心o将构成一个等腰三角形。
[0079] 具体地,在获得摄像相机的摄像相机内参数据和标定物数据之后,可通过OpenCV的手眼标定函数计算出摄像相机相对于标定板的三轴平移向量
[0080] 进一步地,在第二图像集中选取任意两个标定物图像,分别作为第一标定物图像i和第二标定物图像j,基于摄像相机内参数据和标定物数据,分别确定第一位置向量 和第二位置向量
[0081] 第一位置向量 为第一标定物图像中标定物与摄像相机之间的位置向量,二位置向量 为第二标定物图像中标定物与摄像相机之间的位置向量。
[0082] 进一步地,由空间向量关系可知,基于第一位置向量 和第二位置向量 可确定第一位置ci与第二位置cj之间的距离l,距离l的计算公式如下:
[0083]
[0084] 其中,第一位置为摄像相机在拍摄第一标定物图像时的摄像相机位置,第二位置为摄像相机在拍摄第二标定物图像时的摄像相机位置。
[0085] 进一步地,基于第一位置ci、第二位置cj与底盘的中心点o的平面几何关系、第一标定物图像对应的自转角度和第二标定物图像对应的自转角度,对摄像相机与底盘的相对位置进行标定,计算得到一个位置偏差值。
[0086] 如图3所示,在第二图像集中选取任意两个标定物图像,分别记为第一标定物图像1和第二标定物图像2,基于摄像相机内参数据和标定物数据,分别确定第一位置向量 和第二位置向量
[0087] 由空间向量关系可知,基于第一位置向量 和第二位置向量 可确定第一位置c1与第二位置c2之间的距离
[0088] 假设视觉互动一体机执行自转动作(即控制底盘自转)时,摄像相机以视觉互动一体机底盘的中心点o为圆心,以位置偏差长度length为半径,作圆周运动,则第一位置c1、第二位置c2与底盘的中心点o可组成顶角为θ的等腰三角形,顶角θ为底盘的自传角度,可基于第一标定物图像对应的自转角度和第二标定物图像对应的自转角度确定。
[0089] 如图3所示,此时,基于第一位置ci、第二位置cj与底盘的中心点o的平面几何关系,可求得该等腰三角形的底角α,底角α的计算公式如下:
[0090] α=(π‑θ)/2。
[0091] 根据平面几何关系,可对摄像相机与底盘的相对位置进行标定,计算得到一个位置偏差值length,位置偏差值length的计算公式如下:
[0092]
[0093] 进一步地,返回在第二图像集中选取任意两个标定物图像的步骤,直至计算得到多个位置偏差值。
[0094] 具体地,基于采集到的第二图像集中的多个标定物图像,分别计算得到多个位置偏差值,分别记为length1、length2、length3、length4等。
[0095] 进一步地,基于多个位置偏差值,进行加权聚合计算,获得摄像相机的位置标定结果
[0096] 本发明实施例通过视觉互动一体机自转采集不同视角的标定物图像数据,结合底盘旋转的角度数据,利用空间与平面几何关系,通过简单的计算就能实现对摄像相机与底盘的相对位置的标定,可实现摄像相机相对于视觉互动一体机底盘位置偏差的精确计算。
[0097] 基于多个位置偏差值进行加权聚合计算,获得摄像相机的位置标定结果,包括:选取一个位置偏差值作为参照数据,并将其余位置偏差值作为对比数据;分别确定每一对比数据与参照数据之间的距离差值;将每一距离差值分别与第一预设阈值作对比,获得多个对比结果;基于每一对比结果,确定参照数据的误差计数;返回选取一个位置偏差值作为参照数据,并将其余位置偏差值作为对比数据的步骤,直至获得所有位置偏差值对应的误差计数;基于每一位置偏差值对应的误差计数,进行异常数据剔除,获得多个正常位置偏差值;基于多个正常位置偏差值进行加权聚合计算,获得摄像相机的位置标定结果。
[0098] 可以理解地,在采集标定物图像时,在视觉互动一体机存在轻微运动或者拍摄视角不佳时,采集的标定物图像中可能会存在模糊或不清晰的图像,这样的图像数据会对位置偏差值的计算产生影响。
[0099] 因此,需要对异常位置偏差值进行剔除,再进行加权聚合计算,以有效提升位置标定结果的准确性。
[0100] 在本实施例中,采用统计投票的方法来识别并剔除异常位置偏差值,具体步骤如下:
[0101] (1)选取一个位置偏差值作为参照数据,将其余位置偏差值作为对比数据。
[0102] 具体地,在多个位置偏差值中,选择第一个位置偏差值作为参照数据,并将其余位置偏差值作为对比数据。
[0103] (2)分别确定每一对比数据与参照数据之间的距离差值。
[0104] 具体地,将每一其余位置偏差值依次与参照数据(即第一个位置偏差值)进行对比分析:针对每一个其余位置偏差值,计算该其余位置偏差值与参照数据之间的距离差值。
[0105] 例如,计算第2个位置偏差值length2和参照数据length1之间的距离差值Δdis,则计算公式如下:
[0106] Δdis=|length2‑length1|。
[0107] (3)将每一距离差值Δdis分别与第一预设阈值作对比,获得多个对比结果。
[0108] 可选地,第一预设阈值为0.1m(米)。
[0109] 针对每一距离差值Δdis,若该距离差值Δdis大于第一预设阈值,则可认为该其余位置偏差值与参照数据之间存在较大误差;若该距离差值Δdis小于或等于第一预设阈值,则可认为该其余位置偏差值与参照数据之间存在的误差较小。
[0110] (4)基于每一对比结果,确定参照数据的误差计数。
[0111] 具体地,若距离差值Δdis大于第一预设阈值,则该参照数据的误差计数增加1,基于每一对比结果可确定参照数据的误差计数。
[0112] 可以理解地,一个参照数据的误差计数应从0开始增加。
[0113] (5)返回选取一个位置偏差值作为参照数据,并将其余位置偏差值作为对比数据的步骤,直至获得所有位置偏差值对应的误差计数。
[0114] 具体地,针对每一参照数据,循环遍历所有其余位置偏差值,完成一轮比较后,再更换新的参照数据,依次将length2、length3、length4等作为参照数据,重复上述比较过程,直至获得所有位置偏差值对应的误差计数。
[0115] (6)基于每一位置偏差值对应的误差计数,进行异常数据剔除,获得多个正常位置偏差值;基于多个正常位置偏差值,进行加权聚合计算,获得摄像相机的位置标定结果。
[0116] 具体地,基于每一位置偏差值,按照误差计数值从大到小进行排序,获得排序结果;将排序结果中前20%的位置偏差值作为异常数据,剔除排序结果中前20%的位置偏差值,剩余的位置偏差值则为正常位置偏差值。
[0117] 进一步地,基于多个正常位置偏差值,进行加权聚合计算,获得摄像相机的位置标定结果。
[0118] 考虑到异常位置偏差值的计算是基于图像实现的,因此,当出现异常位置偏差值时,可能是图像存在问题,因此应当剔除异常位置偏差值对应的图像,再根据保留的正常图像重新计算摄像相机的位置标定结果。
[0119] 优选地,基于每一位置偏差值,按照误差计数值从大到小进行排序,获得排序结果之后,将排序结果中前20%的位置偏差值对应的标定物图像作为异常图像,剔除所有异常图像,保留多个正常图像;基于正常图像,对摄像相机与底盘的相对位置进行标定,确定摄像相机的位置标定结果。
[0120] 需要说明的是,在现有技术中,针对数据集准确性验证的研究较少,大多数研究默认采集的数据集是正常且可以直接使用的,因此没有对采集的图像数据进行校验和筛选,本发明通过对采集的图像进行二次筛选,通过对位置偏差值进行遍历,两两对比差异情况,基于统计投票结果对图像数据剔除,根据剩余图像解算最终的位置标定结果,可进一步提高标定结果的准确性。
[0121] 本发明实施例采用数据剔除策略将异常数据剔除,通过统计投票的方式识别和剔除异常数据,保证了最终结果的可靠性和准确性,增强了算法的鲁棒性。
[0122] 在一实施例中,基于第一图像集,对摄像相机的俯仰角进行标定,确定摄像相机的俯仰角标定结果,包括:获取摄像相机的摄像相机外参数据、摄像相机的摄像相机内参数据和标定物数据;基于摄像相机外参数据、摄像相机内参数据、标定物数据和第一图像集,对摄像相机的俯仰角进行标定,确定多个俯仰角;基于多个俯仰角,进行加权聚合计算,获得摄像相机的俯仰角标定结果。
[0123] 具体地,获得第一图像集后,俯仰角标定程序可对采集的第一图像集进行处理分析,通过使用PNP算法求解摄像相机的摄像相机外参数据,并获取摄像相机的摄像相机内参数据和标定物数据(即标定物的已知参数)。
[0124] 进一步地,基于摄像相机外参数据、摄像相机内参数据、标定物数据和第一图像集,对摄像相机的俯仰角进行标定,计算摄像相机相对于标定物的多个姿态角,姿态角记为(Roll,Pitch,Yaw),其中,Roll表示横滚角,Yaw表示偏航角,Pitch表示俯仰角。
[0125] 进一步地,基于多个俯仰角,进行加权聚合计算,获得摄像相机的俯仰角标定结果。
[0126] 本发明实施例通过采集多组标定物图像,结合外参标定算法和加权平均的方法,实现了摄像相机俯仰角标定,操作简单、计算复杂度低。
[0127] 在一实施例中,基于多个俯仰角,进行加权聚合计算,获得摄像相机的俯仰角标定结果,包括:选取一个俯仰角作为参照数据,并将其余俯仰角作为对比数据;分别确定每一对比数据与参照数据之间的角度差值;将每一角度差值分别与第二预设阈值作对比,获得多个对比结果;基于每一对比结果,确定参照数据的误差计数;返回选取一个俯仰角作为参照数据,并将其余俯仰角作为对比数据的步骤,直至获得所有俯仰角对应的误差计数;基于每一俯仰角对应的误差计数,进行异常数据剔除,获得多个正常俯仰角;基于多个正常俯仰角,进行加权聚合计算,获得摄像相机的俯仰角标定结果。
[0128] 可以理解地,在采集标定物图像时,在视觉互动一体机存在轻微运动或者拍摄视角不佳时,采集的标定物图像中可能会存在模糊或不清晰的图像,这样的图像数据会对俯仰角的计算产生影响。
[0129] 因此,需要对异常俯仰角进行剔除,再进行加权聚合计算,以有效提升俯仰角标定结果的准确性。
[0130] 在本实施例中,采用统计投票的方法来识别并剔除异常俯仰角,具体步骤如下:
[0131] (1)选取一个俯仰角作为参照数据,并将其余俯仰角作为对比数据。
[0132] 具体地,在多个俯仰角中,选择第一个俯仰角作为参照数据,并将其余俯仰角作为对比数据。
[0133] (2)分别确定每一对比数据与参照数据之间的角度差值。
[0134] 具体地,将每一其余俯仰角依次与参照数据(即第一个俯仰角)进行对比分析:针对每一个其余俯仰角,计算该其余俯仰角与参照数据之间的角度差值。
[0135] (3)将每一角度差值分别与第二预设阈值作对比,获得多个对比结果。
[0136] 针对每一角度差值,若该角度差值大于第二预设阈值,则可认为该其余俯仰角与参照数据之间存在较大误差;若该角度差值小于或等于第二预设阈值,则可认为该其余俯仰角与参照数据之间存在的误差较小。
[0137] (4)基于每一对比结果,确定参照数据的误差计数。
[0138] 具体地,若角度差值大于第二预设阈值,则该参照数据的误差计数增加1,基于每一对比结果可确定参照数据的误差计数。
[0139] 可以理解地,一个参照数据的误差计数应从0开始增加。
[0140] (5)返回选取一个俯仰角作为参照数据,并将其余俯仰角作为对比数据的步骤,直至获得所有俯仰角对应的误差计数。
[0141] (6)基于每一俯仰角对应的误差计数,进行异常数据剔除,获得多个正常俯仰角;基于多个正常俯仰角,进行加权聚合计算,获得摄像相机的俯仰角标定结果。
[0142] 具体地,基于每一俯仰角,按照误差计数值从大到小进行排序,获得排序结果;将排序结果中前20%的俯仰角作为异常数据,剔除排序结果中前20%的俯仰角,剩余的俯仰角则为正常俯仰角。
[0143] 进一步地,基于多个正常俯仰角,进行加权聚合计算,获得摄像相机的俯仰角标定结果。
[0144] 考虑到异常俯仰角的计算是基于图像实现的,因此,当出现俯仰角时,可能是图像存在问题,因此应当剔除异常俯仰角对应的图像,再根据保留的正常图像重新计算摄像相机的俯仰角标定结果。
[0145] 优选地,基于每一俯仰角,按照误差计数值从大到小进行排序,获得排序结果之后,将排序结果中前20%的俯仰角对应的标定物图像作为异常图像,剔除所有异常图像,保留多个正常图像;基于正常图像,对摄像相机的俯仰角进行标定,确定摄像相机的俯仰角标定结果。
[0146] 下面对本发明提供的视觉互动一体机进行描述,下文描述的视觉互动一体机与上文描述的基于运动捕捉的一体机交互方法可相互对应参照。请参阅图4,图4为本发明实施例提供的视觉互动一体机的实施例示意图。如图4所示,视觉互动一体机中安装有固定设置的摄像相机和底盘,视觉互动一体机包括获取单元、特征融合单元、图像处理单元、目标识别单元和展示互动单元;
[0147] 获取单元410,用于响应教学用户的在线教学请求,基于视觉一体机中的摄像相机获取教学用户在教学过程中的教学视频,以及教学视频中每一帧对应的教学动作图像;
[0148] 特征融合单元420,用于采用特征金字塔网络对教学动作图像的目标特征进行多尺度特征融合,得到多个层级的特征图,多个层级的特征图包括目标层级的第一特征图以及其他层级的第二特征图;
[0149] 图像处理单元430,用于采用多尺度空洞卷积掩膜对第一特征图进行稀疏化处理,得到稀疏特征图;
[0150] 目标识别单元440,用于对第二特征图和稀疏特征图进行目标识别,得到教学动作图像对应的用户动态形象;
[0151] 展示互动单元450,用于将用户动态形象和教学视频展示在视觉互动一体机,其中,用户动态形象跟随教学视频的播放进行律动。
[0152] 本发明提供的视觉互动一体机,能够将用户动态形象和教学视频共同展示在视觉互动一体机,且用户动态形象跟随教学视频的播放进行律动,增强了教学用户和学生之间的互动性,增加了教学趣味性,提高了学生的学习积极性,从而提高了教学效果。
[0153] 参阅图5,图5是本发明提供的电子设备的结构示意图,本发明实施例提了一种电子设备500,包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序511,处理器520执行计算机程序511时实现以下步骤:
[0154] 响应教学用户的在线教学请求,基于所述视觉一体机中的摄像相机获取所述教学用户在教学过程中的教学视频,以及所述教学视频中每一帧对应的教学动作图像;
[0155] 采用特征金字塔网络对所述教学动作图像的目标特征进行多尺度特征融合,得到多个层级的特征图,所述多个层级的特征图包括目标层级的第一特征图以及其他层级的第二特征图;
[0156] 采用多尺度空洞卷积掩膜对所述第一特征图进行稀疏化处理,得到稀疏特征图;
[0157] 对所述第二特征图和所述稀疏特征图进行目标识别,得到所述教学动作图像对应的用户动态形象;
[0158] 将所述用户动态形象和所述教学视频展示在所述视觉互动一体机,其中,所述用户动态形象跟随所述教学视频的播放进行律动。
[0159] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
[0160] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。