首页 / 动作识别方法及装置

动作识别方法及装置实质审查 发明

技术领域

[0001] 本申请涉及计算机技术领域,特别涉及一种动作识别方法。本申请同时涉及一种动作识别装置,一种计算设备,以及一种计算机可读存储介质。

相关背景技术

[0002] 随着计算机技术的不断发展,为了提升对动作视频的识别率,动作视频的创作者可以为视频添加与视频动作内容相关的标签。
[0003] 然而,用户对于视频内容的理解不同,往往会存标签添加标准不统一,甚至标签添加错误的情况出现,导致动作视频的动作识别正确率较低。
[0004] 因此,如何提升对视频中动作的识别准确度成为本领域技术人员亟待解决的技术问题。

具体实施方式

[0027] 在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0028] 在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
[0029] 应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0030] 首先,对本申请一个或多个实施例涉及的名词术语进行解释。
[0031] 多模态:指的是每一种来源或形式的数据,都可以看作是一种模态信息,包括:文本、图像、视频、音频等。
[0032] OCR:OCR(optical characterrecognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。
[0033] 依存分析:依存关系分析,又称依存句法分析(dependency syntactic parsing),简称依存分析,作用是识别句子中词汇与词汇之间的相互依存关系。
[0034] 实体识别:命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的词(实体),主要包括人名、地名、机构名、专有名词等等,并把我们需要识别的词在文本序列中标注出来。
[0035] 在本申请中,提供了一种动作识别方法,本申请同时涉及一种动作识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
[0036] 图1示出了根据本申请一实施例提供的一种动作识别方法的流程图,具体包括以下步骤:
[0037] 步骤102:接收针对待处理视频的动作识别任务。
[0038] 在实际应用中,存在许多需要进行动作识别的场景,例如,识别健身视频中的健身动作是否标准,是否与健身指导音频一致等;再如,识别视频中的动作为什么动作,进而可以进一步标注动作消耗热量等等。
[0039] 其中,待处理视频是指存在动作识别需求的视频文件,如,未经过视频创作者进行动作标注的视频;动作识别任务是指在待处理视频中的识别目标动作的任务,如,在待处理视频中识别踢腿动作、抬手臂动作等。
[0040] 例如,接收针对健身视频A的动作识别任务,其中,动作识别任务用于识别健身视频A中所包含的动作。
[0041] 通过接收针对待处理视频的动作识别任务,便于后续基于动作识别任务在待处理视频中进行动作的识别。
[0042] 步骤104:确定所述待处理视频中的待识别动作,并确定所述待识别动作对应的动作文本信息和动作画面信息。
[0043] 在接收到针对待处理视频的动作识别任务后,基于动作识别任务触发在待处理视频中确定待识别动作,并识别待识别动作对应的动作文本信息和动作画面信息。
[0044] 其中,待识别动作是指需要在待处理视频中识别到的动作,例如,在健身视频B中“侧平举”动作为待识别动作;动作文本信息是指在待识别视频中识别到的与待识别动作对应的文本信息,如,待处理视频中的音频兑对应的文本信息、待处理画面中的字幕对应的文本信息等等;动作画面信息是指在待识别视频中识别待的与待识别动作对应的画面信息,如,在待处理视频中的侧平举画面对应的画面信息。
[0045] 例如,确定待处理视频G,并确定待处理视频G中的待识别动作为“向右转”;在待处理视频中,识别待识别动作“向右转”对应的动作文本信息,其中,动作文本信息包括:待处理视频G中的字幕文本信息和音频文本信息;识别待识别动作“向右转”对应的动作画面信息。
[0046] 通过在待处理视频中确定待识别动作对应的动作文本信息和动作画面信息,以用于后续基于动作文本信息和动作画面信息执行动作识别任务。
[0047] 在实际应用中,确定所述待处理视频中的待识别动作,并确定所述待识别动作对应的动作文本信息和动作画面信息的方法可以包括:
[0048] 识别所述待处理视频中的待识别动作标识;
[0049] 基于所述待识别动作标识在所述待处理视频中截取动作视频片段;
[0050] 在所述动作视频片段中识别所述待识别动作对应的动作文本信息和动作画面信息。
[0051] 其中,待识别动作标识是指用于确定待处理视频中待识别动作的标识,可以是在待处理视频中识别到的动作音频,动作文本等,如,待识别动作标识为待处理视频中的音频片段“开始下一个动作”;动作视频片段是指根据待识别动作标识在待处理视频中截取的视频片段,如,根据待识别动作标识1和2确定待识别动作A在待处理视频中的起始时间点为3分15秒,结束时间点为3分30秒,则根据确定时间点在待处理视频中截取待识别动作A对应的视频片段。
[0052] 具体的,在待处理视频中确定待识别动作标识,具体确定待识别动作标识的方式可以是根据预设的音频片段在待处理视频中匹配与预设音频片段对应的音频,从而确定视频片段的开始或结束时间;还可以是根据预设文本在待处理视频对应的视频文本中匹配与预设文本对应的文本内容,进而确定视频片段;具体确定待识别动作标识的方式,可以基于实际情况设定,本申请不做限定。
[0053] 根据待识别动作在待处理视频中确定待识别动作对应的动作开始时间点和动作结束时间点,进而得到每个待识别动作对应播放时间区间;根据每个待识别动作对应的播放时间区间,在待处理视频中截取每个待识别动作对应的动作视频片段。
[0054] 在确定每个待识别动作对应的动作视频片段后,在每个待视频动作对应的动作视频片段中识别动作文本信息和动作画面信息。
[0055] 具体的,在动作视频片段中识别动作文本信息的方式可以包括:识别动作视频片段中的字幕文本信息,如,采用OCR技术识别视频中的字幕对应的文本信息;识别动作视频片段的音频对应的文本信息,如,采用ASR语音识别技术采集动作视频片段的音频对应的文本信息;动作文本信息可以是字幕对应的文本信息或是音频对应的文本信息,还可以是由字幕对应的文本信息和音频对应的文本信息组成的文本信息集合;在动作视频片段中识别动作画面信息的方式可以包括:识别动作视频片段中的对象动作信息作为动作画面信息。
[0056] 例如,识别待处理视频D中的待识别动作标识为“开始侧平举动作”以及“开始踢腿动作”;根据待识别动作标识确定待识别动作“侧平举”的开始时间点和待识别动作标识确定待识别动作“踢腿”的开始时间点,由于侧平举动作在踢腿动作之前,则可以根据“侧平举”的开始时间点和“踢腿”的开始时间点在待处理视频D中截取待识别动作“侧平举”对应的动作视频片段。
[0057] 通过识别动作视频片段中的动作文本信息,即将待处理视频中的动作相关信息(如动作名称、动作描述、动作指导等)以文本的方式进行呈现,从而将待处理视频中的动作指导语音频、屏幕上的动作文字转换等动作信息转换为文本,便于后续的处理。
[0058] 步骤106:根据所述动作文本信息和预设骨骼点信息确定所述待识别动作对应的动作文本向量,根据所述动作画面信息确定所述待识别动作对应的动作画面向量。
[0059] 其中,预设骨骼点信息是指身体部位对应的骨骼点信息,如,确定身体部位“手臂”对应的骨骼点信息为“肱骨”,即在产生手臂运动时会调用“肱骨”;动作文本向量是指根据预设骨骼点信息对动作文本信息进行编码得到的向量;动作画面向量是指对动作画面信息进行编码得到的向量。
[0060] 具体的,根据预设骨骼点信息和动作文本信息确定动作文本信息中动作文本与骨骼点之间的关联关系,进而基于关联关系对动作文本信息进行编码得到动作文本向量;对动作画面信息进行编码得到动作画面向量。
[0061] 在实际应用中,根据所述动作文本信息和预设骨骼点信息确定所述待识别动作对应的动作文本向量的方法可以包括:
[0062] 提取所述动作文本信息中的动作部位信息和动作信息;
[0063] 分析所述动作部位信息与所述动作信息之间的依存关系;
[0064] 根据预设骨骼点信息确定所述动作部位信息对应的文本骨骼点信息;
[0065] 编码所述依存关系和所述文本骨骼点信息获得所述待识别动作对应的动作文本向量。
[0066] 其中,动作部位信息是指用于描述身体部位的信息,如,“双手手臂”、“左肩”、“右腿”等等;动作信息是指与动作部位信息对应的动作,如,“抬平双臂”对应的动作信息为“侧平举”;通过对动作文本信息进行实体识别,可以得到文动作文本信息中的动作部位信息和动作信息,如,对动作文本信息“将双手手臂从身体两侧侧平举至过头”进行实体识别,得到动作部位信息“双手手臂”和动作信息“侧平举”。
[0067] 依存关系是指动作部位信息与动作信息之间的关系,如,“双手手臂”与“侧平举”之间为主动关系;获得依存关系的方法可以是:对动作文本信息进行依存分析;文本骨骼点信息是指与动作部位信息对应的骨骼点信息。
[0068] 具体的,对动作文本信息进行实体识别,获得动作部位信息和动作信息;通过依存分析得到动作部位信息与动作信息之间的依存关系;基于预设骨骼点信息将动作部位信息映射为骨骼点集合,即文本骨骼点信息,并将动作信息映射为通用动作信息,如将“侧平举”映射为通用动作“举”;基于映射信息和依存关系进行编码,得到动作文本向量。
[0069] 例如,在待处理视频中确定音频文本“将双手手臂从身体两侧侧平举至过头”;对音频文本进行实体识别,识别出动作部位信息“双手手臂”和动作信息“侧平举”;通过依存分析得到动作部位信息“双手手臂”和动作信息“侧平举”之间的依存关系为主动关系;基于预设骨骼点信息将双手手臂映射为骨骼点集合{右桡骨,左尺骨,左桡骨,右尺骨,左肱骨,右肱骨},将“侧平举”映射为通用动作“举”;基于依存关系和实体间映射进行编码,得到动作文本向量。
[0070] 在本申请一具体实施方式中,通过编码获得的动作文本向量如图2的动作文本向量示意图所示,图2中,name是指动作名称,如,L字伸展,V字支撑等等;post1_1是指骨骼点1对应的动作1,并且骨骼点1与动作1为主动关系;cor2_147是指骨骼点2对应的动作147,并且骨骼点2与动作147的关系为关联关系;动作名称右侧的0、1、2分别表示执行该动作时需要用到对应骨骼点的次数,如,L字伸展对应post1_1的中2表示在执行动作L字伸展需要使用2次骨骼点1。
[0071] 通过编码获得动作文本向量,便于后续将动作文本向量用于动作识别任务,进而提升动作识别效果。
[0072] 进一步地,在动作识别任务为识别视频字幕或音频是否与视频中的画面一致的情况下,需要确定动作画面信息对应的动作画面向量,用于动作识别任务的执行。
[0073] 具体的,根据所述动作画面信息确定所述待识别动作对应的动作画面向量的方法可以包括:
[0074] 识别所述动作画面信息中的视频骨骼点信息和所述视频骨骼点信息对应的视频动作信息;
[0075] 编码所述视频动作信息和所述视频骨骼点信息获得所述待识别动作对应的动作画面向量。
[0076] 其中,视频骨骼点信息是指动作画面信息中待识别动作对应的骨骼点信息;视频动作信息是指根据视频骨骼点信息对应的动作信息。
[0077] 具体的,根据动作画面信息确定视频骨骼点信息以及与视频骨骼点信息对应的视频动作信息后,基于视频骨骼点信息与视频动作信息的对应关系进行编码,得到动作画面向量。
[0078] 通过编码获得动作文本向量和动作画面向量,以便后续基于动作文本向量和动作画面向量执行动作识别任务。
[0079] 步骤108:基于所述动作文本向量和所述动作画面向量执行所述动作识别任务,获得动作识别结果。
[0080] 其中,动作识别结果是指执行动作识别任务后获得的结果,例如,动作识别任务为确定视频画面动作是否与视频音频的提示动作一致,则动作识别结果为一致或不一致。
[0081] 实际应用中,在确定动作文本向量和动作画面向量后,可直接根据动作文本向量和动作画面向量执行动作识别任务;具体的,确定动作识别任务对应的动作识别模型,将动作文本向量和动作画面向量输入至动作识别模型,获取动作识别模型输出的动作识别结果。
[0082] 在实际应用中,基于所述动作文本向量和所述动作画面向量执行所述动作识别任务,获得动作识别结果的具体方法可以包括:
[0083] 确定所述动作识别任务对应的目标任务类型;
[0084] 基于所述目标任务类型确定目标动作识别模型,并根据所述动作文本向量、所述动作画面向量以及所述目标动作识别模型,获得动作识别结果。
[0085] 其中,目标任务类型是指动作识别任务对应的任务类型,如,相似度识别类型、视频打标类型等等;根据目标任务类型可以确定对应的目标动作识别模型,目标动作识别模型是指用于执行动作识别任务的模型。
[0086] 具体的,确定动作识别标识对应的目标任务类型;并根据目标任务类型确定对应的目标动作识别模型;在确定动作文本向量、动作画面向量和目标动作识别模型后即可得到动作识别结果。
[0087] 进一步地,为了提升动作文本向量的准确性,进而提升动作识别的准确性,可以对动作文本向量做进一步的处理,获得动作融合向量,再由动作融合向量和动作画面向量执行动作识别任务。
[0088] 具体的,基于所述动作文本向量和所述动作画面向量执行所述动作识别任务,获得动作识别结果的方法可以包括:
[0089] 确定动作模式判别模型,并基于所述动作模式判别模型和所述动作文本向量获得动作融合向量;
[0090] 基于所述动作融合向量和所述动作画面向量执行所述动作识别任务,获得动作识别结果。
[0091] 其中,动作模式判别模型是指用于判断动作文本向量与预设动作模式是否一致的模型;动作融合向量是指根据动作文本向量和动作模型判别模型获得的向量。
[0092] 具体的,将动作文本向量输入至动作模式判别模型中,获得概率向量,其中,概率向量是指动作文本向量符合动作模式判别模型中的预设动作模型的概率对应的向量;将动作文本向量与输出的概率向量进行拼接,得到动作融合向量;由获得的动作融合向量和动作画面向量执行动作识别结果。
[0093] 在实际应用中,可以存在多种动作模式,并且可以分别为每个动作模式设置对应的动作模式判别模型,故基于所述动作模式判别模型和所述动作文本向量获得动作融合向量的具体方法还可以包括:
[0094] 确定至少一个目标动作模式判别模型,并将所述动作文本向量输入至每个目标动作模式判别模型中;
[0095] 获取每个目标动作模式判别模型输出的动作模式概率向量;
[0096] 拼接所述动作文本向量和每个动作模式概率向量,获得动作融合向量。
[0097] 其中,目标动作模式判别模型是指多个动作模式判别模型中的任意模型之一;动作模式概率向量是指由目标动作模式判别模型根据动作文本向量输出的向量。
[0098] 具体的,将动作文本向量输入分别输入至每个目标动作模式判别模型中,获得与动作文本向量对应的动作模式概率向量;对动作文本向量以及每个动作模式概率向量进行拼接,得到动作融合向量。
[0099] 在本申请一具体实施方式中,拼接获得的动作融合向量如图3的动作融合向量示意图所示,其中,253、302、436等表示动作标识,例如,253为动作“L字伸展”的动作标识;post1_1到post1_10下的0、1、2、3表示在执行该动作时需要使用骨骼点的次数。pred_res7表示动作模式7,253对应pred_res7中的0表示动作253不属于动作模式7;436对应pred_res7中的1表示动作253属于动作模式7。
[0100] 通过将动作文本向量与获得的每个动作模型概率向量进行拼接,从而获得便于后续提升动作识别准确率的动作融合向量。
[0101] 在实际应用中,目标任务类型可以包括联合类型、协同类型等等。
[0102] 具体的,在目标任务类型为联合类型的情况下,基于所述动作融合向量和所述动作画面向量执行所述动作识别任务,获得动作识别结果的方法可以包括:
[0103] 在所述动作识别任务对应的目标任务类型为联合类型的情况下,确定联合类型对应的联合动作识别模型;
[0104] 拼接所述动作融合向量和所述动作画面向量获得动作联合向量;
[0105] 获取所述联合动作识别模型基于所述动作联合向量输出的动作识别结果。
[0106] 其中,联合类型是指需要将向量进行拼接后,再做进一步处理的动作识别任务类型,例如,为视频打标签的任务为联合类型任务;联合动作识别模型是指用于处理联合任务类型的动作识别任务的模型,该模型在接收到动作融合向量和动作画面向量后,可以对项链进行拼接后再做进一步的处理;动作联合向量是指拼接动作融合向量和动作画面向量获得的向量。
[0107] 进一步地,在确定动作识别任务对应的目标任务类型为联合类型的情况下,联合动作识别模型对动作融合向量和动作画面向量进行拼接后得到动作联合向量,并基于动作联合向量获得动作识别结果。此外,还可以将拼接所述动作融合向量和所述动作画面向量获得动作联合向量后,再将动作联合向量输入至动作识别模型,本申请不做具体限定。
[0108] 具体的,在目标任务类型为协同类型的情况下,根据所述动作文本向量、所述动作画面向量以及所述目标动作识别模型,获得动作识别结果,包括:
[0109] 在所述动作识别任务对应的目标任务类型为协同类型的情况下,确定协同类型对应的协同动作识别模型;
[0110] 将所述动作文本向量和所述动作画面向量输入至所述协同动作识别模型;
[0111] 获取所述协同动作识别模型基于所述动作文本向量和所述动作画面向量输出的动作识别结果。
[0112] 其中,协同类型任务是指需要对向量分别进行处理的任务类型,例如,计算相似度为协同类型任务;协同动作识别模型是指用于处理协同任务类型的动作识别任务的模型。
[0113] 由于上述获得的动作融合向量是基于动作文本向量与动作概率向量拼接得到的,存在动作融合向量与动作画面向量维度不一致的情况下,进而影响协同类型的动作识别任务的处理,例如,不同维度的向量无法进行相似度计算;故在确定动作识别任务的目标任务类型为协同类型的情况下,协同动作识别模型直接对接收动作文本向量和动作画面向量进行处理,而无需拼接操作,在由协同动作识别模型输出动作识别结果。
[0114] 本申请提供的动作识别方法,接收针对待处理视频的动作识别任务;确定所述待处理视频中的待识别动作,并确定所述待识别动作对应的动作文本信息和动作画面信息;根据所述动作文本信息和预设骨骼点信息确定所述待识别动作对应的动作文本向量,根据所述动作画面信息确定所述待识别动作对应的动作画面向量;基于所述动作文本向量和所述动作画面向量执行所述动作识别任务,获得动作识别结果。
[0115] 本申请一实施例实现了识别待处理视频中的动作文本信息和动作画面信息,并获得对应的动作文本向量和动作画面向量执行动作识别任务,获得动作识别结果,从而提升动作识别的准确性。
[0116] 下述结合附图4和附图5,以本申请提供的动作识别方法在健身视频的应用为例,对所述动作识别方法进行进一步说明。其中,图4示出了本申请一实施例提供的一种应用于健身视频的动作识别方法的处理流程图,具体包括以下步骤:
[0117] 步骤402:接收针对健身视频的动作识别任务。
[0118] 具体的,接收针对健身视频H的动作识别任务,其中,动作识别任务为对健身视频H中的健身动作进行动作难度预估。
[0119] 步骤404:识别健身视频中的待识别动作标识,并基于待识别动作标识在健身视频中截取动作视频片段。
[0120] 步骤406:在动作视频片段中识别待识别动作对应的动作文本信息和动作画面信息。
[0121] 具体的,如图5的动作识别方法的示意图所示,图5是本申请一实施例提供的动作识别方法的示意图,在图5的视频转文字部分,通过OCR技术识别视频中的字幕文本,通过ASR语音识别的方式识别视频中音频对应的文本,其中,ASR为语音识别模型,包含信号处理、声学模型、语言模型、解码器以及后处理模块;识别过程中采用phone近音词识别音频,提升语音识别的准确率。
[0122] 步骤408:提取动作文本信息中的动作部位信息和动作信息,并分析动作部位信息与动作信息之间的依存关系。
[0123] 具体的,如图5所示,在图5的文本结构化部分,对动作文本信息进行实体识别,如识别文本中的部位、动作、器械等实体文本;进一步使用句法依存分析确定实体文件间的主谓、动宾的依存关系。
[0124] 步骤410:根据预设骨骼点信息确定动作部位信息对应的文本骨骼点信息。
[0125] 具体的,确定骨骼点信息和动作空间。
[0126] 步骤412:编码依存关系和文本骨骼点信息获得待识别动作对应的动作文本向量。
[0127] 具体的,如图5的文本结构化部分所示,根据依存关系、文本骨骼点信息映射编码动作文本向量。
[0128] 步骤414:识别动作画面信息中的视频骨骼点信息和所述视频骨骼点信息对应的视频动作信息。
[0129] 步骤416:编码视频动作信息和视频骨骼点信息获得待识别动作对应的动作画面向量。
[0130] 步骤418:确定至少一个目标动作模式判别模型,并将动作文本向量输入至每个目标动作模式判别模型中。
[0131] 步骤420:获取每个目标动作模式判别模型输出的动作模式概率向量,拼接动作文本向量和每个动作模式概率向量,获得动作融合向量。
[0132] 步骤422:确定动作识别任务对应的目标任务类型,并基于目标任务类型确定目标动作识别模型。
[0133] 具体的,确定动作识别任务为动作难度预估类型,则确定用于进行动作难度预估的目标动作识别模型。
[0134] 如图5所示,在动作多模态融合部分展示了两种表示方式;不同的应用场景可采用不同的向量处理方式;多模态协同表示具体处理方式可以是:统一表示空间预测语义相似度、多残差融合处理;多模态联合表示具体处理方式可以是自编码器、模态特征加权处理。
[0135] 步骤424:将动作融合向量和动作画面向量输入至目标动作识别模型中,获得动作识别结果。
[0136] 具体的,目标动作识别模型接收到动作融合向量和动作画面向量后,对动作融合向量和动作画面向量进行拼接获得动作联合向量;根据动作联合向量做进一步的动作识别处理,获取目标动作识别模型基于动作联合向量输出的动作识别结果。
[0137] 如图5所示,得到的向量除用于动作难度预估外,还可以用于动作相似度计算、动作层次多标签分类处理;更进一步,还可以是课程难度、相似度等视频标签拓展处理。
[0138] 本申请提供的动作识别方法,接收针对待处理视频的动作识别任务;确定所述待处理视频中的待识别动作,并确定所述待识别动作对应的动作文本信息和动作画面信息;根据所述动作文本信息和预设骨骼点信息确定所述待识别动作对应的动作文本向量,根据所述动作画面信息确定所述待识别动作对应的动作画面向量;基于所述动作文本向量和所述动作画面向量执行所述动作识别任务,获得动作识别结果。本申请一实施例通过识别待处理视频中的动作文本信息和动作画面信息,并获得对应的动作文本向量和动作画面向量执行动作识别任务,获得动作识别结果,从而提升动作识别的准确性。
[0139] 与上述方法实施例相对应,本申请还提供了动作识别装置实施例,图6示出了本申请一实施例提供的一种动作识别装置的结构示意图。如图6所示,该装置包括:
[0140] 接收模块602,被配置为接收针对待处理视频的动作识别任务;
[0141] 第一确定模块604,被配置为确定所述待处理视频中的待识别动作,并确定所述待识别动作对应的动作文本信息和动作画面信息;
[0142] 第二确定模块606,被配置为根据所述动作文本信息和预设骨骼点信息确定所述待识别动作对应的动作文本向量,根据所述动作画面信息确定所述待识别动作对应的动作画面向量;
[0143] 执行模块608,被配置为基于所述动作文本向量和所述动作画面向量执行所述动作识别任务,获得动作识别结果。
[0144] 可选地,所述第一确定模块604,进一步被配置为:
[0145] 识别所述待处理视频中的待识别动作标识;
[0146] 基于所述待识别动作标识在所述待处理视频中截取动作视频片段;
[0147] 在所述动作视频片段中识别所述待识别动作对应的动作文本信息和动作画面信息。
[0148] 可选地,所述第二确定模块606,进一步被配置为:
[0149] 提取所述动作文本信息中的动作部位信息和动作信息;
[0150] 分析所述动作部位信息与所述动作信息之间的依存关系;
[0151] 根据预设骨骼点信息确定所述动作部位信息对应的文本骨骼点信息;
[0152] 编码所述依存关系和所述文本骨骼点信息获得所述待识别动作对应的动作文本向量。
[0153] 可选地,所述第二确定模块606,进一步被配置为:
[0154] 识别所述动作画面信息中的视频骨骼点信息和所述视频骨骼点信息对应的视频动作信息;
[0155] 编码所述视频动作信息和所述视频骨骼点信息获得所述待识别动作对应的动作画面向量。
[0156] 可选地,所述执行模块608,进一步被配置为:
[0157] 确定动作模式判别模型,并基于所述动作模式判别模型和所述动作文本向量获得动作融合向量;
[0158] 基于所述动作融合向量和所述动作画面向量执行所述动作识别任务,获得动作识别结果。
[0159] 可选地,所述执行模块608,进一步被配置为:
[0160] 确定至少一个目标动作模式判别模型,并将所述动作文本向量输入至每个目标动作模式判别模型中;
[0161] 获取每个目标动作模式判别模型输出的动作模式概率向量;
[0162] 拼接所述动作文本向量和每个动作模式概率向量,获得动作融合向量。
[0163] 可选地,所述执行模块608,进一步被配置为:
[0164] 确定所述动作识别任务对应的目标任务类型;
[0165] 基于所述目标任务类型确定目标动作识别模型,并根据所述动作文本向量、所述动作画面向量以及所述目标动作识别模型,获得动作识别结果。
[0166] 可选地,所述执行模块608,进一步被配置为:
[0167] 在所述动作识别任务对应的目标任务类型为联合类型的情况下,确定联合类型对应的联合动作识别模型;
[0168] 拼接所述动作融合向量和所述动作画面向量获得动作联合向量;
[0169] 获取所述联合动作识别模型基于所述动作联合向量输出的动作识别结果。
[0170] 可选地,所述执行模块608,进一步被配置为:
[0171] 在所述动作识别任务对应的目标任务类型为协同类型的情况下,确定协同类型对应的协同动作识别模型;
[0172] 将所述动作文本向量和所述动作画面向量输入至所述协同动作识别模型;
[0173] 获取所述协同动作识别模型基于所述动作文本向量和所述动作画面向量输出的动作识别结果。
[0174] 本申请的动作识别装置,接收模块,接收针对待处理视频的动作识别任务;第一确定模块,确定所述待处理视频中的待识别动作,并确定所述待识别动作对应的动作文本信息和动作画面信息;第二确定模块,根据所述动作文本信息和预设骨骼点信息确定所述待识别动作对应的动作文本向量,根据所述动作画面信息确定所述待识别动作对应的动作画面向量;执行模块,基于所述动作文本向量和所述动作画面向量执行所述动作识别任务,获得动作识别结果。
[0175] 上述为本实施例的一种动作识别装置的示意性方案。需要说明的是,该动作识别装置的技术方案与上述的动作识别方法的技术方案属于同一构思,动作识别装置的技术方案未详细描述的细节内容,均可以参见上述动作识别方法的技术方案的描述。
[0176] 图7示出了根据本申请一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
[0177] 计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi‑MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
[0178] 在本申请的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0179] 计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
[0180] 其中,处理器720执行所述计算机指令时实现所述的动作识别方法的步骤。
[0181] 上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的动作识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述动作识别方法的技术方案的描述。
[0182] 本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述动作识别方法的步骤。
[0183] 上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的动作识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述动作识别方法的技术方案的描述。
[0184] 上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0185] 所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0186] 需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
[0187] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0188] 以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

当前第1页 第1页 第2页 第3页
相关技术
方法装置相关技术
识别方法相关技术
陈一初发明人的其他相关专利技术