技术领域
[0001] 本申请涉及计算机视觉技术领域,特别涉及一种视频定位模型训练方法。本申请同时涉及一种视频定位模型训练装置、一种计算设备,以及一种计算机可读存储介质。
相关背景技术
[0002] 视频是包含大信息量的媒介之一,随着互联网和社交移动网络的迅速发展,互联网上的视频数量呈爆炸式增长。如何在大量的互联网视频中迅速准确地找到用户所需要的视频内容,是关系着提升用户体验、提高视频创作者生产效率的具有实际应用价值的问题,也是传统视频检索需要解决的关键问题之一。基于文本的视频时刻定位是一种新兴检索方式,在这种方式下,用户可以通过输入文字内容在长视频中定位到所需要的片段。大多数现有的时刻定位方法可以分为两类:基于候选片段的方法和不基于候选的方法。基于候选片段的方法通常会预先生成可能与查询句子相匹配的视频片段,然后,它们通过跨模态融合模块计算所有候选片段和查询之间的匹配程度,并选择匹配程度最高的候选片段作为输出;不基于候选的方法将视频帧作为视频的基本单元,直接预测视频序列上目标片段的开始边界和结束边界。这些方法大多数都设计有各种特定的跨模态融合模块,或者利用更加丰富的监督信号,通过将视频和自然语言句子进行对齐来实现准确的时刻定位。
[0003] 尽管上述方法已经取得了很多具有前景的性能,但仍有两个尚未解决的关键问题:(1)基于候选的方法大多采用时间卷积设计,通过对帧级视频特征执行卷积或池化操作来构造视频表示,然而池化操作平等地对待视频中的每个元素而无法关注到关键信息,并且无法对视频中丰富的时间信息进行建模,而卷积操作受限于卷积核的固定结构,也无法表示视频中的不同时间阶段;(2)现有方法主要对齐视频和文本中的非结构化全局表示,较少关注视觉或文本中作为语义主干的常见细粒度表示。这种非结构化全局表示之间的粗粒度对齐操作让模型难以完全理解视频和文本中包含的语义,而是只能理解特定的查询模式。同时,这种非结构化的全局表示也很难代表视频和文本之间的细粒度对应关系,因此无法理解查询文本中出现的新颖成分,组合泛化能力有限。
具体实施方式
[0022] 在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0023] 在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0024] 应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
[0025] 首先,对本发明一个或多个实施例涉及的名词术语进行解释。
[0026] GloVe模型:是一种用于生成词向量的模型,它通过在大规模语料库上训练来捕捉词汇之间的全局语义关系。
[0027] C3D网络:(Convolutional 3D Networks)是一种基于深度学习的三维卷积网络,旨在使用三维卷积神经网络来提取视频中的特征,以实现视频分类和行为识别等任务。
[0028] I3D网络:是一种新型的深度学习网络,它通过结合了用于图像分析的三维卷积层和用于时间序列分析的双向循环层,实现了对立体图像的分析。主要用于视频分类、动作分割、动作识别和3D姿态估计等任务。
[0029] 在本申请中,提供了一种视频定位模型训练方法。本申请同时涉及一种视频定位模型训练装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
[0030] 图1示出了根据本申请一实施例提供的一种视频定位模型训练方法的流程图,具体包括以下步骤:步骤S102:通过初始视频定位模型提取样本数据集中样本文本的单词级文本特
征,以及所述样本数据集中样本视频的帧级视频特征;
步骤S104:融合所述单词级文本特征与所述帧级视频特征,得到句子级文本特征和包含上下文语义信息的视觉特征;
步骤S106:确定所述视觉特征对应的剪辑视频段的阶段特定表示,并根据所述阶段特定表示,在所述剪辑视频段中选取候选视频段;
步骤S108:通过所述候选视频段与所述样本数据集中的真实视频段,对所述初始视频定位模型进行训练,直至满足训练停止条件,得到目标视频定位模型。
[0031] 其中,选择训练数据集,即样本数据集,其中包含未经剪裁的长视频和与之对应的文本描述,即样本视频与样本文本,之后通过初始视频定位模型提取单词级文本特征与帧级视频特征,提取样本文本的单词级文本特征的过程,可通过初始视频定位模型中包含的词向量提取子模型完成,如GloVe模型等,具体采用的词向量提取子模型类型由实际使用场景决定,本实施例不进行限定。而提取样本视频的帧级视频特征的过程,则可通过初始视频定位模型中包含的视觉特征提取子模型完成,视觉特征提取子模型可采用I3D或C3D神经网络,具体采用的神经网络类型由实际使用场景决定,本实施例不进行限定。
[0032] 基于此,将样本视频划分成剪辑视频段,根据划分结果,将得到的单词级文本特征与帧级视频特征进行融合,得到对应每个剪辑视频段的句子级文本特征以及包含上下文语义信息的视觉特征,之后,通过构建主要时间标记重组单元,计算每个剪辑视频段的阶段特定表示;通过遍历剪辑视频段分别作为开始和结束时刻,获得候选视频段;通过对候选视频段的阶段特定表示进行组合,得到候选视频段的视觉特征,使用初始视频定位模型的线性预测层预测每个候选辑视频段的匹配分数,最后通过初始视频定位模型预测每个候选视频段和真实视频段的偏移距离,并定义定位损失函数对模型进行约束,实现对初始视频定位模型的训练,以得到目标视频定位模型。
[0033] 需要说明的是,目标视频定位模型的输出为目标视频段,即候选视频段中匹配分数最高的一个,可以理解为目标视频定位模型预测的,样本视频中表现的内容与样本文本表述的内容最一致的视频片段。举例说明,一段60秒的样本视频,前30秒中的画面内容为房间内的存在的一只猫趴在沙发上休息,后30秒,该猫离开视频画面,而与该视频相关的样本文本为“一只在沙发上休息的猫”,那么目标视频段即可认定为该视频的前30秒。
[0034] 那么,对样本视频进行切分后得到的剪辑视频段,存在多个剪辑视频段中表现的内容均与样本文本表述的内容一致的情况,沿用上例,若该60秒的样本视频被切分为10个6秒的剪辑视频段,那么此时确定的目标视频段应为对应前30秒的5个剪辑视频段,故此,目标视频段中包含的剪辑视频段的数量由实际使用场景决定,本实施例不进行限定。
[0035] 此外,在得到目标视频定位模型后,进行新的视频定位时,分别将待定位视频和待查询文本输入训练完成的模型,预测每个候选片段的匹配分数,选择匹配分数最高的片段作为最优片段,并将其开始时刻和结束时刻与预测的偏移距离进行求和,即可得到最终的预测片段,实现待定位视频的定位。
[0036] 进一步的,在步骤S104中,融合单词级文本特征与帧级视频特征,得到句子级文本特征和包含上下文语义信息的视觉特征的过程,在本实施例中,具体实现方式如下:划分所述样本视频中的视频帧,得到长度相等的多个视频段;将每个视频段对应的帧级视频特征进行均值池化,得到剪辑级视频特征;串联所述剪辑级视频特征、所述单词级文本特征,并联合位置编码进行全局语义建模,得到所述句子级文本特征与所述包含上下文语义信息的视觉特征。
[0037] 具体的,若将样本视频中的所有帧分为N个长度相等的剪辑,即剪辑视频段,对每个剪辑内的帧级视频特征进行均值池化以获得剪辑级特征,表示为 ,其中,表示第i个剪辑级特征, 表示视频相关;将视频的剪辑级特征和单词级文本特征进行串联,并联合位置编码输入到初始视频定位模型的视觉‑语言转换器(Transformer)模块以进行全局语义建模,得到句子级文本特征 以及视觉特征 , 表示
对应向量的向量维度。
[0038] 进一步的,步骤S106中,确定视觉特征对应的剪辑视频段的阶段特定表示的过程,在本实施例中,具体实现方式如下:将所述视觉特征转换为对应视频端的开始表示、中间表示和结束表示;基于可调的权重矩阵,对所述开始表示、所述中间表示和所述结束表示进行非线性组合,得到所述阶段特定表示。
[0039] 具体的,将视觉特征转换为对应视频端的开始表示、中间表示和结束表示的过程,可通过初始视频定位模型中包含的特征投影层完成,实现将视觉特征转换为每个剪辑按时间顺序排列的开始、中间和结束表示,具体表示为 ,MLP(·)表示多层感知器的处理结果,需要说明的是, 分别是对应于每个剪辑的开始、中间和结束阶段的特征表示, 表示激活函数,如ReLU激活函数等。对于获得到的全部剪辑视频段不同阶段的特征表示,遍历每一个剪辑视频段分别作为开始和结束时刻以获得候选片段,并计算每个候选片段的特征表示,构建得到二维的时间片段特征图,表示为 ,其
中, 同样表示对应向量的向量维度。
[0040] 此外,对于每一个候选视频段,分别将位于其起始剪辑的开始表示、中间剪辑的中间表示以及结束剪辑的结束表示称为该候选视频段的主要特征,记为 ,将这三个主要特征进行非线性组合以获得候选视频段的最终特征表示,这一过程表示为,其中 、 和 表示可训练的权重矩阵,表示偏置向量。
[0041] 进一步的,在步骤S108中,通过候选视频段与样本数据集中的真实视频段,对初始视频定位模型进行训练的过程,在本实施例中,具体实现方式如下:基于所述候选视频段与所述真实视频段,计算所述候选视频段的匹配分数与偏移距离;根据所述匹配分数与所述偏移距离,计算加权二元交叉熵损失与L1损失;基于所述加权二元交叉熵损失与所述L1损失,对所述初始视频定位模型进行训练。
[0042] 具体的,通过初始视频定位模型中包含的线性预测层预测候选视频段相较于真实视频段的匹配分数 和偏移距离 。对于预测得到的匹配分数 和偏移距离 ,分别计算其与真实视频段对应的真实值的加权二元交叉熵损失 和L1损失 ,如下:
,
,
其中, 表示有效的候选片段的数量,Q表示经过阈值 抑制后的候选片段数量;
和 分别表示预定义的候选片段的时刻位置和真实的时刻位置, 表示第i个候
选视频段的预测匹配分数, 表示第i个候选视频段的实际匹配分数, 表示第i个候选视频段预测到的,与真实视频段起始位置之间的偏移距离, 表示第i个候选视频段预测到的,与真实视频段结束位置之间的偏移距离。
[0043] 进一步的,基于加权二元交叉熵损失与L1损失,对初始视频定位模型进行训练的过程,在本实施例中,具体实现过程如下:计算所述加权二元交叉熵损失与所述L1损失的和,得到时刻定位损失;确定所述真实视频段对应的视频段为正样本,并从所述正样本外的其他视频段和其他视频中选择负样本;根据所述正样本与所述负样本计算对比学习损失;基于所述时刻定位损失与所述对比学习损失,对所述初始视频定位模型进行训练。
[0044] 其中,将 和 求和,得到用于时刻定位的损失 。为了保障视频定位模型的精度,还可以在进行区域语义感知学习过程,挖掘视频内和视频间的负样本片段,并基于前述得到的句子级文本特征和前述得到的视觉特征的过程,在联合嵌入中进行跨模态对比学习,计算视频内和视频间的对比学习损失。
[0045] 具体的,将样本视频中与真实视频段对应的视频段作为正样本,分别从同一视频内和不同视频间挖掘负样本,在联合嵌入空间中计算对比学习损失 的过程为:,
其中, 和 分别表示联合嵌入空间中的文本和视觉特征, 表示正样本, 表
示负样本的集合,表示温度系数, 表示 中的元素。
[0046] 进一步的,基于时刻定位损失与对比学习损失,对初始视频定位模型进行训练的过程,在本实施例中,具体实现方式如下:通过预设的掩码策略,遮挡所述样本文本与所述样本视频的基本组成单元,得到正负视频句子样本对,其中,所述样本文本的基本组成单元为单词,所述样本视频的基本组成单元为视频帧;通过所述初始视频定位模型对所述正负视频句子样本对进行处理,并基于处理结果计算语义对比学习损失;基于所述时刻定位损失、所述对比学习损失与所述语义对比学习损失,对所述初始视频定位模型进行训练。
[0047] 进一步的,通过预设的掩码策略,遮挡样本文本与样本视频的基本组成单元,得到正负视频句子样本对的过程,在本实施例中,具体实现方式如下:将所述样本视频中对应所述真实视频段的视频帧,与不对应所述真实视频段的视频帧分别进行不同权重的赋值,并基于预设的屏蔽策略,对赋值结果进行屏蔽,得到正视频样本与负视频样本;根据所述样本文本中单词的词类,分别进行不同权重的赋值,并基于预设的屏蔽策略,对赋值结果进行屏蔽,得到正句子样本和负句子样本;根据所述正视频样本与所述正句子样本,构建正视频句子样本对,并根据所述负视频样本与所述负句子样本,构建负视频句子样本对,其中,所述正负视频句子样本对包括所述正视频句子样本对与所述负视频句子样本对。
[0048] 进一步的,通过初始视频定位模型对正负视频句子样本对进行处理,并基于处理结果计算语义对比学习损失的过程,在本实施例中,具体实现方式如下:通过所述初始视频定位模型对所述正视频句子样本对进行处理,得到第一预测匹配分数;通过所述初始视频定位模型对所述负视频句子样本对进行处理,得到第二预测匹配分数;根据所述第一预测匹配分数、所述第二预测匹配分数与所述匹配分数,计算所述语义对比学习损失。
[0049] 其中,单词的词类可以分为名词、动词、形容词、副词等,具体的词类由样本文本中包含的单词决定,本实施例不进行限定。
[0050] 需要说明的是,将对应真实视频段的视频帧赋值的权重,以及将不对应真实视频段的视频帧赋值的权重,可根据实际使用场景进行调整,具体的权重设置本实施例不进行限定。并且对以上赋值结果进行屏蔽的过程中,可根据赋值后的权重数值大小,按照比例进行屏蔽,具体的比例数值设定,同样由实际使用场景决定,本实施例不进行限定。
[0051] 举例说明,将样本视频中对应真实视频段的帧赋予权重值1,之外的帧赋予(0,1)之间的随机权重。通过随机屏蔽权重较小的50%帧中的一半得到正视频样本,表示为 ,随机屏蔽权值为1 的帧中的40%得到负视频样本,表示为 。同时,为样本文本中的查询句子中的名词和动词赋予权值1,形容词和副词赋予权值0.6,其他单词赋予权值0。随机将权重排名后30%和前70%的单词中的一半单词屏蔽得到正句子样本和负句子样本,分别表示为和 。对于正视频句子样本对与负视频句子样本对,将其作为初始视频定位模型的输入预测目标视频段,并根据以上输入对应的候选片段的匹配分数,以及真实视频段的预测结果,构造语义对比学习损失 如下:。
[0052] 其中,P(·)表示模型预测的所有候选视频段与真实视频段的IoU值,S表示实际输入的查询句子。
[0053] 进一步的,基于时刻定位损失、对比学习损失与语义对比学习损失,对初始视频定位模型进行训练的过程,在本实施例中,具体实现过程如下:根据所述第一预测匹配分数与所述匹配分数,计算第一二元交叉熵损失;将所述第一二元交叉熵损失与所述语义对比学习损失求和,得到主要语义感知损失;基于所述时刻定位损失、所述对比学习损失与所述主要语义感知损失,对所述初始视频定位模型进行训练。
[0054] 其中,对于正负视频句子样本对输入初始视频定位模型后,确定的各个候选视频段,如以上计算匹配分数的过程,计算其对应的第一预测匹配分数,并根据第一预测匹配分数与匹配分数,如以上计算加权二元交叉熵损失 的过程,计算第一二元交叉熵损失,最后将 和 求和,得到最终的主要语义感知损失,记为 。
[0055] 进一步的,基于时刻定位损失、对比学习损失与主要语义感知损失,对初始视频定位模型进行训练的过程,在本实施例中,具体实现方式如下:随机对所述样本文本中的单词进行遮挡,并通过所述初始视频定位模型对遮挡后的样本文本进行重建;基于重建结果与所述样本文本计算交叉熵损失;将所述时刻定位损失、所述对比学习损失、所述主要语义感知损失与所述交叉熵损失,基于预设的加权系数进行加权求和,得到目标损失函数;通过所述目标损失函数对所述初始视频定位模型进行训练。
[0056] 其中,为了进一步提升模型预测精度,通过屏蔽重建的方式提升训练素材的数量,需要说明的是,随机对样本文本中的单词进行遮挡的过程中,遮挡的比例由实际使用场景决定,本实施例不进行限定。
[0057] 举例说明,如在模型训练的过程中,使用标记随机替换查询句子中15%的单词。模型在给定视觉信息的情况下需要根据未屏蔽的单词重建屏蔽词。重建的结果用于和原始单词之间计算交叉熵损失辅助模型训练,记为 。
[0058] 此外,对于预设的加权系数对以上损失函数进行加权求和的过程中,加权系数为可调参数,由此目标损失函数如下:,
其中, 、 和 为调整各损失所占比例的超参数。
[0059] 在实际使用场景中,对以上视频定位模型训练方法进行实测,实测过程中,采用采用带IoU(交并比)阈值的R@1指标,其中的IoU阈值包括0.5和0.7两种,表示在所有查询文本中,预测片段与真实目标片段的IoU大于阈值的比例,同时还可以采用mIoU(平均交并比)指标,表示所有查询预测片段与真实目标片段的交并比的平均值。
[0060] 具体的,如图2提供的一种视频定位模型训练方法的实现流程图所示,通过选择数据集,构建组合时刻定位为模型,即初始视频定位模型,使用损失函数训练模型后,得到目标视频定位模型,之后加载参数进行时刻定位。
[0061] 此外,根据图3提供的一种视频定位模型训练方法的框架示意图所示,视频定位模型的核心思想是通过视觉‑语言Transformer的主干网络进行不同模态特征的融合,同时通过组合视频剪辑的特定于阶段的表示,以获得包含足够上下文信息和局部区域信息的特征表示,这些特征表示进一步用于联合视觉文本嵌入空间内的对比学习,从而促进跨模态语义对齐,因此可以显著提高模型进行时刻定位的准确度,此外,还提出了主要语义感知学习过程,可以通过感知视频和文本的语义变化,使模型能够学习视频和句子之间的细粒度对应关系,进一步提高模型的组合泛化能力。
[0062] 以下给出三个具体应用场景中的实测结果:第一场景案例:在Charades‑CG数据集上进行模型训练和测试,并与以往方法做效果对比。Charades‑CG数据集包含用于模型训练的训练集、Test‑Trivial测试集、Novel‑Composition测试集和Novel‑Word测试集,分别含有8281、3096、3442、703个视频‑文本对。
Novel‑Composition测试集包含训练集中未见的单词组合,用于测试模型的组合泛化性能。
Novel‑Word测试集包含训练集中未见过的单词,用于测试模型对未见过单词的组合泛化性能。Test‑Trivial测试集包含与训练集相同的数据分布。在Charades‑CG上的测试结果如表
1所示:
表1在Charades‑CG数据集上的时刻定位效果对比
[0063] 第二场景案例:在ActivityNet‑CG数据集上进行模型训练和测试,并与以往方法做效果对比。ActivityNet‑CG数据集包含用于模型训练的训练集、Test‑Trivial测试集、Novel‑Composition测试集和Novel‑Word测试集,分别含有36724、15712、12028、3944个视频‑文本对。Novel‑Composition测试集包含训练集中未见的单词组合,用于测试模型的组合泛化性能。Novel‑Word测试集包含训练集中未见过的单词,用于测试模型对未见过单词的组合泛化性能。Test‑Trivial测试集包含与训练集相同的数据分布。在ActivityNet‑CG上的测试结果如表2所示:表2在Activitynet‑Captions数据集上的时刻定位效果对比
[0064] 第三场景案例:在Charades‑CG数据集上,使用本发明提出的方法,对于给定查询文本进行视频时刻定位的实际结果。如图4提供的一种视频定位模型训练方法的效果展示图所示,通过本实施例提供的视频定位模型训练方法,均成功地定位到了视频中对应的片段。
[0065] 与上述方法实施例相对应,本申请还提供了视频定位模型训练装置实施例,图5示出了本申请一实施例提供的一种视频定位模型训练装置的结构示意图。如图5所示,该装置包括:提取模块502,被配置为通过初始视频定位模型提取样本数据集中样本文本的单词级文本特征,以及所述样本数据集中样本视频的帧级视频特征;
融合模块504,被配置为融合所述单词级文本特征与所述帧级视频特征,得到句子级文本特征和包含上下文语义信息的视觉特征;
选取模块506,被配置为确定所述视觉特征对应的剪辑视频段的阶段特定表示,并根据所述阶段特定表示,在所述剪辑视频段中选取候选视频段;
训练模块508,被配置为通过所述候选视频段与所述样本数据集中的真实视频段,对所述初始视频定位模型进行训练,直至满足训练停止条件,得到目标视频定位模型。
[0066] 一个可选的实施例中,所述融合模块504进一步被配置为:划分所述样本视频中的视频帧,得到长度相等的多个视频段;将每个视频段对应的帧级视频特征进行均值池化,得到剪辑级视频特征;串联所述剪辑级视频特征、所述单词级文本特征,并联合位置编码进行全局语义建模,得到所述句子级文本特征与所述包含上下文语义信息的视觉特征。
[0067] 一个可选的实施例中,所述选取模块506进一步被配置为:将所述视觉特征转换为对应视频端的开始表示、中间表示和结束表示;基于可调的权重矩阵,对所述开始表示、所述中间表示和所述结束表示进行非线性组合,得到所述阶段特定表示。
[0068] 一个可选的实施例中,所述训练模块508进一步被配置为:基于所述候选视频段与所述真实视频段,计算所述候选视频段的匹配分数与偏移距离;根据所述匹配分数与所述偏移距离,计算加权二元交叉熵损失与L1损失;基于所述加权二元交叉熵损失与所述L1损失,对所述初始视频定位模型进行训练。
[0069] 一个可选的实施例中,所述训练模块508进一步被配置为:计算所述加权二元交叉熵损失与所述L1损失的和,得到时刻定位损失;确定所述真实视频段对应的视频段为正样本,并从所述正样本外的其他视频段和其他视频中选择负样本;根据所述正样本与所述负样本计算对比学习损失;基于所述时刻定位损失与所述对比学习损失,对所述初始视频定位模型进行训练。
[0070] 一个可选的实施例中,所述训练模块508进一步被配置为:通过预设的掩码策略,遮挡所述样本文本与所述样本视频的基本组成单元,得到正负视频句子样本对,其中,所述样本文本的基本组成单元为单词,所述样本视频的基本组成单元为视频帧;通过所述初始视频定位模型对所述正负视频句子样本对进行处理,并基于处理结果计算语义对比学习损失;基于所述时刻定位损失、所述对比学习损失与所述语义对比学习损失,对所述初始视频定位模型进行训练。
[0071] 一个可选的实施例中,所述训练模块508进一步被配置为:将所述样本视频中对应所述真实视频段的视频帧,与不对应所述真实视频段的视频帧分别进行不同权重的赋值,并基于预设的屏蔽策略,对赋值结果进行屏蔽,得到正视频样本与负视频样本;根据所述样本文本中单词的词类,分别进行不同权重的赋值,并基于预设的屏蔽策略,对赋值结果进行屏蔽,得到正句子样本和负句子样本;根据所述正视频样本与所述正句子样本,构建正视频句子样本对,并根据所述负视频样本与所述负句子样本,构建负视频句子样本对,其中,所述正负视频句子样本对包括所述正视频句子样本对与所述负视频句子样本对。
[0072] 一个可选的实施例中,所述训练模块508进一步被配置为:通过所述初始视频定位模型对所述正视频句子样本对进行处理,得到第一预测匹配分数;通过所述初始视频定位模型对所述负视频句子样本对进行处理,得到第二预测匹配分数;根据所述第一预测匹配分数、所述第二预测匹配分数与所述匹配分数,计算所述语义对比学习损失。
[0073] 一个可选的实施例中,所述训练模块508进一步被配置为:根据所述第一预测匹配分数与所述匹配分数,计算第一二元交叉熵损失;将所述第一二元交叉熵损失与所述语义对比学习损失求和,得到主要语义感知损失;基于所述时刻定位损失、所述对比学习损失与所述主要语义感知损失,对所述初始视频定位模型进行训练。
[0074] 一个可选的实施例中,所述训练模块508进一步被配置为:随机对所述样本文本中的单词进行遮挡,并通过所述初始视频定位模型对遮挡后的样本文本进行重建;基于重建结果与所述样本文本计算交叉熵损失;将所述时刻定位损失、所述对比学习损失、所述主要语义感知损失与所述交叉熵损失,基于预设的加权系数进行加权求和,得到目标损失函数;通过所述目标损失函数对所述初始视频定位模型进行训练。
[0075] 本申请提供的视频定位模型训练装置,通过初始视频定位模型提取样本数据集中样本文本的单词级文本特征,以及所述样本数据集中样本视频的帧级视频特征;融合所述单词级文本特征与所述帧级视频特征,得到句子级文本特征和包含上下文语义信息的视觉特征;确定所述视觉特征对应的剪辑视频段的阶段特定表示,并根据所述阶段特定表示,在所述剪辑视频段中选取候选视频段;通过所述候选视频段与所述样本数据集中的真实视频段,对所述初始视频定位模型进行训练,直至满足训练停止条件,得到目标视频定位模型。通过主要时间标记重组模块获得同时包含全局上下文信息和局部信息的视觉特征,显著提高模型的定位准确度;并提出了两个语义感知学习过程,即区域语义感知学习和主要语义感知学习,促进模型的细粒度跨模态对齐,从而提高其组合泛化能力;此外经过实验验证,在时刻定位任务上,均超过了以往的方法,特别地,当待查询句子中包含新颖单词时,本方法相比于以往方法效果提升显著。
[0076] 上述为本实施例的一种视频定位模型训练装置的示意性方案。需要说明的是,该视频定位模型训练装置的技术方案与上述的视频定位模型训练方法的技术方案属于同一构思,视频定位模型训练装置的技术方案未详细描述的细节内容,均可以参见上述视频定位模型训练方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
[0077] 图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
[0078] 计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi‑MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
[0079] 在本申请的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0080] 计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
[0081] 其中,处理器620用于执行所述视频定位模型训练方法各步骤的计算机可执行指令。
[0082] 上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的视频定位模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述视频定位模型训练方法的技术方案的描述。
[0083] 本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于执行所述视频定位模型训练方法各步骤。
[0084] 上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的视频定位模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述视频定位模型训练方法的技术方案的描述。
[0085] 本申请一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述视频定位模型训练方法的步骤。
[0086] 上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0087] 所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0088] 需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
[0089] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0090] 以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。