技术领域
[0001] 本申请涉及软件技术领域,尤其涉及一种生成内容检测方法及相关装置。
相关背景技术
[0002] 现阶段,生成式人工智能(Generative AI)在诸如图像、视频等内容创作方向得到了快速发展,生成内容(比如图像生成算法的生成图像、视频生成算法的生成视频)可以达到以假乱真的程度。
[0003] 在对生成内容进行检测时,往往只能针对特定的内容生成算法,一旦内容生成算法更新,其泛化性就会大打折扣,这就导致检测的准确率会大幅下降。
具体实施方式
[0020] 下面结合本申请实施例中的附图对本申请实施例进行描述。本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
[0021] 下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
[0022] 以内容为图像、内容生成算法为图像生成算法来举例说明,现有图像生成算法的检测方式有如下弊端:根据不同的图像生成算法,其检测方法也有针对性。生成图像的检测方式可以分为两个流派,分别为主动识别和被动识别。主动识别是指在图像生成之后,主动在生成图像中植入不可见水印,这种水印对图像质量的影响基本不可见,在对生成图像进行检测时,如果可以恢复出植入的水印则为生成图像;被动识别是指不植入水印,无差别的识别任何给定的图像。由于主动识别方式需要提前植入不可见水印,从而在适用性上有所不足。
[0023] 现有的被动识别方案基本上都依赖于图像生成算法,利用图像生成算法的生成图像组成训练数据集合训练一个图像分类模型,以此来判断是否是生成图像。对于新图像生成算法的检测率会相当的低。并且,图像生成算法更新得非常的快,生成图像越来越无法准确检测,这对生成图像的检测提出了巨大的挑战。
[0024] 以往的生成图像检测方法对于日益更新的图像生成算法所生成的图像的泛化性不高。换言之,每当图像生成算法取得突破,以往的生成图像检测方法对其生成的图像的检测率会有大幅度的下降。并且,在训练数据集合中加入新的图像生成算法所生成的图像重新训练之后,在以往图像生成方法上的表现往往也会下降。总的来说,面对日益更新的图像生成算法,目前还没有一种有效的方案来克服其所带来的挑战。即便重新训练图像分类模型,也无法很好的解决该模型在以往图像生成算法所生成的图像上表现下降的问题。
[0025] 当然,视频生成算法存在的问题也是如此。对此,本申请为解决图像生成算法、视频生成算法等内容生成算法更新时,检测模型泛化性就会大打折扣而导致准确率大幅下降的问题。本申请实施例提供一种生成内容检测方法及相关装置,使得生成内容检测能够跟随内容生成算法进行更新。本申请能够补充图像、视频等生成内容的智能检测手段,针对生成内容形成规范化的审核体系。此外,本申请可以帮助企业和品牌来防止侵犯版权的内容出现,从而保护企业声誉和品牌形象。下面结合附图对本申请实施例的生成内容检测方法进行详细的介绍。
[0026] 参见图1,图1为本申请实施例提供的一种生成内容检测方法的方法流程图。如图1所示,本申请实施例提供的一种生成内容检测方法,可以包括如下步骤S101至S103,下面分别对这些步骤进行详细的描述。
[0027] S101,获取待检测的目标内容。
[0028] 本申请实施例中,目标内容可以为待进行生成内容检测的文本、声音、图像或者视频等,数量可以为一个或多个,具体由使用者指定,本申请实施例对此不做限定。
[0029] S102,调取预先训练的内容分类模型,内容分类模型能够提取不同内容生成算法的内容特征、并通过特征融合进行分类;其中,内容分类模型的训练过程,包括构建基础模型,模型中包含特征提取层、特征融合网络和分类头,特征提取层中包含多个预先训练的特征提取器,一个特征提取器对应一个内容生成算法;获取训练数据集合,训练数据集合中包含真实内容、以及每个特征提取器对应的内容生成算法所生成的生成内容;从真实内容和生成内容中选取本次训练的样本内容,对样本内容标注分类标签,将样本内容输入至基础模型中,以对基础模型进行训练,直至损失函数值满足对应的收敛条件时,结束训练;将结束训练后的基础模型作为内容分类模型。
[0030] 本申请实施例中,内容分类模型是以有监督的方式训练得到的模型,能够提取获得各内容生成算法的内容特征,进而进行特征融合,并以融合后的特征进行分类。
[0031] 针对不同的内容生成算法,可以设置不同的内容分类模型。举例来说,对于图像生成算法可以训练获得图像分类模型,而对于视频生成算法则可以训练获得视频分类模型。
[0032] 以图像分类模型来举例说明,图像分类模型能够提取图像特征的图像生成算法可以包含不同类型的图像生成算法、还可以包含同一类型下的不同版本的图像生成算法,本申请实施例中对此不做限定。
[0033] S103,将目标内容输入至内容分类模型中,通过内容分类模型预测目标内容的目标分类结果,目标分类结果用于表征目标内容是否属于生成内容。
[0034] 本申请实施例中,以目标内容为图像为例,将目标内容输入至图像分类模型中,通过该图像分类模型预测目标内容是否为生成图像;以目标内容为视频为例,将目标内容输入至视频分类模型中,通过该视频分类模型预测目标内容是否为生成视频。
[0035] 在一种可能的实现中,图像分类模型中可以包含不同图像生成算法各自对应的第一特征提取器,每个第一特征提取器能够准确提取到对应图像生成算法所生成的生成图像的图像特征。在该场景下,目标内容为目标图像、内容分类模型为图像分类模型、内容生成算法为图像生成算法、内容特征为图像特征、生成内容为生成图像。
[0036] 参见图2,图2为本申请实施例提供的一种生成内容检测方法的部分方法流程图。如图2所示,本申请实施例提供的一种生成内容检测方法,其中,图像分类模型的训练过程可以包括如下步骤S201至S204,下面分别对这些步骤进行详细的描述。
[0037] S201,构建第一基础模型,第一基础模型中包含第一特征提取层、第一特征融合网络和第一分类头,第一特征提取层中包含多个预先训练的第一特征提取器,一个第一特征提取器对应一个图像生成算法。
[0038] S202,获取第一训练数据集合,第一训练数据集合中包含第一真实图像、以及每个第一特征提取器对应的图像生成算法所生成的第一生成图像。
[0039] S203,从第一真实图像和第一生成图像中选取本次训练的第一样本图像,对第一样本图像标注第一分类标签,将第一样本图像输入至第一基础模型中,以实现:通过每个第一特征提取器提取第一样本图像的第一图像特征;对每个第一特征提取器提取到的第一图像特征进行拼接、并加入可学习的第一特征变量;通过第一特征融合网络对加入第一特征变量的第一图像特征进行基于自注意力机制的融合学习,得到第二图像特征;从第二图像特征中提取第一特征变量对应的特征,并将提取到的特征输出给第一分类头;通过第一分类头对其所获得的特征进行分类预测,得到第一样本图像的第一分类结果,第一分类结果用于表征第一样本图像是否属于生成图像;根据第一分类结果和第一分类标签计算第一样本图像的第一损失函数值,根据第一损失函数值更新第一特征融合网络和第一分类头的权重参数,并返回执行从第一真实图像和第一生成图像中选取本次训练的第一样本图像这一步骤,直到第一损失函数值满足对应的第一收敛条件时,结束训练。
[0040] S204,将结束训练后的第一基础模型作为图像分类模型。
[0041] 具体的,本申请实施例中,首先构建图像分类模型对应的第一基础模型。参见图3,图3为本申请实施例提供的第一基础模型的结构示意图。如图3所示,该第一基础模型中包含依次连接的第一特征提取层A‑1、第一特征融合网络A‑2和第一分类头A‑3。其中,第一特征提取层A‑1中包含n个预先训练的第一特征提取器(即图3中第一特征提取器1、第一特征提取器2、第一特征提取器3、……、第一特征提取器n),一个第一特征提取器对应一个图像生成算法,即某一类型下某一版本的图像生成算法,对应的第一特征提取器能够准确提取其生成图像的图像特征。此外,第一分类头A‑3可以为多层感知机网络(还可以称之为MLP,Multilayer Perceptron)。
[0042] 进而,获取用于训练图像分类模型的第一训练数据集合,其中,第一训练数据集合中包含收集到的第一真实图像、以及每个第一特征提取器对应的图像生成算法所生成的第一生成图像,其中,第一真实图像可以从数据库中抓取。
[0043] 在一种可能的实现中,第一训练数据集合中每个第一特征提取器对应的第一生成图像的数量是相同的、且所有第一特征提取器对应的第一生成图像的总数量与第一真实图像的数量是相同的。参见图4,图4为本申请实施例提供的一种生成内容检测方法的另一部分方法流程图。如图4所示,本申请实施例提供的一种生成内容检测方法,其中,步骤S202中“获取第一训练数据集合”,可以包括如下步骤S2021至S2023,下面分别对这些步骤进行详细的描述。
[0044] S2021,按照第一特征提取层中多个第一特征提取器的数量,对每个第一特征提取器对应的图像生成算法所生成的第三生成图像进行采样。
[0045] S2022,将采样到的第三生成图像作为第一生成图像。
[0046] S2023,抓取第一真实图像,第一真实图像的数量与第一生成图像的数量相同。
[0047] 具体的,本申请实施例中,假设在训练单个第一特征提取器时,每个第一特征提取器对应的图像生成算法都生成50万张生成图像(即第三生成图像)。基于此,对每个第一特征提取器对应的50万张第三生成图像进行采样,采样数量为50万/k,其中k为第一特征提取层中第一特征提取器的总量。将采样到的50万张第三生成图像作为第一生成图像。
[0048] 另外,收集第一真实图像,比如从数据库中抓取50万张第一真实图像,保证第一真实图像的数量与第一生成图像的数量相同。由此,可以构建获得包含100万张图像的第一训练数据集合。
[0049] 在对第一基础模型进行多次迭代训练的过程中,可以从第一训练数据集合中选取用于本次训练的第一样本图像,该第一样本图像由所选取的第一真实图像和第一生成图像所组成,两者的数量相同。另外,对第一样本图像标注对应的第一分类标签,其中,第一样本图像中第一真实图像的第一分类标签可以为1,第一样本图像中第一生成图像的第一分类标签可以为0。将第一样本图像输入至第一基础模型中,以实现:通过每个第一特征提取器提取第一样本图像对应的第一图像特征,具体的,对于第一样本图像,各第一特征提取器可以分别提取其在对应图像生成算法下的第一图像特征;对每个第一特征提取器提取到的第一图像特征进行拼接,并加入可学习的第一特征变量;通过第一特征融合网络对加入第一特征变量的第一图像特征进行基于自注意力机制的融合学习,得到第二图像特征,该第一特征融合网络中可以包含Transfomer(变换器)结构;
从第二图像特征中提取第一特征变量对应的特征,并将提取到的特征输出给第一分类头,该第一分类头中具体可以为多层感知机网络;通过第一分类头对其所获得的特征进行分类预测,得到第一样本图像对应的第一分类结果,该第一分类结果用于表征第一样本图像是否属于生成图像;以第一分类标签为目标,结合第一分类结果计算第一样本图像对应的第一损失函数值,根据该第一损失函数值反向调整第一特征融合网络和第一分类头的权重参数,并进入下一次迭代训练中,直到第一损失函数值趋于收敛时,结束训练。
[0050] 将结束训练的第一基础模型作为图像分类模型。
[0051] 举例来说,图像输入尺寸为512×512,经过k个第一特征提取器后提取到k个2048维的第一图像特征,将k个2048维的第一图像特征链接后再加入一个可学习的第一特征变量cls token,形成[B,k+1,2048]维的特征,并输入至Transfomer结构中,其中B为batch size,即本次训练的第一样本图像的数量。
[0052] 为了不同图像特征之间的融合学习,Transfomer结构由3个多头自注意力网络串联组成,多头的超参数为8。Transfomer结构通过3个多头自注意力网络对所获得的特征进行融合学习,输出融合学习到的第二图像特征。根据自注意机制,k+1个特征(即k个2048维的第一图像特征、以及1个特征变量)一定程度上聚合了全局信息,但主要是自身特征,为了避免对某个特征的偏向性,从第二图像特征中提取第一特征变量cls token对应的特征,提取到的特征的维度为[B,2048],将提取到的特征输入给多层感知机网络。
[0053] 多层感知机网络可以包含2个全连接层。第一个全连接层将提取到的特征由2048维压缩到512维,经过一个relu函数之后送入第二个全连接层,第二个全连接层输出维度为2,一个维度为属于生成图像的概率、另一个维度为不属于生成图像的概率,两个维度的概率之和为1。
[0054] 经过训练,本申请实施例可以获得一个整体的图像分类模型,对目前已有的k个图像生成算法的生成图像有很好的适应性。
[0055] 在此基础上,当有新的表现非常好的图像生成算法产生时,可以重新构建第一基础模型,训练其特有的第一特征提取器,并重新训练图像分类模型。对此,本申请实施例中,图像分类模型的训练过程,还包括如下步骤:响应图像生成算法更新指令,返回执行构建第一基础模型。
[0056] 本申请实施例中,图像生成算法更新指令用于指示新的图像生成算法加入训练,对此,重新构建第一基础模型,增加新的图像生成算法对应的第一特征提取器,在该第一特征提取器结束训练后重新训练第一基础模型得到新的图像分类模型。
[0057] 在一种可能的实现中,可以针对性的训练每种图像生成算法对应的第一特征提取器,以保证对新的图像生成算法的泛化性。参见图5,图5为本申请实施例提供的一种生成内容检测方法的另一部分方法流程图。如图5所示,本申请实施例提供的一种生成内容检测方法,其中,每个第一特征提取器的训练过程可以包括如下步骤S301至S304,下面分别对这些步骤进行详细的描述。
[0058] S301,构建第二基础模型,第二基础模型中包含第一原始特征提取器和第二分类头,第一原始特征提取器中包含单个第一特征提取网络。
[0059] S302,获取第二训练数据集合,第二训练数据集合中包含第二真实图像、以及目标图像生成算法所生成的第二生成图像,目标图像生成算法为待训练的第一特征提取器对应的图像生成算法。
[0060] S303,从第二真实图像和第二生成图像中选取本次训练的第二样本图像,对第二样本图像标注第二分类标签,将第二样本图像输入至第二基础模型中,以实现:通过第一特征提取网络提取第二样本图像的第三图像特征;通过第二分类头对第三图像特征进行分类预测,得到第二样本图像的第二分类结果,第二分类结果用于表征第二样本图像是否属于生成图像;根据第二分类结果和第二分类标签计算第二样本图像的第二损失函数值,根据第二损失函数值更新第一特征提取网络和第二分类头的权重参数,并返回执行从第二真实图像和第二生成图像中选取本次训练的第二样本图像这一步骤,直到第二损失函数值满足对应的第二收敛条件时,结束训练。
[0061] S304,将结束训练后的第一原始特征提取器作为目标图像生成算法对应的第一特征提取器。
[0062] 具体的,本申请实施例中,对于现有的每一个图像生成算法,均需要训练其对应的第一特征提取器。以某一图像生成算法为例来说明,构建其对应的第二基础模型,该第二基础模型中包含第一原始特征提取器,其中,第一原始特征提取器中包含单个第一特征提取网络。实际应用中,第二基础模型可以为resnet50分类网络。
[0063] 进而,获取用于训练第一特征提取器的第二训练数据集合,其中,第二训练数据集合中包含收集到的第二真实图像、以及待训练的第一特征提取器对应的图像生成算法(即目标图像生成算法)所生成的第二生成图像,第二真实图像可以从数据库中抓取。
[0064] 在对第二基础模型进行多次迭代训练的过程中,可以从第二训练数据集合中选取用于本次训练的第二样本图像,该第二样本图像由所选取的第二真实图像和第二生成图像所组成,两者的数量相同。另外,对第二样本图像标注对应的第二分类标签,其中,第二样本图像中第二真实图像的第二分类标签可以为1,第二样本图像中第二生成图像的第二分类标签可以为0。将第二样本图像输入至第二基础模型中,以实现:通过第一特征提取网络提取第二样本图像对应的第二图像特征;通过第二分类头对第二图像特征进行分类预测,得到第二样本图像对应的第二分类结果,该第二分类结果用于表征第二样本图像是否属于生成图像,该第二分类头中具体可以为多层感知机网络;
以第二分类标签为目标,结合第二分类结果计算第二样本图像对应的第二损失函数值,根据该第二损失函数值反向调整第一特征提取网络和第二分类头的权重参数,并进入下一次迭代训练中,直到第二损失函数值趋于收敛时,结束训练。
[0065] 将结束训练的第一原始特征提取器作为目标图像生成算法对应的第一特征提取器。
[0066] 在一种可能的实现中,视频分类模型中可以包含不同视频生成算法各自对应的第二特征提取器,每个第二特征提取器能够准确提取到对应视频生成算法所生成的生成视频的视频特征。在该场景下,目标内容为目标视频、内容分类模型为视频分类模型、内容生成算法为视频生成算法、内容特征为视频特征、生成内容为生成视频。
[0067] 参见图6,图6为本申请实施例提供的一种生成内容检测方法的另一部分方法流程图。如图6所示,本申请实施例提供的一种生成内容检测方法,其中,视频分类模型的训练过程可以包括如下步骤S401至S404,下面分别对这些步骤进行详细的描述。
[0068] S401,构建第三基础模型,第三基础模型中包含第二特征提取层、第二特征融合网络和第三分类头,第二特征提取层中包含多个预先训练的第二特征提取器,一个第二特征提取器对应一个视频生成算法。
[0069] S402,获取第三训练数据集合,第三训练数据集合中包含第一真实视频、以及每个第二特征提取器对应的视频生成算法所生成的第一生成视频。
[0070] S403,从第一真实视频和第一生成视频中选取本次训练的第一样本视频,对第一样本视频标注第三分类标签,将第一样本视频输入至第三基础模型中,以实现:通过每个第二特征提取器提取第一样本视频的第一视频特征,第一视频特征中的部分特征属于可学习的第二特征变量;通过第二特征融合网络对每个第二特征提取器提取到的第一视频特征进行基于交叉注意力机制的融合学习,得到第二视频特征;从第二视频特征中提取第二特征变量对应的特征,并将提取到的特征输出给第三分类头;通过第三分类头对其所获得的特征进行分类预测,得到第一样本视频的第三分类结果,第三分类结果用于表征第一样本视频是否属于生成视频;根据第三分类结果和第三分类标签计算第一样本视频的第三损失函数值,根据第三损失函数值更新第二特征融合网络和第三分类头的权重参数,并返回执行从第一真实视频和第一生成视频中选取本次训练的第一样本视频这一步骤,直到第三损失函数值满足对应的第三收敛条件时,结束训练。
[0071] S404,将结束训练的第三基础模型作为视频分类模型。
[0072] 具体的,本申请实施例中,首先构建视频分类模型对应的第三基础模型。参见图7,图7为本申请实施例提供的第三基础模型的结构示意图。如图7所示,该第三基础模型中包含依次连接的第二特征提取层B‑1、第二特征融合网络B‑2和第三分类头B‑3。其中,第二特征提取层B‑1中包含m个第二特征提取器(即图7中第二特征提取器1、第二特征提取器2、第二特征提取器3、……、第二特征提取器m),一个第二特征提取器对应一个视频生成算法,即某一类型下某一版本的视频生成算法,对应的第二特征提取器能够准确提取器生成视频的视频特征。此外,第三分类头B‑3可以为多层感知机网络(还可以称之为MLP,Multilayer Perceptron)。
[0073] 进而,获取用于训练视频分类模型的第三训练数据集合,其中,第三训练数据集合中包含收集到的第一真实视频、以及每个第二特征提取器对应的视频生成算法所生成的第一生成视频,其中,第一真实视频可以从数据库中抓取。
[0074] 在一种可能的实现中,第三训练数据集合中每个第二特征提取器对应的第一生成视频的数量是相同的、且所有第二特征提取器对应的第一生成视频的总数量与第一真实视频的数量是相同的。参见图8,图8为本申请实施例提供的一种生成内容检测方法的另一部分方法流程图。如图8所示,本申请实施例提供的一种生成内容检测方法,其中,步骤S402中“获取第三训练数据集合”,可以包括如下步骤S4021至S4023,下面分别对这些步骤进行详细的描述。
[0075] S4021,按照第二特征提取层中多个第二特征提取器的数量,对每个第二特征提取器对应的视频生成算法所生成的第三生成视频进行采样。
[0076] S4022,将采样到的第三生成视频作为第一生成视频。
[0077] S4023,抓取第一真实视频,第一真实视频的数量与第一生成视频的数量相同。
[0078] 具体的,本申请实施例中,假设在训练单个第二特征提取器时,每个第二特征提取器对应的视频生成算法都生成50万个生成视频(即第三生成视频)。基于此,对每个第二特征提取器对应的50万个第三生成视频进行采样,采样数量为50万/k,其中k为第二特征提取层中第二特征提取器的总量。将采样到的50万张第三生成视频作为第一生成视频。
[0079] 另外,收集第一真实视频,比如从数据库中抓取50万个第一真实视频,保证第一真实视频的数量与第一生成视频的数量相同。由此,可以构建包含100万个视频的第三训练数据集合。
[0080] 在对第三基础模型进行多次迭代训练的过程中,可以从第三训练数据集合中选取用于本次训练的第一样本视频,该第一样本视频由所选取的第一真实视频和第一生成视频所组成,两者的数量相同。另外,对第一样本视频标注对应的第三分类标签,其中,第一样本视频中第一真实视频的第一分类标签可以为1,第一样本视频中第一生成视频的第一分类标签可以为0。将第一样本视频输入至第三基础模型中,以实现:通过每个第二特征提取器提取第一样本视频对应的第一视频特征,具体的,对于第一样本视频,各第二特征提取器可以分别提取其在对应视频生成算法下的第一视频特征,该第一视频特征中部分特征属于第一样本视频所包含的图像、另一部分特征属于可学习的第二特征变量;通过第二特征融合网络对每个第二特征提取器提取到的第一视频特征进行基于交叉注意力机制的融合学习,得到第二视频特征,该第二特征融合网络中具有可以包含Transfomer结构;从第二视频特征中提取第二特征变量对应的特征,并将提取到的特征输出给第三分类头,该第三分类头中具体可以为多层感知机网络;通过第三分类头对其所获得的特征进行分类预测,得到第一样本视频对应的第三分类结果,该第三分类结果用于表征第一样本视频是否属于生成视频;以第三分类标签为目标,结合第三分类结果计算第一样本视频对应的第三损失函数值,根据该第三损失函数值反向更新第二特征融合网络和第三分类头的权重参数,并进入下一次迭代训练中,直到第三损失函数值趋于收敛时,结束训练。
[0081] 将结束训练的第三基础模型作为视频分类模型。
[0082] 举例来说,某一视频的图像尺寸为512×512、总帧数为30,经过k个第二特征提取器后提取到k个[B,30+1,1512]维的特征,其中,每个[B,30+1,1512]维的特征中包含30个图像各自的特征、以及第二特征变量cls token对应的特征,其中B为batch size,即本次训练的第一样本视频的数量;为了不同视频特征之间的融合学习,对k个[B,30+1,1512]维中每个特征与其它特征进行两两组合后送入Transfomer结构中,由Transfomer结构进行基于交叉注意力机制的融合学习,输出学习到的第二视频特征,Transfomer结构由3个多头自注意力网络串联组成,多头的超参数为8。
[0083] 从第二视频特征中提取第二特征变量cls token对应的特征,该特征已经融合了k个特征的信息,其维度为[B, k×k‑k,1512],将提取到的特征输入给多层感知机网络。
[0084] 多层感知机网络可以包含1个池化层和2个全连接层。池化层将提取到的特征压缩为[B,1512],第一个全连接层将提取到的特征由1512维压缩到512维,经过一个relu函数之后送入第二个全连接层,第二个全连接层输出维度为2,一个维度为属于生成视频的概率、另一个维度为不属于生成视频的概率,两个维度的概率之和为1。
[0085] 经过训练,本申请实施例可以获得一个整体的视频分类模型,对目前已有的k个视频生成算法的生成视频有很好的适应性。
[0086] 在此基础上,当有新的表现非常好的视频生成算法产生时,可以重新构建第三基础木偶戏,训练其特有的第二特征提取器,并重新训练视频分类模型。对此,本申请实施例中,视频分类模型的训练过程,还包括如下步骤:响应视频生成算法更新指令,返回执行构建第三基础模型。
[0087] 本申请实施例中,视频生成算法更新指令用于指示新的视频生成算法加入训练,对此,重新构建第三基础模型,增加新的视频生成算法对应的第二特征提取器,在该第二特征提取器结束训练后重新训练第三基础模型得到新的视频分类模型。
[0088] 在一种可能的实现中,可以针对性的训练每种视频生成算法对应的第二特征提取器,以保证对新的视频生成算法的泛化性。参见图9,图9为本申请实施例提供的一种生成内容检测方法的另一部分方法流程图。如图9所示,本申请实施例提供的一种生成内容检测方法,其中,每个第二特征提取器的训练过程包括如下步骤S501至S504,下面分别对这些步骤进行详细的描述。
[0089] S501,构建第四基础模型,第四基础模型中包含第二原始特征提取器和第四分类头,第二原始特征提取器包含多个第二特征提取网络和第三特征融合网络。
[0090] S502,获取第四训练数据集合,第四训练数据集合中包含第二真实视频、以及目标视频生成算法所生成的第二生成视频,目标视频生成算法为待训练的第二特征提取器对应的视频生成算法。
[0091] S503,从第二真实视频和第二生成视频中选取本次训练的第二样本视频,对第二样本视频标注第四分类标签,将第二样本视频输出至第四基础模型中,以实现:通过每个第二特征提取网络提取第二样本视频的第三视频特征;对每个第二特征提取网络提取到的第三视频特征进行拼接,并加入可学习的第三特征变量;通过第三特征融合网络对加入第三特征变量的第三视频特征进行基于自注意力机制的融合学习,得到第四视频特征;从第四视频特征中提取第三特征变量对应的特征,并将提取到的特征输出给第四分类头;通过第四分类头对其所获得的特征进行分类预测,得到第二样本视频的第四分类结果,第四分类结果用于表征第二样本视频是否属于生成视频;根据第四分类结果和第四分类标签计算第二样本视频的第四损失函数值,根据第四损失函数值更新多个第二特征提取网络、第三特征融合网络和第四分类头的权重参数,并返回执行从第二真实视频和第二生成视频中选取本次训练的第二样本视频这一步骤,直到第四损失函数值满足对应的第四收敛条件时,结束训练。
[0092] S504,将结束训练后的第二原始特征提取器作为目标视频生成算法对应的第二特征提取器。
[0093] 具体的,本申请实施例中,对于现有的每一个视频生成算法,均需要训练其对应的第二特征提取器。以某一视频生成算法为例来说明,构建其对应的第四基础模型,该第四基础模型中包含第二原始特征提取器和第四分类头,其中,第二原始特征提取器中包含多个第二特征提取网络和一个第三特征融合网络。实际应用中,第二原始特征提取器中可以包含两个第二特征提取网络(分别为resnet50分类网络和clip‑vit分类网络),两个第二特征提取网络可以提取不同的语意信息,而第三特征融合网络中可以包含Transfomer结构,Transfomer结构由3个多头自注意力网络串联组成,多头的超参数为8。
[0094] 进而,获取用于训练第二特征提取器的第四训练数据集合,其中,第四训练数据集合中包含收集到的第二真实视频、以及待训练的第二特征提取器对应的视频生成算法(即目标视频生成算法)所生成的第二生成视频,第二真实视频可以从数据库中抓取。
[0095] 在对第四基础模型进行多次迭代训练的过程中,可以从第四训练数据集合选取用于本次训练的第二样本视频,该第二样本视频由所选取的第二真实视频和第二生成视频所组成,两者的数量相同。另外,对第二样本视频标注对应的第四分类标签,其中,第二样本视频中第二真实视频的第四分类标签可以为1,第二样本视频中第二生成视频的第四分类标签可以为0。将第二样本视频输入至第四基础模型中,以实现:通过每个第二特征提取网络提取第二样本视频的第三视频特征,具体的,对于第二样本视频,各第二特征提取网络所提取的第三视频特征中包含其不同方向的语意信息;
对每个第二特征提取网络提取到的第三视频特征进行拼接,并加入可学习的第三特征变量;通过第三特征融合网络对加入第三特征变量的第三视频特征进行基于自注意力机制的融合学习,得到第四视频特征;从第四视频特征中提取第三特征变量对应的特征,并将提取到的特征输出给第四分类头,该第四分类头中具体可以为多层感知机网络;通过第四分类头对其所获得的特征进行分类预测,得到第二样本视频的第四分类结果,第四分类结果用于表征第二样本视频是否属于生成视频;以第四分类标签为目标,结合第四分类结果计算第二样本视频对应的第四损失函数值,根据该第四损失函数值反向调整多个第二特征提取网络、第三特征融合网络和第四分类头的权重参数,并进入下一次迭代训练中,直到第四损失函数值趋于收敛时,结束训练。
[0096] 将结束训练后的第二原始特征提取器作为目标视频生成算法对应的第二特征提取器。
[0097] 举例来说,某一视频的图像尺寸为512×512、总帧数为30,经过resnet50分类网络和clip‑vit分类网络后得到两个第三视频特征,对两个第三视频特征进行拼接、并加入可学习的第三特征变量cls token后得到[B,30,1512]维的特征、并输入给Transfomer结构,其中,B为batch size,即本次训练的第二样本视频的数量、1512为两个第三视频特征的拼接维度。
[0098] Transfomer结构通过3个多头自注意力网络对所获得的特征进行融合学习,输出融合学习到的第四视频特征。从第四视频特征中提取第三特征变量cls token对应的特征,提取到的特征的维度为[B,1512],将提取到的特征输入给多层感知机网络。
[0099] 多层感知机网络可以包含2个全连接层。第一个全连接层将提取到的特征由1512维压缩到512维,经过一个relu函数之后送入第二个全连接层,第二个全连接层输出维度为2,一个维度为属于生成视频的概率、另一个维度为不属于生成视频的概率,两个维度的概率之和为1。
[0100] 经过训练,本申请实施例可以获得一个整体的视频分类模型,对目前已有的k个视频生成算法的生成视频有很好的适应性。
[0101] 经由以上描述,本申请实施例提供的生成内容检测方法,解决了生成内容检测时在遇到新的内容生成算法表现不佳的问题,大大提高了生成内容检测的泛化性和可用性,保证生成内容检测的准确率,确保相关项目应用的安全运行。
[0102] 以上介绍了本申请实施例提供的一种生成内容检测方法,以下将介绍执行上述的生成内容检测方法的装置。
[0103] 参见图10,图10为本申请实施例提供的一种生成内容检测装置的结构示意图。如图9所示,该生成内容检测装置,包括:内容获取模块10,用于获取待检测的目标内容;
内容检测模块20,用于调取预先训练的内容分类模型,内容分类模型能够提取不同内容生成算法的内容特征、并通过特征融合进行分类;其中,内容分类模型的训练过程,包括构建基础模型,模型中包含特征提取层、特征融合网络和分类头,特征提取层中包含多个预先训练的特征提取器,一个特征提取器对应一个内容生成算法;获取训练数据集合,训练数据集合中包含真实内容、以及每个特征提取器对应的内容生成算法所生成的生成内容;从真实内容和生成内容中选取本次训练的样本内容,对样本内容标注分类标签,将样本内容输入至基础模型中,以对基础模型进行训练,直至损失函数值满足对应的收敛条件时,结束训练;将结束训练后的基础模型作为内容分类模型;将目标内容输入至内容分类模型中,通过内容分类模型预测目标内容的目标分类结果,目标分类结果用于表征目标内容是否属于生成内容。
[0104] 在一种可能的实现中,目标内容为目标图像、内容分类模型为图像分类模型、内容生成算法为图像生成算法、内容特征为图像特征、生成内容为生成图像;内容检测模块20训练图像分类模型的过程,包括:
构建第一基础模型,第一基础模型中包含第一特征提取层、第一特征融合网络和第一分类头,第一特征提取层中包含多个预先训练的第一特征提取器,一个第一特征提取器对应一个图像生成算法;获取第一训练数据集合,第一训练数据集合中包含第一真实图像、以及每个第一特征提取器对应的图像生成算法所生成的第一生成图像;从第一真实图像和第一生成图像中选取本次训练的第一样本图像,对第一样本图像标注第一分类标签,将第一样本图像输入至第一基础模型中,以实现:通过每个第一特征提取器提取第一样本图像的第一图像特征;对每个第一特征提取器提取到的第一图像特征进行拼接、并加入可学习的第一特征变量;通过第一特征融合网络对加入第一特征变量的第一图像特征进行基于自注意力机制的融合学习,得到第二图像特征;从第二图像特征中提取第一特征变量对应的特征,并将提取到的特征输出给第一分类头;通过第一分类头对其所获得的特征进行分类预测,得到第一样本图像的第一分类结果,第一分类结果用于表征第一样本图像是否属于生成图像;根据第一分类结果和第一分类标签计算第一样本图像的第一损失函数值,根据第一损失函数值更新第一特征融合网络和第一分类头的权重参数,并返回执行从第一真实图像和第一生成图像中选取本次训练的第一样本图像这一步骤,直到第一损失函数值满足对应的第一收敛条件时,结束训练;将结束训练后的第一基础模型作为图像分类模型。
[0105] 在一种可能的实现中,内容检测模块20训练每个第一特征提取器的过程,包括:构建第二基础模型,第二基础模型中包含第一原始特征提取器和第二分类头,第一原始特征提取器中包含单个第一特征提取网络;获取第二训练数据集合,第二训练数据集合中包含第二真实图像、以及目标图像生成算法所生成的第二生成图像,目标图像生成算法为待训练的第一特征提取器对应的图像生成算法;从第二真实图像和第二生成图像中选取本次训练的第二样本图像,对第二样本图像标注第二分类标签,将第二样本图像输入至第二基础模型中,以实现:通过第一特征提取网络提取第二样本图像的第三图像特征;通过第二分类头对第三图像特征进行分类预测,得到第二样本图像的第二分类结果,第二分类结果用于表征第二样本图像是否属于生成图像;根据第二分类结果和第二分类标签计算第二样本图像的第二损失函数值,根据第二损失函数值更新第一特征提取网络和第二分类头的权重参数,并返回执行从第二真实图像和第二生成图像中选取本次训练的第二样本图像这一步骤,直到第二损失函数值满足对应的第二收敛条件时,结束训练;将结束训练后的第一原始特征提取器作为目标图像生成算法对应的第一特征提取器。
[0106] 在一种可能的实现中,用于获取第一训练数据集合的内容检测模块20,具体用于:按照第一特征提取层中多个第一特征提取器的数量,对每个第一特征提取器对应的图像生成算法所生成的第三生成图像进行采样;将采样到的第三生成图像作为第一生成图像;抓取第一真实图像,第一真实图像的数量与第一生成图像的数量相同。
[0107] 在一种可能的实现中,内容检测模块20训练图像分类模型的过程,还包括:响应图像生成算法更新指令,返回执行构建第一基础模型。
[0108] 在一种可能的实现中,目标内容为目标视频、内容分类模型为视频分类模型、内容生成算法为视频生成算法、内容特征为视频特征、生成内容为生成视频;内容检测模块20训练视频分类模型的过程,包括:
构建第三基础模型,第三基础模型中包含第二特征提取层、第二特征融合网络和第三分类头,第二特征提取层中包含多个预先训练的第二特征提取器,一个第二特征提取器对应一个视频生成算法;获取第三训练数据集合,第三训练数据集合中包含第一真实视频、以及每个第二特征提取器对应的视频生成算法所生成的第一生成视频;从第一真实视频和第一生成视频中选取本次训练的第一样本视频,对第一样本视频标注第三分类标签,将第一样本视频输入至第三基础模型中,以实现:通过每个第二特征提取器提取第一样本视频的第一视频特征,第一视频特征中的部分特征属于可学习的第二特征变量;通过第二特征融合网络对每个第二特征提取器提取到的第一视频特征进行基于交叉注意力机制的融合学习,得到第二视频特征;从第二视频特征中提取第二特征变量对应的特征,并将提取到的特征输出给第三分类头;通过第三分类头对其所获得的特征进行分类预测,得到第一样本视频的第三分类结果,第三分类结果用于表征第一样本视频是否属于生成视频;根据第三分类结果和第三分类标签计算第一样本视频的第三损失函数值,根据第三损失函数值更新第二特征融合网络和第三分类头的权重参数,并返回执行从第一真实视频和第一生成视频中选取本次训练的第一样本视频这一步骤,直到第三损失函数值满足对应的第三收敛条件时,结束训练;将结束训练的第三基础模型作为视频分类模型。
[0109] 在一种可能的实现中,内容检测模块20训练每个第二特征提取器的过程,包括:构建第四基础模型,第四基础模型中包含第二原始特征提取器和第四分类头,第二原始特征提取器包含多个第二特征提取网络和第三特征融合网络;获取第四训练数据集合,第四训练数据集合中包含第二真实视频、以及目标视频生成算法所生成的第二生成视频,目标视频生成算法为待训练的第二特征提取器对应的视频生成算法;从第二真实视频和第二生成视频中选取本次训练的第二样本视频,对第二样本视频标注第四分类标签,将第二样本视频输出至第四基础模型中,以实现:通过每个第二特征提取网络提取第二样本视频的第三视频特征;对每个第二特征提取网络提取到的第三视频特征进行拼接,并加入可学习的第三特征变量;通过第三特征融合网络对加入第三特征变量的第三视频特征进行基于自注意力机制的融合学习,得到第四视频特征;从第四视频特征中提取第三特征变量对应的特征,并将提取到的特征输出给第四分类头;通过第四分类头对其所获得的特征进行分类预测,得到第二样本视频的第四分类结果,第四分类结果用于表征第二样本视频是否属于生成视频;根据第四分类结果和第四分类标签计算第二样本视频的第四损失函数值,根据第四损失函数值更新多个第二特征提取网络、第三特征融合网络和第四分类头的权重参数,并返回执行从第二真实视频和第二生成视频中选取本次训练的第二样本视频这一步骤,直到第四损失函数值满足对应的第四收敛条件时,结束训练;将结束训练后的第二原始特征提取器作为目标视频生成算法对应的第二特征提取器。
[0110] 在一种可能的实现中,用于获取第三训练数据集合的内容检测模块20,具体用于:按照第二特征提取层中多个第二特征提取器的数量,对每个第二特征提取器对应的视频生成算法所生成的第三生成视频进行采样;将采样到的第三生成视频作为第一生成视频;抓取第一真实视频,第一真实视频的数量与第一生成视频的数量相同。
[0111] 在一种可能的实现中,内容检测模块20训练视频分类模型的过程,还包括:响应视频生成算法更新指令,返回执行构建第三基础模型。
[0112] 需要说明的是,本申请实施例中各模块的细化功能可以参见上述内容图像检测方法实施例对应公开部分,在此不再赘述。
[0113] 本申请实施例中还提供一种电子设备。参见图11,图11为本申请实施例提供的一种电子设备的结构示意图。本申请实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
[0114] 如图11所示,该电子设备可以包括处理装置(例如中央处理器、图形处理器等)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储装置1108加载到随机存取存储器(RAM)1103中的程序而执行各种适当的动作和处理。在电子设备通电的状态下,RAM 1103中还存储有电子设备操作所需的各种程序和数据。处理装置1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
[0115] 通常,以下装置可以连接至I/O接口1105:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1106;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1107;包括例如内存卡、硬盘等的存储装置1108;以及通信装置1109。通信装置1109可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0116] 本申请实施例中还提供一种包括计算机程序产品,包括计算机可读指令,当计算机可读指令在电子设备上运行时,使得电子设备实现本申请实施例提供的任一种生成内容检测方法。
[0117] 本申请实施例中还提供一种计算机可读存储介质,该存储介质承载有一个或多个计算机程序,当一个或多个计算机程序被电子设备执行时,能够使电子设备实现本申请实施例提供的任一种生成内容检测方法。
[0118] 另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
[0119] 通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
[0120] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
[0121] 所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。