首页 / 样本生成方法以及装置

样本生成方法以及装置实质审查 发明

技术领域

[0001] 本说明书实施例涉及人工智能技术领域,特别涉及样本生成方法。

相关背景技术

[0002] 随着人工智能技术的发展,已经有很多算法模型落地具体的应用场景。但通常来说,算法模型的优化或者模型训练过程一般是在数据固定的前提下,追求在测试集上的高指标。但在实际应用场景下,场景数据往往是算法模型没有见过的数据,具有类别多样、不确定性高、样本数量低的特点。目前通常通过全网爬取的方式获得样本,成本极大,并且样本数量无法满足算法模型的训练或评估需求。因此,亟需提供一种解决上述问题的方案。

具体实施方式

[0119] 在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0120] 在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0121] 应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0122] 首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
[0123] 知识计算:知识计算是能将各种形态的知识,通过一系列AI技术进行抽取、表达、并协同大量数据进行计算,进而产生更为精准的模型,再次赋能给机器和人的一种全新方法。
[0124] 鲁棒性:是指深度学习模型抵抗输入扰动并给出正确判断的能力。
[0125] 扩散模型(DiffusionModel):一种通过文本生成图像的深度学习模型。
[0126] Transformer(变换)模型:一个基于注意力机制深度学习模型。
[0127] 在本说明书中,提供了三种样本生成方法,本说明书同时涉及三种样本生成装置,一种模型评估方法,一种模型评估装置,四种内容生成方法,四种内容生成装置,一种内容安全识别方法,一种内容安全识别装置,一种媒体内容分类方法,一种媒体内容分类装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
[0128] 参见图1所示的示意图,在目标任务的任务场景下,由于待处理的媒体往往是算法模型没有见过的媒体,具有类别多样、不确定性高、样本数量低的特点。因此,目前通常通过全网爬取的方式获得样本,成本极大。因此,为了在目标任务的任务场景下,以自动化的方式获得大量的训练/评估样本,本说明书实施例中,通过获取目标任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于目标任务关联的知识图谱判断目标文本是否满足目标任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,并基于目标媒体内容获得目标任务的任务样本,实现了自动化生成内容安全场景下的大量任务样本,以便基于生成的任务样本对任务模型进行训练或评估,从而增加提高任务模型的识别能力的效率。
[0129] 需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
[0130] 参见图2,图2示出了根据本说明书一个实施例提供的一种样本生成方法的流程图,具体包括以下步骤。
[0131] 步骤202:获取目标任务关联的词单元序列。
[0132] 具体的,目标任务,是指以图像、视频和/或语音等媒体内容作为训练或评估样本的任务。该目标任务,可以为内容安全识别任务、图像识别任务,语音识别任务、媒体内容分类任务等,在此不做限制。其中,内容安全识别任务是对发布或公开的多媒体内容是否为风险内容进行智能检测的任务,具体实施时,该内容安全识别任务可以包括对图片、视频、语音、文字等多媒体内容是否具备风险性(比如低俗、或涉黄等违规)进行检测,其帮助用户发现一些敏感的内容或元素(风险内容),可以大幅度降低人工审核成本,提升内容质量,改善平台秩序和用户体验。
[0133] 相应的,词单元序列,是指由词单元按照设定的顺序组成的序列。词单元序列的数量可以为一个或更多个。词单元序列中包括的词单元可以为一个也可以为多个。其中,词单元,是指用以构成语句的词语或字符等。
[0134] 本说明书实施例中将词单元作为用以描述任务模型的任务样本的关键词,并通过将至少一个词单元组成词单元序列,以便基于词单元序列对目标任务的任务模型的任务样本进行生成。
[0135] 具体实施时,可以通过人工的方式构建目标任务关联词单元,再将词单元以预设顺序(比如随机排列属性,或按照预设词性的排序顺序等)进行组合,获得词单元序列。还可以通过在数据库或网页等存储位置查找目标任务关联的词单元,再将查找的词单元以预设顺序进行组合,获得词单元序列,此外,还存在其他的词单元序列的构建方式,在此不做限制。在构建各种任务类型对应的多个词单元序列的基础上,再根据目标任务对应的任务类型选取目标任务关联的词单元序列。
[0136] 实际应用中,为了满足对目标任务的任务模型的训练或评估需求,通常需要大量的训练样本或评估样本。若要搜集这些与目标任务关联的训练样本或评估样本,往往需要耗费大量的时间成本和人力成本。因此,为了提高获取训练样本或评估样本的效率,本说明书实施例中提供一种样本生成方法,用以生成对目标任务的任务模型进行训练或评估所需的样本。
[0137] 进一步的,考虑到目标任务可能包括多种类型的任务内容,因此,将每个类型作为一种子任务类型。再根据子任务类型将目标任务划分为多个目标子任务,每个目标子任务用以对不同的子任务类型的任务进行处理。由于这些任务类型的重要程度可能存在不同,因此,生成目标子任务的任务样本的优先顺序也有所差别,本说明书实施例中,获取目标任务关联的词单元序列,具体实现如下所示:
[0138] 确定目标任务中包含的目标子任务,以及所述目标子任务对应的子任务等级;按照所述子任务等级依次获取所述目标子任务关联的词单元子序列;将所述词单元子序列组成所述目标任务关联的词单元序列。
[0139] 具体的,目标子任务,是指预先根据目标任务中涉及的子任务类型所划分的子任务。比如在目标任务中包括3种子任务类型:A类型、B类型以及C类型。在目标任务中可以包括A类型对应的目标子任务,B类型对应目标子任务,C类型对应的目标子任务。相应的,子任务等级,是指预先根据目标子任务对应的重要程度所划分的等级,比如第一等级、第二等级以及第三等级等。具体实施时,可以设定子任务等级越高,该目标子任务越重要。也可以设定子任务等级越低,该目标子任务越重要,在此不做限制。词单元子序列,是指由用以描述目标子任务所识别的多媒体内容的词单元所组成的序列。
[0140] 基于此,为了保障对于重要程度高的目标子任务优先创建对应的任务样本,可以获取用以描述该目标子任务的词单元。并基于获取的词单元构建的词单元子序列。并按照目标子任务对应的子任务标识或任务详情信息等,确定目标子任务对应的子任务等级,即目标子任务对应的子任务等级。此外,可以预先构建子任务和子任务等级之间的对应关系。基于该对应关系,确定目标子任务对应的子任务等级。
[0141] 在确定目标子任务对应的子任务等级的基础上,按照子任务等级所表示的重要性从高到低的顺序,依次获取目标子任务关联的词单元子序列,以便根据获取的词单元子序列的先后顺序,将优先获取的词单元子序列作为输入执行下述步骤204。这些词单元子序列的集合即可作为目标任务关联的词单元序列。
[0142] 以目标任务为图像识别任务为例进行说明:图像识别任务中包括3个图像识别子任务,这3个图像识别子任务分别为:子任务IR1,子任务IR2以及子任务IR3。其中,子任务IR1对应第一子任务等级,子任务IR2对应第二子任务等级,子任务IR3对应第三子任务等级。并且第一子任务等级高于第二子任务等级,第二子任务等级高于第三子任务等级。因此,按照子任务等级从高到低的顺序,依次先获取子任务IR1对应的词单元子序列WS1,再获取子任务IR2对应的词单元子序列WS2,最后获取子任务IR3对应的词单元子序列WS3,并将获取的词单元子序列WS1,词单元子序列WS2以及词单元子序列WS3组成词单元序列WSW。
[0143] 综上,通过优先获取子任务等级高的目标子任务关联的词单元子序列,可以实现优先生成子任务等级高的任务样本,以便优先使用这些任务样本提升对目标任务的检测能力。
[0144] 此外,考虑到如果随意选取词单元,并将随意选取的词单元组成词单元序列,则词单元序列所表示的语义可能较为凌乱,不利于后续对任务样本的生成。因此,本说明书实施例中,所述获取目标任务关联的词单元序列,具体实现如下所示:
[0145] 接收任务需求方针对目标任务提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0146] 具体的,任务需求方,是指需要实现目标任务能力的需求方,比如算法工程师、评估工程师、运维工程师等,在此不做限制。词单元表,是指由多个词单元类型的词单元组成的数据表。相应的,词单元类型,可以是是词单元在语法结构中的组成类型(比如主语、谓语、宾语等,或人物、地点、事件、事物等)或词性类型(比如动词,名词、形容词)等。相应的,词单元集合,是指由至少一个词单元组成的集合。预设类型顺序,是指预先设置的词单元类型的先后顺序。
[0147] 基于此,为了快速构建词单元序列,并提升词单元序列的可解释性。本说明书实施例中,接收任务需求方针对目标任务提交的词单元表。该词单元表可以由任务需求方进行构建并维护。进而确定该词单元表中包含的词单元类型,并确定每个词单元类型对应的词单元集合。在这些词单元集合中的至少一个词单元集合中按照预设的词单元选取规则(比如随机,按序等)选取词单元,并将选取的词单元按照预设类型顺序进行排列组合,获得词单元序列。
[0148] 比如,接收算法工程师针对图像识别任务提交的词单元表。该词单元表中包括主语、谓语、宾语、状语四种词单元类型,每个词单元类型对应一列词单元集合,按照预设类型选取规则,分别在上述四种词单元类型中随机选取三种词单元类型:主语、谓语、宾语。并在主语词单元类型对应的词单元集合中选择词单元:羊,在谓语词单元类型对应的词单元集合中选择词单元:吃,在宾语词单元类型对应的词单元集合中选择词单元:草,并将这些词单元按照主语、谓语、宾语的先后顺序以[MASK]为分隔符进行分隔,组成词单元序列:[MASK]羊[MASK]吃[MASK]草。
[0149] 综上,通过接收任务需求方提交的词单元表,并在词单元表中按照词单元类型选择词单元用以组成词单元序列,保障了词单元序列的规范性以及合理性,并提高了构建词单元序列的效率。
[0150] 具体实施时,考虑到由于获取词单元序列的方式是多种多样的,而通过各种方式获取的词单元序列可能不都满足用以后续构建任务样本的构建需求。因此,本说明书实施例中,为了保障获取词单元序列可以满足目标任务的任务样本的构建需求,在获取词单元序列的过程中进行规则校验,具体实现如下所示:
[0151] 获取目标任务关联的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0152] 具体的,初始词单元序列,是指未校验之前的词单元序列。预设校验规则,是指预先设置的对初始词单元序列进行校验的规则。该预设校验规则可以根据样本需求,由目标任务的需求方进行设定。比如该预设校验规则,可以是校验初始词单元序列中是否缺少必要词单元类型的词单元。通过预设校验规则进行校验后,则可以确定其缺少的词单元类型。相应的,根据校验结果对初始词单元序列进行调整,具体可以为该初始词单元序列补充该词单元类型对应的词单元。
[0153] 还比如预设校验规则可以为校验初始词单元序列中是否突出某一特定类型的词单元,这是由于生成的任务样本中通常需要突出某一内容,则用以对该内容进行描述的词单元则为需要突出的词单元。若该初始词单元序列中未突出该类型的词单元,对初始词单元序列进行调整具体可以是对该类型词单元添加较高的权重,或者将该类型的词单元调整至预设的位置等,在此不做限制。
[0154] 基于此,在创建具有样本生成的需求的目标任务之后,先获取目标任务关联的初始词单元序列,再通过预设校验规则对初始词单元序列进行规则校验,以便判断该初始词单元序列是否满足校验规则(是否满足用以构建任务样本的需求,或后续模型输入的描述需求),若是,表明初始词单元序列满足创建任务样本的需求或后续模型输入的描述需求,则直接将该初始词单元序列作为词单元序列;若否,表明初始词单元序列不满足创建任务样本的需求或后续模型输入的描述需求,则根据校验规则对应的调整方式对初始词单元序列进行调整,获得调整后的词单元序列。
[0155] 比如:在预设校验规则为主语、谓语以及宾语齐全的情况下,获取图像识别任务关联的初始词单元序列iWS,,并根据预设校验规则对该初始词单元序列iWS进行主谓宾校验,在确定该初始词单元序列iWS缺少谓语,则确定校验失败对应的调整方式为添加谓语,按照该调整方式在初始词单元序列iWS中添加谓语,获得词单元序列WSW。
[0156] 综上,基于预设校验规则,对获取的初始词单元序列进行校验,并根据校验结果对初始词单元序列进行调整,保障了调整后的词单元序列的规范性以及合理性。
[0157] 步骤204:将所述词单元序列输入文本生成模型,获得目标文本。
[0158] 具体的,在上述获取目标任务关联的词单元序列的基础上,由于词单元序列,无法进行清楚连贯的语义表示,因此,需要将词单元序列输入文本生成模型中,获得文本生成模型输出的具有清楚语义的目标文本。
[0159] 其中,文本生成模型,是指用以将词单元序列生成目标文本的模型。该文本生成模型,是一种基于条件的深度神经网络模型,其网络结构可以是基于transformer构建的网络结构,输入为词单元序列,输出为语句文本(即目标文本)。相应的,目标文本,是指由至少一个语句组成的文本。
[0160] 在上述获取图像识别任务关联的词单元序列WSw的基础上,假设该词单元序列WSW为:[MASK]羊[MASK]吃[MASK]草,将该词单元序列WSW输入预先训练完成的文本生成模型,获得文本生成模型输出的目标文本PT:在牧场上,很多羊都在吃草,其中,[MASK]可以理解为需要通过文本生成模型填充内容的文本区域。
[0161] 步骤206:基于所述目标任务关联的知识图谱判断所述目标文本是否满足所述目标任务的筛选条件。
[0162] 具体的,在上述获得目标文本的基础上,考虑到目标文本可能不具备所需构建任务样本的样本选取标准,这种情况下,基于目标文本生成的任务样本也无法使目标任务对应的任务模型学习目标任务相关的能力。因此,本说明书实施例中,预先基于目标任务关联的领域知识构建目标任务关联的知识图谱,并基于知识图谱对目标文本进行知识计算,从而判断目标文本识别满足目标任务的筛选条件。
[0163] 其中,内容安全场景下的领域知识,是指由内容安全场景下涉及的引发内容安全风险的点所确定的知识边界内的知识,比如内容安全识别任务关联的敏感人物、敏感事件等知识。具体的,知识图谱是用来描述真实世界中存在的各种实体和概念,以及它们之间的关系,可以认为是一种语义网络。知识图谱可以由内容图谱、事件图谱和社交图谱构建组成,内容图谱包含规则、逻辑、概念等;事件图谱包含关键要素、故事线、相关的人物等;社交图谱则包含一些行为关系。知识图谱构建以后可根据语言认知,使得模型不再只把一行文字当作字符串,而是当作一个蕴含丰富风险内容的“故事”;再结合可解释性,去利用主体概念、属性、和关系,去解释这些错综复杂的“故事”。
[0164] 相应的,筛选条件,是指用以筛选满足设定需求的目标文本的条件。该筛选条件具体需要根据基于知识图谱对目标文本进行知识计算的输出结果进行设定。假设知识计算的输出结果为置信度,则该筛选条件可以为置信度大于预设置信度阈值。假设知识计算的输出结果为是或否,其中,是表示目标文本满足文本需求,否表示目标文本不满足文本需求,则该筛选条件可以为是。
[0165] 基于此,基于知识图谱对目标文本进行知识计算,具体可以通过预先训练完成的神经网络模型对输入的文本输出其符合某一条件的置信度。具体实施时,针对目标文本,首先利用知识图谱中的关系进行匹配,将筛选条件匹配搭配到的词语转换成特征向量表达,再将转换的特征向量输入预先训练的置信度模型,预测该目标文本是否为满足筛选条件的文本,输出该目标文本的条件标签与条件置信度,在该条件标签与筛选条件匹配,且该条件置信度大于置信度阈值的情况下,表明目标文本符合筛选条件。
[0166] 需要说明的是,若目标文本满足该筛选条件,表明可以基于该目标文本进行样本构建,则执行下述步骤206;若目标文本不满足该筛选条件,表明该目标文本不适用于样本构建,则可删除该目标文本。
[0167] 比如:在上述获得目标文本PT的基础上,基于图像识别任务关联的知识图谱对该目标文本PT进行知识计算,获得目标文本PT对应的图像类型为自然类型,并且该自然类型对应的置信度为0.77。在筛选条件为大于置信度阈值0.6的情况下,确定目标文本满足筛选条件,则执行下述步骤208。
[0168] 步骤208:在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,并基于所述目标媒体内容获得所述目标任务的任务样本。
[0169] 具体的,在上述判断目标文本是否满足筛选条件的基础上,为了基于目标文本构建对应的任务样本,将目标文本输入媒体内容生成模型,获得目标媒体内容,再基于目标媒体内容获得目标任务的任务样本。
[0170] 其中,媒体内容生成模型,可以为图像生成模型(比如对抗网络模型或扩散模型)、音频生成模、视频生成模型等。此外,该媒体内容生成模型还可以由图像生成模型以及视频生成模型组成的综合模型等。相应的,目标媒体内容,可以为图像和/或视频等多媒体。在生成目标媒体内容的基础上,可以不断重复上述步骤202至步骤208用以不断生成目标媒体内容,从而将生成的目标媒体内容作为目标任务的任务样本。
[0171] 进一步的,考虑到目标文本中可能包含多个语句,而每个语句可能存在不同的语义,但彼此间又存在语义关联关系,因此,本说明书实施例中,为了保障生成的目标媒体内容的准确性以及连贯性,所述将所述目标文本输入媒体内容生成模型,获得目标媒体内容,具体实现如下所示:
[0172] 在所述目标文本中确定目标语句集合;将所述目标语句集合中的目标语句输入媒体内容生成模型,获得目标语句对应的目标媒体内容。
[0173] 具体的,目标语句集合,是指由至少一个目标语句组成的集合。具体的,在目标文本中确定目标语句集合,可以通过对目标文本进行分句处理,并将分句获得的句单元作为目标语句加入到目标语句集合中。
[0174] 基于此,在上述获得目标文本的基础上,为了实现对目标文本的语义分割,确定目标文本包含的目标语句集合。在目标语句集合中包含多个目标语句的情况下,将多个目标语句输入媒体内容生成模型,则可获得每个目标语句对应的目标媒体内容,从而保障了生成的目标媒体内容之间的连贯性。
[0175] 假设,在目标文本中确定了由两个目标语句组成的目标语句集合,这两个目标语句分别为目标语句A以及目标语句B,且则将两个目标语句输入图像生成模型中,获得目标语句A对应的图像A,目标语句B对应的图像A,将这两个图像组成图像序列S,并将该图像序列S作为目标媒体内容。
[0176] 综上,通过将目标文本中的目标语句输入媒体生模型,获得目标语句对应的目标媒体内容,实现了针对不同语义的目标语句生成对应的目标媒体内容,提升了目标媒体内容生成的准确率,此外,由于同一目标文本中的目标语句通常具有语义关联关系,因此,生成目标语句对应的目标媒体内容,也实现了目标媒体内容之间的连贯性。
[0177] 进一步的,考虑到实际应用场景中样本媒体的内容是多种多样的,而若需要训练模型学习某一内容媒体的识别能力,通常需要这类内容相关的多个媒体样本。若一个目标文本生成一个对应的目标媒体内容,对于其他相似内容的媒体则需要重新构建目标文本,该目标文本的利用率较低,为了提高目标文本的利用率,本说明书实施例中,所述在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,具体实现如下所示:
[0178] 在所述目标文本满足所述筛选条件的情况下,在包含文本编码器以及图像生成器的媒体内容生成模型中,确定所述图像生成器中的预设目标参数;按照预设生成规则生成所述预设目标参数对应的参数值,并根据所述参数值对所述图像生成器中的所述预设目标参数进行赋值,获得赋值后的图像生成器;将所述目标文本输入所述媒体内容生成模型,通过所述媒体内容生成模型中所述文本编码器对所述目标文本进行编码处理,获得文本编码向量;通过所述媒体内容生成模型中赋值后的图像生成器对所述文本编码向量进行图像生成处理,获得目标图像,并根据所述目标图像确定目标媒体内容。
[0179] 具体的,预设生成规则,是指用以生成参数值的生成规则,该生成规则可以是随机生成,也可以是按序生成等,在此不做限制。文本编码器,是指用以将目标文本编码为向量的模型单元。图像生成器,是指用以基于编码向量进行图像生成的模型单元。预设目标参数,是指预先在图像生器中设置的参数。相应的,文本编码向量,是指对目标文本进行编码后生成的向量表达。
[0180] 基于此,在媒体内容生成模型为图像生成模型的情况下,为了提高目标文本的利用率,先根据生成规则,生成参数值。并根据参数值对图像生成模型中图像生成器中的预设目标参数进行赋值,获得赋值后的图像生成器。由于对预设目标参数赋予不同的参数值,赋值后的图像生成器,也会有所不同。因此,将目标文本输入图像生成模型,通过文本编码器对目标文本进行编码处理,获得目标文本的向量表示(即文本编码向量)后,在预设目标参数的参数值不同的情况下,通过赋值后的图像生成器基于相同的文本编码向量生成的图像也会有所不同,从而可以达到进一步扩充任务样本的目标。
[0181] 比如,在上述目标文本PT满足筛选条件的基础上,随机生成参数值Val,并将生成的该参数值Val赋值给媒体内容生成模型中图像生成器中的seed参数,并通过该媒体内容生成模型中的文本编码器对目标文本PT进行编码处理,获得文本编码向量TV,并通过赋值后的图像生成器对文本编码向量TV进行图像生成,获得目标图像PP,将目标图像PP作为目标媒体内容。
[0182] 综上,通过先对图像生成模型中图像生成器中的预设目标参数进行赋值,再通过图像生成模型对目标文本进行图像生成,可以实现通过对图像生成器中的预设目标参数进行不同的赋值,生成同一目标文本对应的不同的目标媒体内容,提高了对于大量目标媒体内容的生成效率。
[0183] 进一步的,考虑到实际场景中,任务样本所需的媒体可能是视频,本说明书实施例中,为了实现视频类型的目标媒体内容的生成,在所述媒体内容生成模型中包括视频生成器的情况下,所述按照预设生成规则,生成所述预设目标参数对应的参数值之后,还包括:根据所述参数值对所述视频生成器中的所述预设目标参数进行赋值,获得赋值后的视频生成器;
[0184] 所述根据所述目标图像确定目标媒体内容,包括:
[0185] 通过所述媒体内容生成模型中赋值后的视频生成器对所述目标图像进行视频生成处理,获得目标视频;根据所述目标视频确定目标媒体内容,或,根据所述目标图像以及所述目标视频确定目标媒体内容。
[0186] 具体的,视频生成器,是指用以基于图像生成视频的模型单元。具体的,该视频生成器也可以为扩散模型、对抗网络模型等,在此不做限制。
[0187] 基于此,在媒体内容生成模型中还包括视频生成器的基础上,再根据上述生成的参数值对视频生成器中存在的预设目标参数进行赋值,是考虑到根据参数值的不同赋值后的视频生成器针对相同的图像所生成的视频也会有所不同。因此,将赋值后的视频生成器基于目标图像进行视频生成。而将图像生成器和视频生成器赋值相同的参数值,是为了保障相同赋值下,生成的目标图像和目标视频之间的关联关系。进一步的,再根据生成的目标视频确定目标媒体内容,具体实施时,可以根据任务样本的创建需求将目标视频直接作为目标媒体内容。还可以将目标图像以及目标视频共同作为目标媒体内容。此外,还可以在目标视频,或目标图像以及目标视频的基础上做进一步处理,并将处理后的视频和/或图像作为目标媒体内容,以便在此基础上创建合乎任务需求的任务样本。
[0188] 需要说明的是,可能存在一些视频生成器需要两个目标图像作为输入,其中一个作为视频起始帧,一个作为视频结尾帧。在这种情况下,在上述步骤202中获取词单元序列时,就需构建一个用以描述视频初始帧的词单元序列,以及一个用以描述视频结尾帧的词单元序列,并进一步生成每个词单元序列对应的目标文本,并生成每个目标文本对应的目标图像,再将这两个目标图像作为上述的视频生成器的输入。
[0189] 沿用上例,将上述生成的参数值Val赋值给媒体内容生成模型中视频生成器中的seed参数,并通过该视频生成器对目标图像PP进行视频生成,获得目标视频Video,将目标图像PP以及目标视频Video作为目标媒体内容。
[0190] 综上,在生成目标图像的基础上,再基于目标图像生成目标视频,可以实现对视频类型的任务样本的生成,并且生成过程中对所设置的预设目标参数采用相同的赋值,保障了目标图像和目标视频之间的一致性。
[0191] 进一步的,考虑到通过视频生成器生成的视频,可能不太连贯,并且平滑程度不足,因此,所述根据所述目标图像以及所述目标视频确定目标媒体内容,包括:
[0192] 将所述目标视频输入帧间插值模型进行图像插帧处理,获得插帧视频;将所述插帧视频以及所述目标文本输入语音字幕生成模型进行语音字幕生成处理,获得优化视频;将所述目标图像以及所述优化视频作为目标媒体内容。
[0193] 具体的,帧间差值模型,是指用以对目标视频中包含的图像帧之间插入图像帧的模型,通过插入的图像帧可以插帧后的目标视频(即插帧视频)更加连贯以及平滑。语音字幕生成模型,是指用以对目标视频添加语音和/或字幕描述的模型。该语音字幕生成模型通过将目标文本进行扩充,生成对目标视频的描述信息,并将该描述信息以语音和/或字幕的形式融合至目标视频,进而获得带有语音和/或字幕的视频(即目标视频)。
[0194] 基于此,为了提高目标视频的观看体验,通过帧间差值模型在目标视频中插入视频帧,并获得连贯性以及平滑度更优的插帧视频。再通过语音字幕生成模型为插帧视频添加语音和/或字幕形式的描述,获得优化视频,使得优化视频的观看者更易接收并理解视频内容。
[0195] 比如:在上述获得目标视频Video的基础上,将该目标视频Video输入帧间差值模型,通过该帧间差值模型在目标视频Video的帧间进行插帧处理,获得插帧视频FVideo,再通过语音字幕生成模型对该插帧视频FVideo进行语音和/或字幕的生成,获得优化视频OVideo,并将目标图像PP以及优化视频OVideo作为目标媒体内容。
[0196] 综上,通过对目标视频进行插帧并添加语音和/或字幕描述,获得优化视频,从而提高了优化视频的视频质量。
[0197] 具体实施时,考虑到实际应用场景下,由于媒体内容的多样性,很难提前预估出全部内容的样本内容,从而生成出全备的任务样本,因此,本说明书实施例中,通过对初始媒体内容生成模型的生成结果进行检测,并根据检测结果对初始媒体内容生成模型进行优化训练,具体实现如下所示:
[0198] 基于预设检测规则对初始媒体内容生成模型的生成结果进行检测,根据检测结果确定目标优化类型;获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签,并将所述文本样本输入初始媒体内容生成模型;通过所述初始媒体内容生成模型中初始文本编码器对所述文本样本进行编码处理,获得样本文本编码向量,并通过所述初始媒体内容生成模型中媒体内容生成器对所述样本文本编码向量进行媒体生成处理,获得预测媒体;根据所述媒体内容标签和所述预测媒体计算所述初始文本编码器的编码损失值;根据所述编码损失值调整所述初始文本编码器的编码器参数,并返回执行所述获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签步骤,直至获得满足预设编码器训练停止条件的文本编码器,并根据所述文本编码器更新所述初始媒体内容生成模型中的所述初始文本编码器,获得媒体内容生成模型。
[0199] 具体的,预设检测规则,是指预先设置的用以对初始媒体内容生成模型的生成结果进行检测的规则。该预设检测规则,可以是检测生成某一个或某些类型的目标媒体内容的生成概率是否达到生成概率阈值,或者检测生成结果中是否存在某一个或某些类型的目标媒体内容等,在此不做限制。相应的,目标优化类型,是指初始媒体内容生成模型无法生成或者生成结果不佳的类型。本说明书实施例中,将初始媒体内容生成模型无法生成或者生成结果不佳的类型作为需要优化的目标优化类型。
[0200] 文本样本,是指用以作为对初始媒体内容生成模型进行训练的文本。相应的,媒体内容标签,是指文本样本对应的样本标签。初始文本编码器,是指未优化训练前的文本编码器。样本文本编码向量,是指通过初始文本编码器对文本样本进行编码处理生成的文本编码向量。媒体内容生成器,是指媒体内容生成模型中用以对文本编码向量进行媒体生成的模型单元。预测媒体是指通过媒体内容生成器对样本文本编码向量进行媒体生成获得的媒体。
[0201] 相应的,编码损失值,是指通过预设的损失函数计算预测媒体和媒体内容标签之间的损失。该编码损失值用以评估对初始文本编码器训练的好坏。编码器参数,是指初始文本编码器中的模型参数。在对初始文本编码器进行训练的过程中不断调整其模型参数,从而使初始文本编码器具备更优的编码能力。预设编码器训练停止条件,是指预先设置的对初始文本编码器停止训练的条件,该条件可以是训练次数达到预设训练次数,或编码损失值小于预设损失阈值等,在此不做限制。
[0202] 基于此,在通过预设检测规则确定初始媒体内容生成模型存在无法识别或识别效果不佳的目标优化类型的基础上,获取预先构建的目标优化类型的文本样本以及媒体内容标签,并利用文本样本以及媒体内容标签对初始媒体内容生成模型中的初始文本编码器进行训练。在训练过程中对媒体内容生成器的模型参数进行固定,仅调整初始文本编码的模型参数,从而获得具有对目标优化类型的内容具有编码能力的文本编码器,从而实现了对初始媒体内容生成模型的微调。
[0203] 比如:通过预设检测规则,确定初始媒体内容生成模型不具备生成动物名称大象对应的动物图像的能力,则将该名称大象作为新词(即作为目标优化类型),通过构建6个描述文本(作为文本样本)以及对应的该图像名称大象的动物图像(作为媒体图像),这些描述文本中须包括新词,否则这些动物图像和新词无法关联到一起,并且构建的描述文本的内容尽量的和这6张图像不要偏离太远。基于这6个描述文本以及对应的动物图像,采用微调的方式对扩散模型的文本编码器进行微调,同时冻结扩散模型的媒体内容生成器的网络参数,小样本训练完毕后,就获得了具备认识这个新词的能力文本编码器,进而获得包含该文本编码器以及媒体内容生成器的媒体内容生成模型。
[0204] 综上,通过对初始媒体内容生成模型无法识别或识别效果不佳的目标优化类型,采用小样本训练的方法进行优化,提升了对初始媒体内容生成模型的优化效率。
[0205] 在上述获得任务样本的基础上,通过这些任务样本即可对内容安全场景下的任务模型进行训练,使任务模型基于训练样本进行任务能力的学习,因此,本说明书实施例中,所述基于所述目标媒体内容获得所述目标任务的任务样本之后,还包括:
[0206] 将所述任务样本作为训练样本,根据所述筛选条件确定所述训练样本对应的训练样本标签;利用所述训练样本以及所述训练样本标签,对所述目标任务的初始任务模型进行模型训练,获得满足预设训练停止条件的任务模型。
[0207] 具体的,训练样本,是指用以对目标任务的初始任务模型进行训练的样本。训练样本标签,是指针对训练样本需要预测出的真实结果。具体实施时,假设筛选条件筛选了具有安全风险的目标文本,因此,基于该目标文本生成的目标媒体内容也具有安全风险。在将目标媒体内容作为训练样本的情况下,该训练样本对应的训练样本标签也当为具有安全风险。假设筛选条件筛选了没有安全风险的目标文本,则训练样本标签也当为无安全风险。
[0208] 相应的,初始任务模型是指预先创建的未完成模型训练的任务模型,该模型用以在内容安全场景下进行内容安全识别。预设训练停止条件,是指预先设置的对初始任务模型进行训练的停止条件,该停止条件可以是训练次数达到预设训练次数,或训练过程中模型损失值小于预设模型损失阈值等,在此不做限制。
[0209] 基于此,在上述获得目标任务的任务样本的基础上,为了实现对初始任务模型的模型识别能力进行提升,将任务样本作为训练样本,并基于筛选条件确定训练样本的训练样本标签,并利用训练样本以及训练样本标签对初始任务模型进行训练,获得训练完成的任务模型,从而使任务模型相较于初始任务模型具有更优的识别能力。
[0210] 比如,在上述获得目标媒体内容的基础上,将目标媒体内容作为训练样本TS,并基于筛选条件确定训练样本TS对应的训练样本标签为TL,利用训练样本TS以及训练样本标签TL对预先构建的初始图像识别模型进行模型训练,获得训练完成的图像识别模型。
[0211] 综上,通过自动化生成的任务样本对初始任务模型进行模型训练,保障了训练样本的样本量,并提升了初始任务模型的任务能力。
[0212] 此外,在上述获得任务样本的基础上,考虑到实际应用场景下,可能目标任务的任务内容具有不确定性。因此,很难保证对任务模型训练的完备性,也因此难以保障任务模型的模型质量,因此,本说明书实施例中,采用这些任务样本对内容安全场景下的线上的任务模型进行评估,从而对任务模型的模型能力进行评估,并根据评估结果对任务模型进行调优,本说明书实施例中,所述基于所述目标媒体内容获得所述目标任务的任务样本之后,具体通过如下步骤实现:
[0213] 步骤20802:将所述任务样本作为评估样本,根据所述筛选条件确定所述评估样本对应的评估样本标签。
[0214] 具体的,评估样本,是指用以对目标任务的待评估的任务模型进行评估的样本。评估样本标签,是指评估样本对应的真实结果。
[0215] 步骤20804:将所述评估样本输入所述目标任务的待评估的任务模型,根据模型输出结果选择与所述评估样本标签不一致的评估样本作为目标评估样本。
[0216] 具体的,模型输出结果,是指任务模型对评估样本的识别结果。假设该识别结果于评估样本对应的评估样本标签不一致,表示该评估样本为任务模型的漏防样本(即目标评估样本)。
[0217] 步骤20806:基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的任务模型,获得目标任务模型。
[0218] 具体的,任务调优样本,是指对任务模型进行调优的样本。目标任务模型,是指对任务模型进行调优后生成的模型。
[0219] 进一步的,考虑到实际场景下,可能存在对评估后的任务模型进行优化的任务调优样本的数量较少的问题,因此,本说明书实施例,通过执行上述步骤202至208评估后的任务模型的任务调优样本,并利用所述任务调优样本优化评估后的任务模型,获得目标任务模型,具体实现如下所示:
[0220] 创建所述目标评估样本对应的调优任务;将所述调优任务作为目标任务,返回执行所述获取目标任务关联的词单元序列步骤,并将所述目标任务的任务样本作为任务调优样本;利用所述任务调优样本,对评估后的任务模型进行模型调优,获得满足预设优化条件的目标任务模型。
[0221] 具体的,调优任务,是指对任务模型进行调优的任务。
[0222] 基于此,在上述获得目标任务的任务样本的基础上,为了实现对待评估任务模型的模型识别能力进行评估以及优化,将任务样本作为评估样本,并基于筛选条件确定评估样本的评估样本标签,并利用评估样本以及评估样本标签对待评估任务模型进行评估,从而确定该待评估任务模型的漏防样本。
[0223] 在确定漏防样本的基础上,为了实现对该任务模型的调优,需要进一步基于漏防样本生成对该任务模型进行调优的样本(即任务调优样本)。因此,将调优任务作为目标任务,执行所述获取目标任务关联的词单元序列步骤,生成目标任务的任务样本。具体的,执行所述获取目标任务关联的词单元序列步骤,生成目标任务的任务样本的具体实现方式与上述步骤202至步骤208的具体实现方式类似,在此不做赘述。并将针对调优任务生成的任务调优样本,对评估后的任务模型进行调优,获得目标任务模型,从而使调优后的目标任务模型具有对目标评估样本的识别能力。
[0224] 比如,在上述获得目标媒体内容的基础上,将目标媒体内容作为评估样本testS,并基于筛选条件确定评估样本testS对应的评估样本标签为testL,利用评估样本testS以及评估样本标签testL对待评估的任务模型进行模型评估,获得图像识别模型无法识别的目标评估样本PTS,并基于目标评估样本PTS创建图像识别调优任务,用以生成图像识别任务调优样本OTS,并利用生成的图像识别任务调优样本OTS对图像识别模型进行调优,获得目标图像识别模型。
[0225] 综上,通过自动化生成的任务样本对待评估的任务模型进行模型评估,从而确定了任务模型的识别疏漏,因此,基于目标评估样本确定任务调优样本,并对任务模型进行调优,优化了任务模型的识别能力。
[0226] 具体实施时,考虑到在实际应用场景下,由于场景内容的不确定性,难以预估出全部的具有风险的内容,因此,本说明书实施例,在具体实践的过程中通过用户获取未能识别的具有安全风险的内容,所述利用所述训练样本以及所述训练样本标签,对所述目标任务的初始任务模型进行模型训练,获得满足预设训练停止条件的任务模型之后,还包括:
[0227] 接收用户针对用户媒体提交的告警信息;基于所述告警信息确定所述任务模型对所述用户媒体处理错误的情况下,根据所述告警信息,创建告警目标任务。
[0228] 具体的,用户,是指任务模型所处理的媒体的观看用户或校验用户,当用户在网页上或APP上发现存在用户媒体可能被处理错误时,通常对会针对该目标媒体内容提交告警信息。其中,告警信息,是指对用户媒体进行告知或提醒的信息。该告警信息中可以包含用户媒体的位置信息、类型信息等信息,在此不做限制。告警目标任务,是指用以生成用户媒体所属的任务类型对应的任务样本的任务。
[0229] 基于此,在训练后的任务模型上线后,可能由于任务模型给出了错误的处理结果,因此,未能发现存在处理错误的用户媒体。在接收到用户针对用户媒体提交的告警信息后,确定任务模型确实不具有对用户媒体的处理能力(即处理错误)的情况下,基于告警信息中的类型信息、或关键词信息等创建告警目标任务,用使任务模型学习对告警的用户媒体的处理能力。
[0230] 比如:接收用户U针对人物图像提交的告警信息,该告警信息中包括该人物图像以及该人物图像对应的图像类型:人物,在确定图像识别模型对该人物图像识别错误的情况下,基于该人物图像对应的图像类型人物创建告警图像识别任务,以便基于该告警图像识别任务生成针对该图像类型人物的训练样本。
[0231] 综上,通过接收用户提交的告警信息,发现任务模型的处理疏漏,从而基于该疏漏创建对应的样本生成任务,以便基于该样本生成任务生成针对性的训练样本对任务模型进行优化,从而修复该任务模型的处理疏漏。
[0232] 由于上述是按照子任务等级,依次获取目标子任务关联的词单元子序列,因此,生成目标子任务的任务样本的优先顺序也有所差别,本说明书实施例中,所述将所述目标文本输入媒体内容生成模型,获得目标媒体内容,具体实现如下所示:
[0233] 确定所述目标子任务对应的目标子文本;将所述目标子文本按照所述子任务等级依次输入至媒体内容生成模型,获得所述目标子任务对应的目标子媒体内容,基于所述目标子媒体内容组成目标媒体内容。
[0234] 具体的,目标子文本,是指针对目标子任务生成的文本,具体实施时,将基于目标子任务对应的词单元子序列生成的目标文本作为目标子文本。相应的,目标子媒体内容,是指目标子文本输入媒体内容生成模型后该媒体内容生成模型输出的媒体。
[0235] 基于此,在上述获取目标子任务关联的词单元子序列的基础上,将针对每个词单元子序列进行文本生成,获得文本确定为目标子文本,将并将目标子文本按照子任务等级依次输入至媒体内容生成模型,获得每个目标子文本对应的目标子媒体内容,再将获得的目标子媒体内容组合称为目标媒体内容。
[0236] 比如:在上述先获取子任务PR1对应的词单元子序列WS1,再获取子任务PR2对应的词单元子序列WS2,最后获取子任务PR3对应的词单元子序列WS3之后,将词单元子序列WS3输入文本生成模型,获得目标子文本T1,将词单元子序列WS2输入文本生成模型,获得目标子文本T2,并将词单元子序列S3输入文本生成模型M1,获得目标子文本T3。再依次将目标子文本T1输入至媒体内容生成模型,获得子任务PR1对应的目标图像P1,将目标子文本T2输入至图像生成模型,获得目标子任务对应的目标图像P2,将目标子文本T3输入至图像生成模型,获得目标子任务对应的目标图像P3,并将目标图像P1、目标图像P2以及目标图像P3组成目标图像集合。
[0237] 综上,通过优先获取子任务等级高的目标子任务关联的词单元子序列,再优先生成子任务等级高的目标子媒体内容,以便优先这些目标子媒体内容作为任务样本提升对目标任务的识别能力。
[0238] 在上述优先生成子任务等级高的任务样本的基础上,为了优先完成对重要的内容优先进行识别,本说明书实施例,在训练的时候,也可以按照优先级顺序选择不同子任务的子样本逐步训练模型,让模型优先学习重要的,利用所述训练样本以及所述训练样本标签,对所述目标任务的初始任务模型进行模型训练,具体实现如下所示:
[0239] 按照所述子任务等级对所述目标任务中包含的所述目标子任务进行排序,并按序在排序结果中选择目标子任务;在所述训练样本中确定所述目标子任务对应的目标训练子样本,以及在所述训练样本标签中确定所述目标子任务对应的目标训练子样本标签;利用所述目标训练子样本以及所述目标训练子样本标签,对所述目标任务的初始任务模型进行模型训练;在训练完成的情况下,返回执行按序在所排序结果中选择目标子任务的步骤。
[0240] 具体的,目标子任务,是指在目标子任务中选择的优先用以进行模型训练的目标子任务。相应的,目标训练子样本,是指目标子任务对应的训练样本;目标训练子样本标签,是指目标训练子样本对应的样本标签。
[0241] 基于此,为了实现按照优先级顺序选择不同目标子任务的对应的训练子样本本逐步训练任务模型,先按照子任务等级对目标任务中包含的目标子任务进行排序,获得排序结果。并在排序结果中选择优先级最高(即子任务等级最高)的未被用以训练的目标子任务作为目标子任务。并提取该目标子任务对应的目标训练子样本以及目标训练子样本标签对初始任务模型进行训练。在训练完成后,将排列在上述按序选择周期中被选择的目标子任务之后,相邻的目标子任务确定为目标子任务,继续针对初始任务模型进行训练,直至针对全部的目标子任务,均完成对任务模型的训练。
[0242] 比如,在图像识别任务中包括子任务PR1,子任务PR2以及子任务PR3的基础上,由于子任务PR1对应的子任务等级高于子任务PR2对应的子任务等级,并且子任务PR2对应的子任务等级高于子任务PR3对应的子任务等级。因此,基于子任务等级对上述三个子任务进行排序后,获得的排序结果为子任务PR1、子任务PR2以及子任务PR3。在排序结果中优先选择子任务PR1作为目标子任务,并在训练样本中提取子任务PR1对应的目标图像P1,并在训练样本标签中提取目标图像P1对应的目标训练子标签1,利用目标图像P1以及目标训练子标签1,对初始任务模型进行模型训练。训练完成后,按序在排序结果中选择排列在子任务PR1之后与其相邻的子任务PR2作为目标子任务,依次类推,直至针对子任务PR1、子任务PR2以及子任务PR3均完成对初始任务模型的训练,获得训练完成的任务模型。
[0243] 综上,针对多个目标子任务,优先对子任务等级高的目标子任务实行模型训练,可以在边应用边训练的场景下使用,节省训练时间,且能够优先学习重要的识别能力。
[0244] 本说明书一个实施例,为了在内容安全场景下,获得大量的训练/评估样本,本说明书实施例中,通过获取目标任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于目标任务关联的知识图谱判断目标文本是否满足目标任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,并基于目标媒体内容获得目标任务的任务样本,实现了自动化生成内容安全场景下的大量任务样本,以便基于生成的任务样本对任务模型进行训练或评估,从而增加了提升任务模型的识别能力的效率。
[0245] 参见图3,图3示出了根据本说明书一个实施例提供的第二种样本生成方法的流程图,具体包括以下步骤。
[0246] 步骤302:获取内容安全识别任务关联的词单元序列。
[0247] 实际应用中,为了满足对内容安全识别任务的内容安全识别模型的训练或评估需求,通常需要大量的训练样本或评估样本。若要搜集这些与内容安全识别任务关联的训练样本或评估样本,往往需要耗费大量的时间成本和人力成本。因此,为了提高获取训练样本或评估样本的效率,本说明书实施例中提供一种样本生成方法,用以生成对内容安全识别任务的任务模型进行训练或评估所需的样本。
[0248] 进一步的,考虑到在内容安全场景下,内容安全识别任务通常涉及多种风险类型的多媒体内容的安全识别,因此,内容安全识别任务可以划分为多个内容安全识别子任务,每个内容安全识别子任务用以对不同的风险类型的多媒体内容进行安全识别。这些风险类型的重要程度不同,因此,需要生成内容安全识别子任务的任务样本的优先顺序也有所差别,本说明书实施例中,获取内容安全识别任务关联的词单元序列,具体实现如下所示:
[0249] 确定内容安全识别任务中包含的内容安全识别子任务,以及所述内容安全识别子任务对应的内容安全等级;按照所述内容安全等级依次获取所述内容安全识别子任务关联的词单元子序列;将所述词单元子序列组成所述内容安全识别任务关联的词单元序列;
[0250] 实际应用中,为了保障对于风险高的内容优先创建内容安全识别子任务对应的任务样本,可以先按照内容安全识别任务所需识别的多媒体内容对应的风险类型,将内容安全识别任务划分为至少两个内容安全识别子任务。划分后各个内容安全识别子任务对应至少一种风险类型。此外,也可以在内容安全识别任务确定预先设定的内容安全识别子任务。进一步的,基于各个内容安全识别子任务对应的风险类型,获取用以描述该内容类型的词单元。并基于获取的词单元构建的词单元子序列。并按照内容安全识别子任务对应的风险类型,确定风险类型对应的内容安全等级,即内容安全识别子任务对应的内容安全等级。实际应用中,可以预先构建内容类型和内容安全等级之间的对应关系。基于该对应关系,确定内容安全识别子任务对应的内容安全等级。此外,还可以直接预先设置内容安全识别子任务对应的内容安全等级。
[0251] 在确定内容安全识别子任务对应的内容安全等级的基础上,按照内容安全等级所表示的重要性从高到低的顺序,依次获取内容安全识别子任务关联的词单元子序列,以便根据获取的词单元子序列的先后顺序,将优先获取的词单元子序列作为输入执行下述步骤304。这些词单元子序列的集合即可作为内容安全识别任务关联的词单元序列。
[0252] 综上,通过优先获取内容安全等级高的内容安全识别子任务关联的词单元子序列,可以实现优先生成内容安全等级高的任务样本,以便优先使用这些任务样本提升对内容安全识别任务的检测能力。
[0253] 此外,考虑到内容安全场景下,如果随意选取词单元,并将随意选取的词单元组成词单元序列,则词单元序列所表示的语义可能较为凌乱,不利于后续对任务样本的生成。因此,本说明书实施例中,所述获取内容安全识别任务关联的词单元序列,具体实现如下所示:
[0254] 接收安全需求方针对内容安全识别任务提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0255] 具体的,安全需求方,是指需要实现内容安全识别能力的需求方,比如算法工程师、评估工程师、运维工程师等,在此不做限制。
[0256] 基于此,为了快速构建词单元序列,并提升词单元序列的可解释性。本说明书实施例中,接收安全需求方针对内容安全识别任务提交的词单元表。该词单元表可以由安全需求方进行构建并维护。进而确定该词单元表中包含的词单元类型,并确定每个词单元类型对应的词单元集合。在这些词单元集合中的至少一个词单元集合中按照预设的词单元选取规则(比如随机,按序等)选取词单元,并将选取的词单元按照预设类型顺序进行排列组合,获得词单元序列。
[0257] 比如,接收评估成员针对内容安全识别任务提交的词单元表。该词单元表中包括人物、地点、事件、事物四种词单元类型,每个词单元类型对应一列词单元集合按照预设类型选取规则,分别在上述四种词单元类型中随机选取三种词单元类型:人物、地点、事件。并在人物词单元类型对应的词单元集合中选择词单元:学生,在地点词单元类型对应的词单元集合中选择词单元:机场,在事件词单元类型对应的词单元集合中选择词单元:机场,并将这些词单元按照人物、地点、事件的先后顺序以[MASK]为分隔符进行分隔,组成词单元序列:[MASK]学生[MASK]机场[MASK]游行。
[0258] 综上,通过接收安全需求方提交的词单元表,并在词单元表中按照词单元类型选择词单元用以组成词单元序列,保障了词单元序列的规范性以及合理性,并提高了构建词单元序列的效率。
[0259] 具体实施时,考虑到由于内容安全场景下,获取词单元序列的方式是多种多样的,而通过各种方式获取的词单元序列可能不都满足用以后续构建任务样本的构建需求,因此,本说明书实施例中,为了保障获取词单元序列可以满足内容安全识别任务的任务样本的构建需求,在获取词单元序列的过程中进行规则校验,具体实现如下所示:
[0260] 获取内容安全识别任务关联的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0261] 具体实施时,在创建具有样本生成的需求的内容安全识别任务之后,先获取内容安全识别任务关联的初始词单元序列,再通过预设校验规则对初始词单元序列进行规则校验,以便判断该初始词单元序列是否满足校验规则(是否满足用以构建任务样本的需求,或后续模型输入的描述需求),若是,表明初始词单元序列满足创建任务样本的需求或后续模型输入的描述需求,则直接将该初始词单元序列作为词单元序列;若否,表明初始词单元序列不满足创建任务样本的需求或后续模型输入的描述需求,则根据校验规则对应的调整方式对初始词单元序列进行调整,获得调整后的词单元序列。
[0262] 比如:获取内容安全识别任务关联的初始词单元序列iS,并根据预设校验规则对该初始词单元序列iS进行校验,在校验失败的情况下,确定校验失败对应的调整方式,按照该调整方式对初始词单元序列iS进行调整,获得词单元序列WS。
[0263] 步骤304:将所述词单元序列输入文本生成模型,获得目标文本。
[0264] 具体的,在上述获取内容安全识别任务关联的词单元序列的基础上,由于词单元序列,无法进行清楚连贯的语义表示,因此,需要将词单元序列输入文本生成模型中,获得文本生成模型输出的具有清楚语义的目标文本。
[0265] 在上述获取内容安全识别任务关联的词单元序列WS的基础上,假设该词单元序列WS为:[MASK]学生[MASK]机场[MASK]游行,将该词单元序列WS输入预先训练完成的文本生成模型M1,获得文本生成模型M1输出的目标文本T:他们发现,不少学生在机场举行游行,其中,[MASK]可以理解为需要通过文本生成模型M1填充内容的文本区域。
[0266] 步骤306:基于所述内容安全识别任务关联的知识图谱判断所述目标文本是否满足所述内容安全识别任务的筛选条件。
[0267] 具体的,在上述获得目标文本的基础上,考虑到目标文本可能不具备风险性,这种情况下,基于目标文本生成的任务样本也无法使内容安全识别任务具有风险性内容的识别能力。因此,本说明书实施例中,预先基于内容安全场景下的领域知识构建内容安全识别任务关联的知识图谱,并基于知识图谱对目标文本进行知识计算,从而判断目标文本识别满足内容安全识别任务的筛选条件。
[0268] 其中,内容安全场景下的领域知识,是指由内容安全场景下涉及的引发内容风险性的点所确定的知识边界内的知识,比如内容安全识别任务关联的敏感人物、敏感事件等知识。
[0269] 相应的,筛选条件,是指用以筛选存在安全风险的目标文本的条件。该筛选条件具体需要根据基于知识图谱对目标文本进行知识计算的输出结果进行设定。假设知识计算的输出结果为置信度,则该筛选条件可以为置信度大于预设置信度阈值。假设知识计算的输出结果为是或否,其中,是表示目标文本为风险文本,否表示目标文本不为风险文本,则该筛选条件可以为是或否。
[0270] 基于此,基于知识图谱对目标文本进行知识计算,可以通过预先训练完成的神经网络模型对输入的文本输出相应的风险置信度。具体实施时,针对目标文本,首先利用知识图谱中的关系进行匹配,将风险匹配搭配到的词语转换成特征向量表达,再将转换的特征向量输入预先训练的置信度计算模型,预测该目标文本是否为风险文本,输出该目标文本对应的风险点的类别标签与风险置信度。
[0271] 需要说明的是,若目标文本满足该筛选条件,表明可以基于该目标文本进行样本构建,则执行下述步骤306;若目标文本不满足该筛选条件,表明该目标文本不适用于样本构建,则可删除该目标文本。
[0272] 比如:在上述获得目标文本T的基础上,基于内容安全识别任务关联的知识图谱对该目标文本T进行知识计算,获得目标文本T对应的风险类型为低俗类型,并且该低俗类型对应的置信度为0.67。在筛选条件为大于置信度阈值0.6的情况下,确定目标文本满足筛选条件,则执行下述步骤308。
[0273] 步骤308:在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,并基于所述目标媒体内容获得所述内容安全识别任务的任务样本。
[0274] 具体的,在上述判断目标文本是否满足筛选条件的基础上,为了基于目标文本构建对应的任务样本,将目标文本输入媒体内容生成模型,获得目标媒体内容,再基于目标媒体内容获得内容安全识别任务的任务样本。
[0275] 进一步的,考虑到目标文本中可能包含多个语句,而每个语句可能存在不同的语义,但彼此间又存在语义关联关系,因此,本说明书实施例中,为了保障生成的目标媒体内容的准确性以及连贯性,所述将所述目标文本输入媒体内容生成模型,获得目标媒体内容,具体实现如下所示:
[0276] 在所述目标文本中确定目标语句集合;将所述目标语句集合中的目标语句输入媒体内容生成模型,获得目标语句对应的目标媒体内容。
[0277] 进一步的,考虑到在内容安全场景下媒体的内容是多种多样的,而若需要训练模型学习某一内容媒体的识别能力,通常需要这类内容相关的多个媒体样本。若一个目标文本生成一个对应的目标媒体内容,对于其他相似内容的媒体则需要重新构建目标文本,该目标文本的利用率较低,为了提高目标文本的利用率,本说明书实施例中,所述在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,具体实现如下所示:
[0278] 在所述目标文本满足所述筛选条件的情况下,在包含文本编码器以及图像生成器的媒体内容生成模型中,确定所述图像生成器中的预设目标参数;按照预设生成规则生成所述预设目标参数对应的参数值,并根据所述参数值对所述图像生成器中的所述预设目标参数进行赋值,获得赋值后的图像生成器;将所述目标文本输入所述媒体内容生成模型,通过所述媒体内容生成模型中所述文本编码器对所述目标文本进行编码处理,获得文本编码向量;通过所述媒体内容生成模型中赋值后的图像生成器对所述文本编码向量进行图像生成处理,获得目标图像,并根据所述目标图像确定目标媒体内容。
[0279] 具体实施时,在媒体内容生成模型为图像生成模型的情况下,为了提高目标文本的利用率,先根据生成规则,生成参数值。并根据参数值对图像生成模型中图像生成器中的预设目标参数进行赋值,获得赋值后的图像生成器。由于对预设目标参数赋予不同的参数值,赋值后的图像生成器,也会有所不同。因此,将目标文本输入图像生成模型,通过文本编码器对目标文本进行编码处理,获得目标文本的向量表示(即文本编码向量)后,在预设目标参数的参数值不同的情况下,通过赋值后的图像生成器基于相同的文本编码向量生成的图像也会有所不同,从而可以达到进一步扩充任务样本的目标。
[0280] 进一步的,考虑到内容安全场景中,存在内容风险的媒体可能是视频,本说明书实施例中,为了实现视频类型的目标媒体内容的生成,在所述媒体内容生成模型中包括视频生成器的情况下,所述按照预设生成规则,生成所述预设目标参数对应的参数值之后,还包括:根据所述参数值对所述视频生成器中的所述预设目标参数进行赋值,获得赋值后的视频生成器;
[0281] 所述根据所述目标图像确定目标媒体内容,包括:
[0282] 通过所述媒体内容生成模型中赋值后的视频生成器对所述目标图像进行视频生成处理,获得目标视频;根据所述目标视频确定目标媒体内容,或,根据所述目标图像以及所述目标视频确定目标媒体内容。
[0283] 在媒体内容生成模型中还包括视频生成器的基础上,再根据上述生成的参数值对视频生成器中存在的预设目标参数进行赋值,是考虑到根据参数值的不同赋值后的视频生成器针对相同的图像所生成的视频也会有所不同。因此,将赋值后的视频生成器基于目标图像进行视频生成。而将图像生成器和视频生成器赋值相同的参数值,是为了保障相同赋值下,生成的目标图像和目标视频之间的关联关系。进一步的,再根据生成的目标视频确定目标媒体内容,具体实施时,可以根据任务样本的创建需求将目标视频直接作为目标媒体内容。还可以将目标图像以及目标视频共同作为目标媒体内容。此外,还可以在目标视频,或目标图像以及目标视频的基础上做进一步处理,并将处理后的视频和/或图像作为目标媒体内容,以便在此基础上创建合乎任务需求的任务样本。
[0284] 进一步的,考虑到通过视频生成器生成的视频,可能不太连贯,并且平滑程度不足,因此,所述根据所述目标图像以及所述目标视频确定目标媒体内容,包括:
[0285] 将所述目标视频输入帧间插值模型进行图像插帧处理,获得插帧视频;将所述插帧视频以及所述目标文本输入语音字幕生成模型进行语音字幕生成处理,获得优化视频;将所述目标图像以及所述优化视频作为目标媒体内容。
[0286] 具体实施时,为了提高目标视频的观看体验,通过帧间差值模型在目标视频中插入视频帧,并获得连贯性以及平滑度更优的插帧视频。再通过语音字幕生成模型为插帧视频添加语音和/或字幕形式的描述,获得优化视频,使得优化视频的观看者更易接收并理解视频内容。
[0287] 具体实施时,考虑到在内容安全场景下,由于内容安全领域中风险类型的多样性,很难提前预估出全部风险类型的样本内容,从而生成出全备的任务样本,因此,本说明书实施例中,通过对初始媒体内容生成模型的生成结果进行检测,并根据检测结果对初始媒体内容生成模型进行优化训练,具体实现如下所示:
[0288] 基于预设检测规则对初始媒体内容生成模型的生成结果进行检测,根据检测结果确定目标安全类型;获取所述目标安全类型的文本样本以及所述文本样本对应的媒体内容标签,并将所述文本样本输入初始媒体内容生成模型;通过所述初始媒体内容生成模型中初始文本编码器对所述文本样本进行编码处理,获得样本文本编码向量,并通过所述初始媒体内容生成模型中媒体内容生成器对所述样本文本编码向量进行媒体生成处理,获得预测媒体;根据所述媒体内容标签和所述预测媒体计算所述初始文本编码器的编码损失值;根据所述编码损失值调整所述初始文本编码器的编码器参数,并返回执行所述获取所述目标安全类型的文本样本以及所述文本样本对应的媒体内容标签步骤,直至获得满足预设编码器训练停止条件的文本编码器,并根据所述文本编码器更新所述初始媒体内容生成模型中的所述初始文本编码器,获得媒体内容生成模型。
[0289] 具体的,预设检测规则,可以是检测生成某一个或某些安全类型的目标媒体内容的生成概率是否达到生成概率阈值,或者检测生成结果中是否存在某一个或某些安全类型的目标媒体内容等,在此不做限制。相应的,目标安全类型,是指初始媒体内容生成模型无法生成或者生成结果不佳的安全类型。
[0290] 基于此,在通过预设检测规则确定初始媒体内容生成模型存在无法识别或识别效果不佳的目标安全类型的基础上,获取预先构建的目标安全类型的文本样本以及媒体内容标签,并利用文本样本以及媒体内容标签对初始媒体内容生成模型中的初始文本编码器进行训练。在训练过程中对媒体内容生成器的模型参数进行固定,仅调整初始文本编码的模型参数,从而获得具有对目标安全类型的内容具有编码能力的文本编码器,从而实现了对初始媒体内容生成模型的微调。
[0291] 综上,通过对初始媒体内容生成模型无法识别或识别效果不佳的目标安全类型,采用小样本训练的方法进行优化,提升了对初始媒体内容生成模型的优化效率。
[0292] 在上述获得任务样本的基础上,通过这些任务样本即可对内容安全场景下的内容安全识别模型进行训练,使内容安全识别模型基于训练样本进行内容安全识别能力的学习,因此,本说明书实施例中,所述基于所述目标媒体内容获得所述内容安全识别任务的任务样本之后,还包括:
[0293] 将所述任务样本作为训练样本,根据所述筛选条件确定所述训练样本对应的训练样本标签;利用所述训练样本以及所述训练样本标签,对所述内容安全识别任务的初始内容安全识别模型进行模型训练,获得满足预设训练停止条件的内容安全识别模型。
[0294] 具体实施时,假设筛选条件筛选了具有安全风险的目标文本,因此,基于该目标文本生成的目标媒体内容也具有安全风险。在将目标媒体内容作为训练样本的情况下,该训练样本对应的训练样本标签也当为具有安全风险。假设筛选条件筛选了没有安全风险的目标文本,则训练样本标签也当为无安全风险。相应的,初始内容安全识别模型是指预先创建的未完成模型训练的内容安全识别模型,该模型用以在内容安全场景下进行内容安全识别。
[0295] 基于此,在上述获得内容安全识别任务的任务样本的基础上,为了实现对初始内容安全识别模型的模型识别能力进行提升,将任务样本作为训练样本,并基于筛选条件确定训练样本的训练样本标签,并利用训练样本以及训练样本标签对初始内容安全识别模型进行训练,获得训练完成的内容安全识别模型,从而使内容安全识别模型相较于初始内容安全识别模型具有更优的识别能力。
[0296] 综上,通过自动化生成的任务样本对初始内容安全识别模型进行模型训练,保障了训练样本的样本量,并提升了初始内容安全识别模型的识别能力。
[0297] 此外,在上述获得任务样本的基础上,考虑到内容安全场景下,所涉及的内容具有不确定性,因此,很难保证对内容安全识别模型训练的完备性,也因此难以保障内容安全识别模型的模型质量,因此,本说明书实施例中,采用这些任务样本对内容安全场景下的线上的内容安全识别模型进行评估,从而对内容安全识别模型的模型能力进行评估,并根据评估结果对内容安全识别模型进行调优,本说明书实施例中,所述基于所述目标媒体内容获得所述内容安全识别任务的任务样本之后,具体通过如下步骤实现:
[0298] 步骤30802:将所述任务样本作为评估样本,根据所述筛选条件确定所述评估样本对应的评估样本标签。
[0299] 具体的,评估样本,是指用以对内容安全识别任务的待评估的内容安全识别模型进行评估的样本。评估样本标签,是指评估样本对应的真实识别结果。具体实施时,假设筛选条件筛选了具有风险的目标文本,因此,基于该目标文本生成的目标媒体内容也具有风险。在将目标媒体内容作为评估样本的情况下,该评估样本对应的评估样本标签也当为具有风险。假设筛选条件筛选了没有风险的目标文本,相应的,评估样本标签也当为无风险。
[0300] 步骤30804:将所述评估样本输入所述内容安全识别任务的待评估的内容安全识别模型,根据模型输出结果选择与所述评估样本标签不一致的评估样本作为目标评估样本。
[0301] 具体的,模型输出结果,是指内容安全识别模型对评估样本的识别结果。假设该识别结果于评估样本对应的评估样本标签不一致,表示该评估样本为内容安全识别模型的漏防样本(即目标评估样本)。
[0302] 步骤30806:基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的内容安全识别模型,获得目标内容安全识别模型。
[0303] 具体的,任务调优样本,是指对内容安全识别模型进行调优的样本。目标内容安全识别模型,是指对内容安全识别模型进行调优后生成的模型。
[0304] 进一步的,考虑到在内容安全场景下,对评估后的内容安全识别模型进行优化的任务调优样本的数量较少,因此,本说明书实施例,通过执行上述步骤302至308评估后的内容安全识别模型的任务调优样本,并利用所述任务调优样本优化评估后的内容安全识别模型,获得目标内容安全识别模型,具体实现如下所示:
[0305] 创建所述目标评估样本对应的内容安全识别调优任务;将所述内容安全识别调优任务作为内容安全识别任务,返回执行所述获取内容安全识别任务关联的词单元序列步骤,并将所述内容安全识别任务的任务样本作为任务调优样本;利用所述任务调优样本,对评估后的内容安全识别模型进行模型调优,获得满足预设优化条件的目标内容安全识别模型。
[0306] 具体的,内容安全识别调优任务,是指对内容安全识别模型进行调优的任务。
[0307] 基于此,在上述获得内容安全识别任务的任务样本的基础上,为了实现对待评估内容安全识别模型的模型识别能力进行评估以及优化,将任务样本作为评估样本,并基于筛选条件确定评估样本的评估样本标签,并利用评估样本以及评估样本标签对待评估内容安全识别模型进行评估,从而确定该待评估内容安全识别模型的漏防样本。
[0308] 在确定漏防样本的基础上,为了实现对该内容安全识别模型的调优,需要进一步基于漏防样本生成对该内容安全识别模型进行调优的样本(即任务调优样本)。因此,将内容安全识别调优任务作为内容安全识别任务,执行所述获取内容安全识别任务关联的词单元序列步骤,生成内容安全识别任务的任务样本。具体的,执行所述获取内容安全识别任务关联的词单元序列步骤,生成内容安全识别任务的任务样本的具体实现方式与上述步骤302至步骤308的具体实现方式类似,在此不做赘述。并将针对内容安全识别调优任务生成的任务调优样本,对评估后的内容安全识别模型进行调优,获得目标内容安全识别模型,从而使调优后的目标内容安全识别模型具有对目标评估样本的识别能力。
[0309] 综上,通过自动化生成的任务样本对待评估的内容安全识别模型进行模型评估,从而确定了内容安全识别模型的识别疏漏,因此,基于目标评估样本确定任务调优样本,并对内容安全识别模型进行调优,优化了内容安全识别模型的识别能力。
[0310] 具体实施时,考虑到在内容安全场景下,由于场景内容的不确定性,难以预估全部的具有风险性的内容,因此,本说明书实施例,在具体实践的过程中通过用户获取未能识别的具有风险性的内容,所述利用所述训练样本以及所述训练样本标签,对所述内容安全识别任务的初始内容安全识别模型进行模型训练,获得满足预设训练停止条件的内容安全识别模型之后,还包括:
[0311] 接收用户针对用户媒体提交的内容告警信息;基于所述内容告警信息确定所述内容安全识别模型对所述用户媒体识别错误的情况下,根据所述内容告警信息,创建告警内容安全识别任务。
[0312] 具体的,用户,是指内容安全场景下对内容的观看用户,当用户在网页上或APP上发现存在安全风险的内容(即用户媒体)时,通常对会针对该内容提交内容告警信息。其中,内容告警信息,是指对用户媒体的安全风险进行告知或提醒的信息。该内容告警信息中可以包含用户媒体的位置信息、类型信息和/或目标媒体内容等信息,在此不做限制。告警内容安全识别任务,是指用以生成用户媒体所属的安全类型对应的任务样本的任务。
[0313] 基于此,在训练后的内容安全识别模型上线后,可能由于内容安全识别模型给出了错误的识别结果,因此,未能发现存在安全风险的用户媒体。在接收到用户针对用户媒体提交的内容告警信息后,确定内容安全识别模型确实不具有对用户媒体的识别能力(即识别错误)的情况下,基于内容告警信息中的安全类型、或关键词信息创建告警内容安全识别任务,用使内容安全识别模型学习对告警的用户媒体的识别能力。
[0314] 比如:接收用户U针对图像A提交的内容告警信息,该内容告警信息中包括该图像A以及该图像A对应的安全类型:事件E,在确定内容安全识别模型对该图像A识别错误的情况下,基于该图像A对应的安全类型事件E创建告警内容安全识别任务,以便基于该告警内容安全识别任务生成针对该安全类型事件E的训练样本。
[0315] 综上,通过接收用户提交的内容告警信息,发现内容安全识别模型的识别疏漏,从而基于该疏漏创建对应的样本生成任务,以便基于该样本生成任务生成针对性的训练样本对内容安全识别模型进行优化,从而修复该内容安全识别模型的识别疏漏。
[0316] 由于上述是按照内容安全等级,依次获取内容安全识别子任务关联的词单元子序列,因此,生成内容安全识别子任务的任务样本的优先顺序也有所差别,本说明书实施例中,所述将所述目标文本输入媒体内容生成模型,获得目标媒体内容,具体实现如下所示:
[0317] 确定所述内容安全识别子任务对应的目标子文本;将所述目标子文本按照所述内容安全等级依次输入至媒体内容生成模型,获得所述内容安全识别子任务对应的目标子媒体内容,基于所述目标子媒体内容组成目标媒体内容。
[0318] 具体的,目标子文本,是指针对内容安全识别子任务生成的文本,具体实施时,将基于内容安全识别子任务对应的词单元子序列生成的目标文本作为目标子文本。相应的,目标子媒体内容,是指目标子文本输入媒体内容生成模型后该媒体内容生成模型输出的媒体内容。
[0319] 基于此,在上述获取内容安全识别子任务关联的词单元子序列的基础上,将针对每个词单元子序列进行文本生成,获得文本确定为目标子文本,将并将目标子文本按照内容安全等级依次输入至媒体内容生成模型,获得每个目标子文本对应的目标子媒体内容,再将获得的目标子媒体内容组合称为目标媒体内容。
[0320] 综上,通过优先获取内容安全等级高的内容安全识别子任务关联的词单元子序列,再优先生成内容安全等级高的目标子媒体内容,以便优先这些目标子媒体内容作为任务样本提升对内容安全识别任务的识别能力。
[0321] 在上述优先生成内容安全等级高的任务样本的基础上,为了优先完成对重要的内容优先进行识别,本说明书实施例,在训练的时候,也可以按照优先级顺序选择不同子任务的子样本逐步训练模型,让模型优先学习重要的,所述利用所述训练样本以及所述训练样本标签,对所述内容安全识别任务的初始内容安全识别模型进行模型训练,具体实现如下所示:
[0322] 按照所述内容安全等级对所述内容安全识别任务中包含的所述内容安全识别子任务进行排序,并按序在排序结果中选择目标内容安全识别子任务;
[0323] 在所述训练样本中确定所述目标内容安全识别子任务对应的目标训练子样本,以及在所述训练样本标签中确定所述目标内容安全识别子任务对应的目标训练子样本标签;利用所述目标训练子样本以及所述目标训练子样本标签,对所述内容安全识别任务的初始内容安全识别模型进行模型训练;在训练完成的情况下,返回执行按序在所排序结果中选择目标内容安全识别子任务的步骤。
[0324] 具体的,目标内容安全识别子任务,是指在内容安全识别子任务中选择的优先用以进行模型训练的内容安全识别子任务。相应的,目标训练子样本,是指目标内容安全识别子任务对应的训练样本;目标训练子样本标签,是指目标训练子样本对应的样本标签。
[0325] 基于此,为了实现按照优先级顺序选择不同内容安全识别子任务的对应的训练子样本本逐步训练内容安全识别模型,先按照内容安全等级对内容安全识别任务中包含的内容安全识别子任务进行排序,获得排序结果。并在排序结果中选择优先级最高(即内容安全等级最高)的未被用以训练的内容安全识别子任务作为目标内容安全识别子任务。并提取该目标内容安全识别子任务对应的目标训练子样本以及目标训练子样本标签对初始内容安全识别模型进行训练。在训练完成后,将排列在上述按序选择周期中被选择的内容安全识别子任务之后,相邻的内容安全识别子任务确定为目标内容安全识别子任务,继续针对初始内容安全识别模型进行训练,直至针对全部的内容安全识别子任务,均完成对内容安全识别模型的训练。
[0326] 综上,针对多个内容安全识别子任务,优先对内容安全等级高的内容安全识别子任务实行模型训练,可以在边应用边训练的场景下使用,节省训练时间,且能够优先学习重要的识别能力。
[0327] 本说明书一个实施例,为了在内容安全场景下,获得大量的训练/评估样本,本说明书实施例中,通过获取内容安全识别任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于内容安全识别任务关联的知识图谱判断目标文本是否满足内容安全识别任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,并基于目标媒体内容获得内容安全识别任务的任务样本,实现了自动化生成内容安全场景下的大量任务样本,以便基于生成的任务样本对内容安全识别模型进行训练或评估,从而增加了提升内容安全识别模型的识别能力的效率。
[0328] 上述为本实施例的第二种样本生成方法的示意性方案。需要说明的是,该第二种样本生成方法的技术方案与上述的第一种样本生成方法的技术方案属于同一构思,第二种样本生成方法的技术方案未详细描述的细节内容,均可以参见上述第一种样本生成方法的技术方案的描述。
[0329] 参见图4,图4示出了根据本说明书一个实施例提供的第三种样本生成方法的流程图,应用于云侧设备,具体包括以下步骤。
[0330] 步骤402:获取端侧设备针对目标任务提交的词单元序列;
[0331] 步骤404:将所述词单元序列输入文本生成模型,获得目标文本;
[0332] 步骤406:基于所述目标任务关联的知识图谱判断所述目标文本是否满足所述目标任务的筛选条件;
[0333] 步骤408:在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,并基于所述目标媒体内容获得所述目标任务的任务样本;
[0334] 步骤410:将所述任务样本发送至所述端侧设备。
[0335] 云侧设备为端侧设备提供样本生成、模型评估与优化以及模型训练功能的网络云侧设备,为一种提供云端计算能力的设备。端侧设备为提供样样本生成、模型评估与优化以及模型训练功能的应用的终端设备。云侧设备和端侧设备通过网络传输信道连接,进行数据传输。
[0336] 可选地,所述将所述任务样本发送至所述端侧设备之后,还包括:
[0337] 接收所述端侧设备提交的模型训练指令,响应于所述训练指令将任务样本作为训练样本,根据所述筛选条件确定所述训练样本对应的训练样本标签;利用所述训练样本以及所述训练样本标签,对所述内容安全识别任务的初始任务模型进行模型训练,获得满足预设训练停止条件的任务模型;将所述任务模型的模型参数发送至所述端侧设备。
[0338] 可选地,所述将所述任务样本发送至所述端侧设备之后,还包括:
[0339] 接收所述端侧设备提交的模型优化指令,响应于所述评估指令将所述任务样本作为评估样本,根据所述筛选条件确定所述评估样本对应的评估样本标签;将所述评估样本输入所述内容安全识别任务的待评估的任务模型,根据模型输出结果选择与所述评估样本标签不一致的评估样本作为目标评估样本;基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的任务模型,获得目标任务模型;
[0340] 将所述目标任务模型的模型参数发送至所述端侧设备。
[0341] 可选地,所述在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,包括:
[0342] 在所述目标文本满足所述筛选条件的情况下,在包含文本编码器以及图像生成器的媒体内容生成模型中,确定所述图像生成器中的预设目标参数;按照预设生成规则生成所述预设目标参数对应的参数值,并根据所述参数值对所述图像生成器中的所述预设目标参数进行赋值,获得赋值后的图像生成器;将所述目标文本输入所述媒体内容生成模型,通过所述媒体内容生成模型中所述文本编码器对所述目标文本进行编码处理,获得文本编码向量;通过所述媒体内容生成模型中赋值后的图像生成器对所述文本编码向量进行图像生成处理,获得目标图像,并根据所述目标图像确定目标媒体内容。
[0343] 可选地,在所述媒体内容生成模型中包括视频生成器的情况下,所述按照预设生成规则,生成所述预设目标参数对应的参数值之后,还包括:
[0344] 根据所述参数值对所述视频生成器中的所述预设目标参数进行赋值,获得赋值后的视频生成器;所述根据所述目标图像确定目标媒体内容,包括:通过所述媒体内容生成模型中赋值后的视频生成器对所述目标图像进行视频生成处理,获得目标视频;根据所述目标视频确定目标媒体内容,或,根据所述目标图像以及所述目标视频确定目标媒体内容。
[0345] 可选地,所述媒体内容生成模型的训练,包括:
[0346] 基于预设检测规则对初始媒体内容生成模型的生成结果进行检测,根据检测结果确定目标优化类型;获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签,并将所述文本样本输入初始媒体内容生成模型;通过所述初始媒体内容生成模型中初始文本编码器对所述文本样本进行编码处理,获得样本文本编码向量,并通过所述初始媒体内容生成模型中媒体内容生成器对所述样本文本编码向量进行媒体生成处理,获得预测媒体;根据所述媒体内容标签和所述预测媒体计算所述初始文本编码器的编码损失值;根据所述编码损失值调整所述初始文本编码器的编码器参数,并返回执行所述获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签步骤,直至获得满足预设编码器训练停止条件的文本编码器,并根据所述文本编码器更新所述初始媒体内容生成模型中的所述初始文本编码器,获得媒体内容生成模型。
[0347] 可选地,所述获取端侧设备针对目标任务提交的词单元序列,包括:
[0348] 接收任务需求方通过端侧设备针对目标任务提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0349] 可选地,所述获取端侧设备针对目标任务提交的词单元序列,包括:
[0350] 获取端侧设备针对目标任务提交的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0351] 可选地,所述根据所述目标图像以及所述目标视频确定目标媒体内容,包括:
[0352] 将所述目标视频输入帧间插值模型进行图像插帧处理,获得插帧视频;将所述插帧视频以及所述目标文本输入语音字幕生成模型进行语音字幕生成处理,获得优化视频;将所述目标图像以及所述优化视频作为目标媒体内容。
[0353] 可选地,所述将所述目标文本输入媒体内容生成模型,获得目标媒体内容,包括:
[0354] 在所述目标文本中确定目标语句集合;将所述目标语句集合中的目标语句输入媒体内容生成模型,获得目标语句对应的目标媒体内容。
[0355] 可选地,所述利用所述训练样本以及所述训练样本标签,对所述目标任务的初始任务模型进行模型训练,获得满足预设训练停止条件的任务模型之后,还包括:
[0356] 接收用户针对用户媒体提交的告警信息;基于所述告警信息确定所述任务模型对所述用户媒体处理错误的情况下,根据所述告警信息,创建告警目标任务。
[0357] 可选地,所述获取端侧设备针对目标任务提交的词单元序列,包括:
[0358] 确定目标任务中包含的目标子任务,以及所述目标子任务对应的子任务等级;按照所述子任务等级依次获取端侧设备针对所述目标子任务提交的词单元子序列;将所述词单元子序列组成所述目标任务关联的词单元序列;
[0359] 所述将所述目标文本输入媒体内容生成模型,获得目标媒体内容,包括:
[0360] 确定所述目标子任务对应的目标子文本;将所述目标子文本按照所述子任务等级依次输入至媒体内容生成模型,获得所述目标子任务对应的目标子媒体内容,基于所述目标子媒体内容组成目标媒体内容。
[0361] 可选地,利用所述训练样本以及所述训练样本标签,对所述目标任务的初始任务模型进行模型训练,包括:
[0362] 按照所述子任务等级对所述目标任务中包含的所述目标子任务进行排序,并按序在排序结果中选择目标子任务;在所述训练样本中确定所述目标子任务对应的目标训练子样本,以及在所述训练样本标签中确定所述目标子任务对应的目标训练子样本标签;利用所述目标训练子样本以及所述目标训练子样本标签,对所述目标任务的初始任务模型进行模型训练;在训练完成的情况下,返回执行按序在所排序结果中选择目标子任务的步骤。
[0363] 本说明书一个实施例,应用于云侧设备,获得大量的训练/评估样本,本说明书实施例中,通过获取目标任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于目标任务关联的知识图谱判断目标文本是否满足目标任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,并基于目标媒体内容获得目标任务的任务样本,实现了为端侧设备自动化生成目标任务的大量任务样本,以便基于生成的任务样本对任务模型进行训练或评估,从而增加了提升任务模型的识别能力的效率。
[0364] 上述为本实施例的第三种样本生成方法的示意性方案。需要说明的是,该第三种样本生成方法的技术方案与上述的样本生成方法的技术方案属于同一构思,第三种样本生成方法的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0365] 参见图5,图5示出了根据本说明书一个实施例提供的一种模型评估方法的流程图,具体包括以下步骤。
[0366] 步骤502:获取目标任务关联的词单元序列,并将所述词单元序列输入文本生成模型,获得目标文本;
[0367] 步骤504:基于所述目标任务关联的知识图谱判断所述目标文本是否满足所述目标任务的筛选条件;
[0368] 步骤506:在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,并基于所述目标媒体内容获得目标任务的评估样本;
[0369] 步骤508:根据所述筛选条件确定所述评估样本对应的评估样本标签,并利用所述评估样本以及所述评估样本标签,对所述目标任务的待评估的任务模型进行模型评估。
[0370] 可选地,所述利用所述评估样本以及所述评估样本标签,对所述目标任务的待评估的任务模型进行模型评估之后,还包括:
[0371] 根据模型输出结果选择与所述评估样本标签不一致的评估样本作为目标评估样本;基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的任务模型,获得目标任务模型。
[0372] 可选地,所述基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的任务模型,获得目标任务模型,包括:
[0373] 创建所述目标评估样本对应的调优任务;将所述调优任务作为目标任务,返回执行所述获取目标任务关联的词单元序列步骤,并将所述目标任务的任务样本作为任务调优样本;利用所述任务调优样本,对评估后的任务模型进行模型调优,获得满足预设优化条件的目标任务模型。
[0374] 可选地,所述在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,包括:
[0375] 在所述目标文本满足所述筛选条件的情况下,在包含文本编码器以及图像生成器的媒体内容生成模型中,确定所述图像生成器中的预设目标参数;按照预设生成规则生成所述预设目标参数对应的参数值,并根据所述参数值对所述图像生成器中的所述预设目标参数进行赋值,获得赋值后的图像生成器;将所述目标文本输入所述媒体内容生成模型,通过所述媒体内容生成模型中所述文本编码器对所述目标文本进行编码处理,获得文本编码向量;通过所述媒体内容生成模型中赋值后的图像生成器对所述文本编码向量进行图像生成处理,获得目标图像,并根据所述目标图像确定目标媒体内容。
[0376] 可选地,在所述媒体内容生成模型中包括视频生成器的情况下,所述按照预设生成规则,生成所述预设目标参数对应的参数值之后,还包括:根据所述参数值对所述视频生成器中的所述预设目标参数进行赋值,获得赋值后的视频生成器;
[0377] 所述根据所述目标图像确定目标媒体内容,包括:
[0378] 通过所述媒体内容生成模型中赋值后的视频生成器对所述目标图像进行视频生成处理,获得目标视频;根据所述目标视频确定目标媒体内容,或,根据所述目标图像以及所述目标视频确定目标媒体内容。
[0379] 可选地,所述媒体内容生成模型的训练,包括:
[0380] 基于预设检测规则对初始媒体内容生成模型的生成结果进行检测,根据检测结果确定目标优化类型;获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签,并将所述文本样本输入初始媒体内容生成模型;通过所述初始媒体内容生成模型中初始文本编码器对所述文本样本进行编码处理,获得样本文本编码向量,并通过所述初始媒体内容生成模型中媒体内容生成器对所述样本文本编码向量进行媒体生成处理,获得预测媒体;根据所述媒体内容标签和所述预测媒体计算所述初始文本编码器的编码损失值;根据所述编码损失值调整所述初始文本编码器的编码器参数,并返回执行所述获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签步骤,直至获得满足预设编码器训练停止条件的文本编码器,并根据所述文本编码器更新所述初始媒体内容生成模型中的所述初始文本编码器,获得媒体内容生成模型。
[0381] 可选地,所述获取目标任务关联的词单元序列,包括:
[0382] 接收任务需求方针对目标任务提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0383] 可选地,所述获取目标任务关联的词单元序列,包括:
[0384] 获取目标任务关联的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0385] 可选地,所述根据所述目标图像以及所述目标视频确定目标媒体内容,包括:
[0386] 将所述目标视频输入帧间插值模型进行图像插帧处理,获得插帧视频;将所述插帧视频以及所述目标文本输入语音字幕生成模型进行语音字幕生成处理,获得优化视频;将所述目标图像以及所述优化视频作为目标媒体内容。
[0387] 可选地,所述将所述目标文本输入媒体内容生成模型,获得目标媒体内容,包括:
[0388] 在所述目标文本中确定目标语句集合;将所述目标语句集合中的目标语句输入媒体内容生成模型,获得目标语句对应的目标媒体内容。
[0389] 可选地,所述利用所述训练样本以及所述训练样本标签,对所述目标任务的初始任务模型进行模型训练,获得满足预设训练停止条件的任务模型之后,还包括:
[0390] 接收用户针对用户媒体提交的告警信息;基于所述告警信息确定所述任务模型对所述用户媒体处理错误的情况下,根据所述告警信息,创建告警目标任务。
[0391] 可选地,所述获取目标任务关联的词单元序列,包括:确定目标任务中包含的目标子任务,以及所述目标子任务对应的子任务等级;按照所述子任务等级依次获取所述目标子任务关联的词单元子序列;将所述词单元子序列组成所述目标任务关联的词单元序列;
[0392] 所述将所述目标文本输入媒体内容生成模型,获得目标媒体内容,包括:
[0393] 确定所述目标子任务对应的目标子文本;将所述目标子文本按照所述子任务等级依次输入至媒体内容生成模型,获得所述目标子任务对应的目标子媒体内容,基于所述目标子媒体内容组成目标媒体内容。
[0394] 本说明书一个实施例,为了获得大量的评估样本,通过获取目标任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于目标任务关联的知识图谱判断目标文本是否满足目标任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,并基于目标媒体内容获得目标任务的评估样本,实现了自动化生成目标任务的大量评估样本,以便基于生成的评估样本对任务模型进行评估,从而提升了任务模型的评估效率。
[0395] 上述为本实施例的一种模型评估方法的示意性方案。需要说明的是,该模型评估方法的技术方案与上述的第一种样本生成方法的技术方案属于同一构思,第一种样本生成方法的技术方案未详细描述的细节内容,均可以参见上述第一种样本生成方法的技术方案的描述。
[0396] 下述结合附图6,以本说明书提供的样本生成方法在内容安全场景下的内容安全识别任务为例,对所述样本生成方法进行进一步说明。其中,图6示出了本说明书一个实施例提供的一种样本生成方法的处理过程流程图,具体包括以下步骤。
[0397] 步骤602:接收安全需求方针对内容安全识别任务提交的词单元表。
[0398] 步骤604:确定词单元表包含的词单元类型,并基于词单元表确定词单元类型对应的词单元集合。
[0399] 步骤606:从词单元集合中选择词单元,并按照预设类型顺序进行组合,获得初始词单元序列。
[0400] 具体的,在确定词单元类型对应的词单元集合的基础上,还可以根据安全类型选取该安全类型相关的词单元。其中,选择的词单元以及安全类型可以作为输入内容。
[0401] 步骤608:基于预设校验规则,对初始词单元序列进行校验,并根据校验结果对初始词单元序列进行调整,获得词单元序列。
[0402] 步骤610:将词单元序列输入文本生成模型,获得目标文本。
[0403] 实际应用中,可以根据不同安全类型预先训练对应的文本生成模型,并将词单元序列根据其所属的安全类型输入该安全类型对应的文本生成模型进行文本生成,从而保障文本生成的准确性。
[0404] 步骤612:基于内容安全识别任务关联的知识图谱判断目标文本是否满足内容安全识别任务的筛选条件。
[0405] 具体的,可以基于知识图谱对目标文本进行知识计算,从而获得目标文本对应的风险类型以及该风险类型对应的风险置信度。该筛选条件,可以为判断该风险置信度是否满足风险置信度阈值。其中,知识图谱是基于内容安全场景下的领域知识预先创建的内容知识图谱。对目标文本的判断过程中可以采用预设规则结合内容知识图谱对目标内容是否具有风险进行判断。
[0406] 步骤614:在目标文本满足筛选条件的情况下,在媒体内容生成模型中,确定媒体内容生成模型中图像生成器的预设目标参数。
[0407] 步骤616:按照预设生成规则生成预设目标参数对应的参数值,并根据参数值对图像生成器中的预设目标参数进行赋值,获得赋值后的图像生成器。
[0408] 具体的,该预设生成规则,可以是随机生成规则。
[0409] 步骤618:将目标文本输入媒体内容生成模型,通过媒体内容生成模型中文本编码器对目标文本进行编码处理,获得文本编码向量。
[0410] 步骤620:通过媒体内容生成模型中赋值后的图像生成器对文本编码向量进行图像生成处理,获得目标图像。
[0411] 具体的,媒体内容生成模型中的文本编码器以及图像生成器可以理解为图像生成模型。
[0412] 步骤622:根据参数值对视频生成器中的预设目标参数进行赋值,获得赋值后的视频生成器。
[0413] 步骤624:通过媒体内容生成模型中赋值后的视频生成器对目标图像进行视频生成处理,获得目标视频。
[0414] 步骤626:根据目标图像以及目标视频确定目标媒体内容,并基于目标媒体内容获得内容安全识别任务的任务样本。
[0415] 具体的,上述步骤602至步骤626执行过程的示意图具体如图7所示,其中,步骤602到步骤606为输入内容部分的执行步骤;步骤608至步骤610为文本生成模块的执行步骤;步骤612为知识计算模块的执行步骤;步骤614至步骤620为图像生成模块的执行步骤;步骤622至步骤624为视频帧生成模块的执行步骤,并在生成目标图像(风险图像)以及目标视频(风险视频)的基础上,将二者作为输出内容部分的输出。
[0416] 步骤628:将任务样本作为评估样本,根据筛选条件确定评估样本对应的评估样本标签。
[0417] 步骤630:将评估样本输入内容安全识别任务的待评估的内容安全识别模型,根据模型输出结果选择与评估样本标签不一致的评估样本作为目标评估样本。
[0418] 步骤632:创建目标评估样本对应的内容安全识别调优任务。
[0419] 步骤634:将内容安全识别调优任务作为内容安全识别任务,返回执行获取内容安全识别任务关联的词单元序列步骤,并将内容安全识别任务的任务样本作为任务调优样本。
[0420] 步骤636:利用任务调优样本,对评估后的内容安全识别模型进行模型调优,获得满足预设优化条件的目标内容安全识别模型。
[0421] 具体的,上述步骤628至步骤636执行过程的示意图具体如图8所示,基于生成的目标图像以及目标视频,进一步通过更新词单元并重复上述步骤602至步骤626生成由目标图像组成的图像集以及由目标视频组成的视频集,将二者作为攻击样本,对内容安全识别模型进行评估,并将内容安全识别模型无法识别的目标评估样本作为漏防样本。再通过媒体内容生成模型基于漏防样本生成内容安全识别模型对应的漏防样本集,并将漏防样本集作为训练数据,对内容安全识别模型进行优化训练。需要说明的是,若上述样本生成过程中的媒体内容生成模型不具备生成漏防样本的能力的情况下,需要基于漏防样本构建调优小样本,先对媒体内容生成模型进行调优训练(即生成模型小样本训练),再通过训练完成的媒体内容生成模型生成漏防样本集。
[0422] 本说明书一个实施例,为了在内容安全场景下,获得大量的评估样本,本说明书实施例中,通过获取内容安全识别任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于内容安全识别任务关联的知识图谱判断目标文本是否满足内容安全识别任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,并基于目标媒体内容获得内容安全识别任务的任务样本,实现了自动化生成内容安全场景下的大量任务样本,以便基于生成的任务样本对内容安全识别任务进行评估。
[0423] 参见图9,图9示出了根据本说明书一个实施例提供的第一种内容生成方法的流程图,具体包括以下步骤。
[0424] 步骤902:获取内容安全识别任务关联的词单元序列;
[0425] 步骤904:将所述词单元序列输入文本生成模型,获得所述内容安全识别任务对应的目标文本。
[0426] 可选地,所述内容生成方法,还包括:
[0427] 基于所述内容安全识别任务关联的知识图谱,判断所述目标文本是否满足所述内容安全识别任务的筛选条件:
[0428] 在所述目标文本满足所述筛选条件的情况下,基于所述目标文本获得所述内容安全识别任务的任务样本。
[0429] 可选地,所述获取内容安全识别任务关联的词单元序列,包括:接收任务需求方针对内容安全识别任务提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0430] 可选地,所述获取内容安全识别任务关联的词单元序列,包括:获取内容安全识别任务关联的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0431] 可选地,所述内容生成装置,还包括:
[0432] 接收用户针对用户文本提交的告警信息;基于所述告警信息确定所述内容安全识别模型对所述用户文本处理错误的情况下,根据所述告警信息,创建告警内容安全识别任务。
[0433] 本说明书实施例提供的第一种内容安全生成方法,通过获取内容安全识别任务关联的词单元序列,并将词单元序列输入文本生成模型,获得内容安全识别任务对应的目标文本,实现了获得内容安全识别场景下的待识别的文本内容的生成,提高了文本内容的生成效率。
[0434] 上述为本实施例的第一种内容生成方法的示意性方案。需要说明的是,该第一种内容生成方法的技术方案与上述的样本生成方法的技术方案属于同一构思,第一种内容生成方法的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0435] 参见图10,图10示出了根据本说明书一个实施例提供的第二种内容生成方法的流程图,具体包括以下步骤。
[0436] 步骤1002:获取内容安全识别任务关联的目标文本;
[0437] 步骤1004:基于所述内容安全识别任务关联的知识图谱,判断所述目标文本是否满足所述内容安全识别任务的筛选条件;
[0438] 步骤1006:在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入图像生成模型,获得所述内容安全识别任务对应的目标图像。
[0439] 可选地,所述内容生成方法,还包括:
[0440] 基于所述目标图像获得所述内容安全识别任务的任务样本。
[0441] 可选地,所述在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入图像生成模型,获得目标图像,包括:在所述目标文本满足所述筛选条件的情况下,在包含文本编码器以及图像生成器的图像生成模型中,确定所述图像生成器中的预设目标参数;按照预设生成规则生成所述预设目标参数对应的参数值,并根据所述参数值对所述图像生成器中的所述预设目标参数进行赋值,获得赋值后的图像生成器;将所述目标文本输入所述图像生成模型,通过所述图像生成模型中所述文本编码器对所述目标文本进行编码处理,获得文本编码向量;通过所述图像生成模型中赋值后的图像生成器对所述文本编码向量进行图像生成处理,获得目标图像。
[0442] 可选地,所述图像生成模型的训练,包括:基于预设检测规则对初始图像生成模型的生成结果进行检测,根据检测结果确定目标优化类型;获取所述目标优化类型的文本样本以及所述文本样本对应的图像标签,并将所述文本样本输入初始图像生成模型;通过所述初始图像生成模型中初始文本编码器对所述文本样本进行编码处理,获得样本文本编码向量,并通过所述初始图像生成模型中图像生成器对所述样本文本编码向量进行图像生成处理,获得预测图像;根据所述图像标签和所述预测图像计算所述初始文本编码器的编码损失值;根据所述编码损失值调整所述初始文本编码器的编码器参数,并返回执行所述获取所述目标优化类型的文本样本以及所述文本样本对应的图像标签步骤,直至获得满足预设编码器训练停止条件的文本编码器,并根据所述文本编码器更新所述初始图像生成模型中的所述初始文本编码器,获得图像生成模型。
[0443] 可选地,所述内容生成装置,还包括:
[0444] 接收用户针对用户图像提交的告警信息;基于所述告警信息确定所述内容安全识别模型对所述用户图像处理错误的情况下,根据所述告警信息,创建告警内容安全识别任务。
[0445] 本说明书实施例提供的第二种内容安全生成方法,通过获取内容安全识别任务关联的目标文本,基于所述内容安全识别任务关联的知识图谱,判断所述目标文本是否满足所述内容安全识别任务的筛选条件,实现了基于知识图谱对目标文本的筛选,并在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入图像生成模型,获得所述内容安全识别任务对应的目标图像,实现了获得内容安全识别场景下的待识别的图像内容的生成,提高了文本内容的生成效率。
[0446] 上述为本实施例的第二种内容生成方法的示意性方案。需要说明的是,该第二种内容生成方法的技术方案与上述的样本生成方法的技术方案属于同一构思,第二种内容生成方法的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0447] 参见图11,图11示出了根据本说明书一个实施例提供的第三种内容生成方法的流程图,具体包括以下步骤。
[0448] 步骤1102:获取内容安全识别任务关联的目标图像;
[0449] 步骤1104:将所述目标图像输入视频生成模型,获得所述内容安全识别任务对应的目标视频。
[0450] 可选地,所述内容生成方法,还包括:
[0451] 可选地,所述利用所述训练样本以及所述训练样本标签,对所述内容安全识别任务的初始内容安全识别模型进行模型训练,获得满足预设训练停止条件的内容安全识别模型之后,还包括:
[0452] 接收用户针对用户视频提交的告警信息;
[0453] 基于所述告警信息确定所述内容安全识别模型对所述用户视频处理错误的情况下,根据所述告警信息,创建告警内容安全识别任务。
[0454] 本说明书实施例提供的第三种内容安全生成方法,通过获取内容安全识别任务关联的目标图像,将所述目标图像输入视频生成模型,获得所述内容安全识别任务对应的目标视频,实现了获得内容安全识别场景下的待识别的视频内容的生成,提高了视频内容的生成效率。
[0455] 上述为本实施例的第三种内容生成方法的示意性方案。需要说明的是,该第三种内容生成方法的技术方案与上述的样本生成方法的技术方案属于同一构思,第三种内容生成方法的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0456] 参见图12,图12示出了根据本说明书一个实施例提供的第四种内容生成方法的流程图,具体包括以下步骤。
[0457] 步骤1202:获取内容安全识别任务关联的词单元序列;
[0458] 步骤1204:将所述词单元序列输入文本生成模型,获得目标文本;
[0459] 步骤1206:基于所述目标任务关联的知识图谱,判断所述目标文本是否满足所述内容安全识别任务的筛选条件;
[0460] 步骤1208:在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得所述内容安全识别任务的目标媒体内容。
[0461] 可选地,所述内容生成方法,还包括:
[0462] 基于所述目标媒体内容获得所述内容安全识别任务的任务样本。
[0463] 本说明书实施例提供的第四种内容生成方法,通过获取内容安全识别任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于内容安全识别任务关联的知识图谱判断目标文本是否满足内容安全识别任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,实现了自动化生成内容安全识别场景下待识别的媒体内容,提高了内容生成效率。
[0464] 上述为本实施例的第四种内容生成方法的示意性方案。需要说明的是,该第四种内容生成方法的技术方案与上述的样本生成方法的技术方案属于同一构思,第四种内容生成方法的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0465] 参见图13,图13示出了根据本说明书一个实施例提供的一种内容安全识别方法的流程图,具体包括以下步骤。
[0466] 步骤1302:接收待识别媒体内容;
[0467] 步骤1304:将所述待识别媒体内容输入目标内容安全识别模型,获得所述目标内容安全识别模型输出的所述待识别媒体内容对应的安全识别结果,其中,所述目标内容安全识别模型为利用内容安全识别任务的任务调优样本优化评估后的内容安全识别模型生成的。
[0468] 具体的,待识别媒体内容,可以是文本、也可以图像或视频等,在此不做限制。
[0469] 可选地,所述内容安全识别任务的任务样本的生成,包括:
[0470] 获取内容安全识别任务关联的词单元序列;
[0471] 将所述词单元序列输入文本生成模型,获得目标文本;
[0472] 基于所述内容安全识别任务关联的知识图谱,判断所述目标文本是否满足所述内容安全识别任务的筛选条件;
[0473] 在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得所述内容安全识别任务对应的目标媒体内容,基于所述目标媒体内容获得内容安全识别模型任务的任务样本。
[0474] 本说明书实施例提供的内容安全识别方法,通过接收待识别媒体内容,并将所述待识别媒体内容输入目标内容安全识别模型,获得所述目标内容安全识别模型输出的所述待识别媒体内容对应的安全识别结果,其中,所述目标内容安全识别模型为利用内容安全识别任务的任务调优样本优化评估后的内容安全识别模型生成的,提升了安全识别结果的准确性。
[0475] 上述为本实施例的一种内容安全识别方法的示意性方案。需要说明的是,该内容安全识别方法的技术方案与上述的样本生成方法的技术方案属于同一构思,内容安全识别方法的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0476] 参见图14,图14示出了根据本说明书一个实施例提供的一种媒体内容分类方法的流程图,具体包括以下步骤。
[0477] 步骤1402:接收待分类媒体内容;
[0478] 步骤1404:将所述待分类媒体内容输入媒体内容分类模型,获得所述媒体内容分类模型输出的所述待分类媒体内容对应的媒体内容类型,其中,所述媒体内容分类模型为利用媒体内容分类任务的任务调优样本优化评估后的媒体内容分类模型生成的。
[0479] 具体的,待分类媒体内容,可以是文本、图像、视频等,在此不做限制。媒体内容分类模型,是指对待分类媒体内容进行分类处理的任务。相应的,媒体内容类型,是指媒体内容的类型,该媒体内容类型可以是图像的图像类型,比如:人物图像、风景图像等,媒体内容类型也可以是视频的视频类型,比如:喜剧视频、体育视频等。媒体内容分类任务,是指对媒体内容进行分类处理的任务。
[0480] 可选地,所述媒体内容分类任务的任务样本的生成,包括:
[0481] 获取媒体内容分类任务关联的词单元序列;将所述词单元序列输入文本生成模型,获得目标文本;基于所述媒体内容分类关联的知识图谱,判断所述目标文本是否满足所述媒体内容分类任务的筛选条件;在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得所述媒体内容分类对应的目标媒体内容,基于所述目标媒体内容获得媒体内容分类任务的任务样本。
[0482] 可选地,所述基于所述目标媒体内容获得媒体内容分类任务的任务样本之后,还包括:将所述任务样本作为训练样本,根据所述筛选条件确定所述训练样本对应的训练样本标签;利用所述训练样本以及所述训练样本标签,对所述媒体内容分类任务的初始媒体内容分类模型进行模型训练,获得满足预设训练停止条件的媒体内容分类模型。
[0483] 可选地,所述基于所述目标媒体内容获得所述媒体内容分类任务的任务样本之后,还包括:
[0484] 将所述任务样本作为评估样本,根据所述筛选条件确定所述评估样本对应的评估样本标签;将所述评估样本输入所述媒体内容分类任务的待评估的媒体内容分类模型,根据模型输出结果选择与所述评估样本标签不一致的评估样本作为目标评估样本;基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的媒体内容分类模型,获得目标媒体内容分类模型。
[0485] 可选地,所述基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的媒体内容分类模型,获得目标媒体内容分类模型,包括:
[0486] 创建所述目标评估样本对应的调优任务;将所述调优任务作为媒体内容分类,返回执行所述获取媒体内容分类关联的词单元序列步骤,并将所述媒体内容分类任务的任务样本作为任务调优样本;利用所述任务调优样本,对评估后的任务模型进行模型调优,获得满足预设优化条件的目标媒体内容分类模型。
[0487] 可选地,所述获取媒体内容分类关联的词单元序列,包括:
[0488] 接收任务需求方针对媒体内容分类提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0489] 可选地,所述获取媒体内容分类关联的词单元序列,包括:
[0490] 获取媒体内容分类关联的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0491] 本说明书实施例提供的媒体内容分类方法,通过接收待分类媒体内容,并将所述待分类媒体内容输入媒体内容分类模型,获得所述媒体内容分类模型输出的所述待分类媒体内容对应的媒体内容类型,其中,所述媒体内容分类模型为利用媒体内容分类任务的任务调优样本优化评估后的媒体内容分类模型生成的,提升了媒体内容分类的准确性。
[0492] 上述为本实施例的一种媒体内容分类方法的示意性方案。需要说明的是,该媒体内容分类方法的技术方案与上述的样本生成方法的技术方案属于同一构思,媒体内容分类方法的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0493] 与上述方法实施例相对应,本说明书还提供了样本生成装置实施例,图15示出了本说明书一个实施例提供的一种样本生成装置的结构示意图。如图15所示,该装置包括:
[0494] 第一获取模块1502,被配置为获取目标任务关联的词单元序列;
[0495] 第一文本生成模块1504,被配置为将所述词单元序列输入文本生成模型,获得目标文本;
[0496] 第一判断模块1506,被配置为基于所述目标任务关联的知识图谱判断所述目标文本是否满足所述目标任务的筛选条件;
[0497] 第一生成样本模块1508,被配置为在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,并基于所述目标媒体内容获得所述目标任务的任务样本。
[0498] 可选地,所述样本生成装置,还包括:
[0499] 第一确定训练标签模块,被配置为将所述任务样本作为训练样本,根据所述筛选条件确定所述训练样本对应的训练样本标签;
[0500] 第一训练模块,被配置为利用所述训练样本以及所述训练样本标签,对所述目标任务的初始任务模型进行模型训练,获得满足预设训练停止条件的任务模型。
[0501] 可选地,所述样本生成装置,还包括:
[0502] 第一确定评估标签模块,被配置为将所述任务样本作为评估样本,根据所述筛选条件确定所述评估样本对应的评估样本标签;
[0503] 第一评估模块,被配置为将所述评估样本输入所述目标任务的待评估的任务模型,根据模型输出结果选择与所述评估样本标签不一致的评估样本作为目标评估样本;
[0504] 第一调优模块,被配置为基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的任务模型,获得目标任务模型。
[0505] 可选地,所述第一调优模块,进一步被配置为:
[0506] 创建所述目标评估样本对应的调优任务;将所述调优任务作为目标任务,返回执行所述获取目标任务关联的词单元序列步骤,并将所述目标任务的任务样本作为任务调优样本;利用所述任务调优样本,对评估后的任务模型进行模型调优,获得满足预设优化条件的目标任务模型。
[0507] 可选地,所述第一生成样本模块1508,进一步被配置为:
[0508] 在所述目标文本满足所述筛选条件的情况下,在包含文本编码器以及图像生成器的媒体内容生成模型中,确定所述图像生成器中的预设目标参数;按照预设生成规则生成所述预设目标参数对应的参数值,并根据所述参数值对所述图像生成器中的所述预设目标参数进行赋值,获得赋值后的图像生成器;将所述目标文本输入所述媒体内容生成模型,通过所述媒体内容生成模型中所述文本编码器对所述目标文本进行编码处理,获得文本编码向量;通过所述媒体内容生成模型中赋值后的图像生成器对所述文本编码向量进行图像生成处理,获得目标图像,并根据所述目标图像确定目标媒体内容。
[0509] 可选地,在所述媒体内容生成模型中包括视频生成器的情况下,所述第一生成样本模块1508,进一步被配置为:根据所述参数值对所述视频生成器中的所述预设目标参数进行赋值,获得赋值后的视频生成器;
[0510] 所述根据所述目标图像确定目标媒体内容,包括:
[0511] 通过所述媒体内容生成模型中赋值后的视频生成器对所述目标图像进行视频生成处理,获得目标视频;根据所述目标视频确定目标媒体内容,或,根据所述目标图像以及所述目标视频确定目标媒体内容。
[0512] 可选地,所述媒体内容生成模型的训练,包括:
[0513] 基于预设检测规则对初始媒体内容生成模型的生成结果进行检测,根据检测结果确定目标优化类型;获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签,并将所述文本样本输入初始媒体内容生成模型;通过所述初始媒体内容生成模型中初始文本编码器对所述文本样本进行编码处理,获得样本文本编码向量,并通过所述初始媒体内容生成模型中媒体内容生成器对所述样本文本编码向量进行媒体生成处理,获得预测媒体;根据所述媒体内容标签和所述预测媒体计算所述初始文本编码器的编码损失值;根据所述编码损失值调整所述初始文本编码器的编码器参数,并返回执行所述获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签步骤,直至获得满足预设编码器训练停止条件的文本编码器,并根据所述文本编码器更新所述初始媒体内容生成模型中的所述初始文本编码器,获得媒体内容生成模型。
[0514] 可选地,所述第一获取模块1502,进一步被配置为:
[0515] 接收任务需求方针对目标任务提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0516] 可选地,所述第一获取模块1502,进一步被配置为:
[0517] 获取目标任务关联的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0518] 可选地,所述第一生成样本模块1508,进一步被配置为:
[0519] 将所述目标视频输入帧间插值模型进行图像插帧处理,获得插帧视频;将所述插帧视频以及所述目标文本输入语音字幕生成模型进行语音字幕生成处理,获得优化视频;
[0520] 将所述目标图像以及所述优化视频作为目标媒体内容。
[0521] 可选地,所述第一生成样本模块1508,进一步被配置为:
[0522] 在所述目标文本中确定目标语句集合;将所述目标语句集合中的目标语句输入媒体内容生成模型,获得目标语句对应的目标媒体内容。
[0523] 可选地,所述样本生成装置,还包括:
[0524] 接收用户针对用户媒体提交的告警信息;基于所述告警信息确定所述任务模型对所述用户媒体处理错误的情况下,根据所述告警信息,创建告警目标任务。
[0525] 可选地,所述第一获取模块1502,进一步被配置为:
[0526] 确定目标任务中包含的目标子任务,以及所述目标子任务对应的子任务等级;按照所述子任务等级依次获取所述目标子任务关联的词单元子序列;将所述词单元子序列组成所述目标任务关联的词单元序列;
[0527] 所述第一生成样本模块1508,进一步被配置为:确定所述目标子任务对应的目标子文本;将所述目标子文本按照所述子任务等级依次输入至媒体内容生成模型,获得所述目标子任务对应的目标子媒体内容,基于所述目标子媒体内容组成目标媒体内容。
[0528] 可选地,所述第一训练模块,进一步被配置为:
[0529] 按照所述子任务等级对所述目标任务中包含的所述目标子任务进行排序,并按序在排序结果中选择目标子任务;在所述训练样本中确定所述目标子任务对应的目标训练子样本,以及在所述训练样本标签中确定所述目标子任务对应的目标训练子样本标签;利用所述目标训练子样本以及所述目标训练子样本标签,对所述目标任务的初始任务模型进行模型训练;在训练完成的情况下,返回执行按序在所排序结果中选择目标子任务的步骤。
[0530] 本说明书一个实施例,为了在内容安全场景下,获得大量的训练/评估样本,本说明书实施例中,通过获取目标任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于目标任务关联的知识图谱判断目标文本是否满足目标任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,并基于目标媒体内容获得目标任务的任务样本,实现了自动化生成内容安全场景下的大量任务样本,以便基于生成的任务样本对目标任务进行训练或评估。
[0531] 上述为本实施例的第一种样本生成装置的示意性方案。需要说明的是,该第一种样本生成装置的技术方案与上述的第一种样本生成方法的技术方案属于同一构思,第一种样本生成装置的技术方案未详细描述的细节内容,均可以参见上述第一种样本生成方法的技术方案的描述。
[0532] 与上述方法实施例相对应,本说明书还提供了第二种样本生成装置实施例,图16示出了本说明书一个实施例提供的第二种样本生成装置的结构示意图,应用于云侧设备。如图16所示,该装置包括:
[0533] 第二获取模块1602,被配置为获取内容安全识别任务关联的词单元序列;
[0534] 第二文本生成模块1604,被配置为将所述词单元序列输入文本生成模型,获得目标文本;
[0535] 第二判断模块1606,被配置为基于所述内容安全识别任务关联的知识图谱判断所述目标文本是否满足所述内容安全识别任务的筛选条件;
[0536] 第二生成样本模块1608,被配置为在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,并基于所述目标媒体内容获得所述内容安全识别任务的任务样本。
[0537] 可选地,所述样本生成装置,还包括:
[0538] 第二确定训练标签模块,被配置为将所述任务样本作为训练样本,根据所述筛选条件确定所述训练样本对应的训练样本标签;
[0539] 第二训练模块,被配置为利用所述训练样本以及所述训练样本标签,对所述内容安全识别任务的初始内容安全识别模型进行模型训练,获得满足预设训练停止条件的内容安全识别模型。
[0540] 可选地,所述样本生成装置,还包括:
[0541] 第二确定评估标签模块,被配置为将所述任务样本作为评估样本,根据所述筛选条件确定所述评估样本对应的评估样本标签;
[0542] 第二评估模块,被配置为将所述评估样本输入所述内容安全识别任务的待评估的内容安全识别模型,根据模型输出结果选择与所述评估样本标签不一致的评估样本作为目标评估样本;
[0543] 第二调优模块,被配置为基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的内容安全识别模型,获得目标内容安全识别模型。
[0544] 可选地,所述第二调优模块,进一步被配置为:
[0545] 创建所述目标评估样本对应的内容安全识别调优任务;将所述内容安全识别调优任务作为内容安全识别任务,返回执行所述获取内容安全识别任务关联的词单元序列步骤,并将所述内容安全识别任务的任务样本作为任务调优样本;利用所述任务调优样本,对评估后的内容安全识别模型进行模型调优,获得满足预设优化条件的目标内容安全识别模型。
[0546] 可选地,所述第二生成样本模块1608,进一步被配置为:
[0547] 在所述目标文本满足所述筛选条件的情况下,在包含文本编码器以及图像生成器的媒体内容生成模型中,确定所述图像生成器中的预设目标参数;按照预设生成规则生成所述预设目标参数对应的参数值,并根据所述参数值对所述图像生成器中的所述预设目标参数进行赋值,获得赋值后的图像生成器;将所述目标文本输入所述媒体内容生成模型,通过所述媒体内容生成模型中所述文本编码器对所述目标文本进行编码处理,获得文本编码向量;通过所述媒体内容生成模型中赋值后的图像生成器对所述文本编码向量进行图像生成处理,获得目标图像,并根据所述目标图像确定目标媒体内容。
[0548] 可选地,在所述媒体内容生成模型中包括视频生成器的情况下,所述第二生成样本模块1608,进一步被配置为:根据所述参数值对所述视频生成器中的所述预设目标参数进行赋值,获得赋值后的视频生成器;
[0549] 所述根据所述目标图像确定目标媒体内容,包括:通过所述媒体内容生成模型中赋值后的视频生成器对所述目标图像进行视频生成处理,获得目标视频;根据所述目标视频确定目标媒体内容,或,根据所述目标图像以及所述目标视频确定目标媒体内容。
[0550] 可选地,所述媒体内容生成模型的训练,包括:
[0551] 基于预设检测规则对初始媒体内容生成模型的生成结果进行检测,根据检测结果确定目标安全类型;获取所述目标安全类型的文本样本以及所述文本样本对应的媒体内容标签,并将所述文本样本输入初始媒体内容生成模型;通过所述初始媒体内容生成模型中初始文本编码器对所述文本样本进行编码处理,获得样本文本编码向量,并通过所述初始媒体内容生成模型中媒体内容生成器对所述样本文本编码向量进行媒体生成处理,获得预测媒体;根据所述媒体内容标签和所述预测媒体计算所述初始文本编码器的编码损失值;根据所述编码损失值调整所述初始文本编码器的编码器参数,并返回执行所述获取所述目标安全类型的文本样本以及所述文本样本对应的媒体内容标签步骤,直至获得满足预设编码器训练停止条件的文本编码器,并根据所述文本编码器更新所述初始媒体内容生成模型中的所述初始文本编码器,获得媒体内容生成模型。
[0552] 可选地,所述第二获取模块1602,进一步被配置为:
[0553] 接收安全需求方针对内容安全识别任务提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0554] 可选地,所述第二获取模块1602,进一步被配置为:
[0555] 获取内容安全识别任务关联的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0556] 可选地,所述第二生成样本模块1608,进一步被配置为:
[0557] 将所述目标视频输入帧间插值模型进行图像插帧处理,获得插帧视频;将所述插帧视频以及所述目标文本输入语音字幕生成模型进行语音字幕生成处理,获得优化视频;将所述目标图像以及所述优化视频作为目标媒体内容。
[0558] 可选地,所述第二生成样本模块1608,进一步被配置为:
[0559] 在所述目标文本中确定目标语句集合;将所述目标语句集合中的目标语句输入媒体内容生成模型,获得目标语句对应的目标媒体内容。
[0560] 可选地,所述样本生成装置,还包括:接收用户针对用户媒体提交的内容告警信息;基于所述内容告警信息确定所述内容安全识别模型对所述用户媒体识别错误的情况下,根据所述内容告警信息,创建告警内容安全识别任务。
[0561] 可选地,所述第二获取模块1602,进一步被配置为:
[0562] 确定内容安全识别任务中包含的内容安全识别子任务,以及所述内容安全识别子任务对应的内容安全等级;按照所述内容安全等级依次获取所述内容安全识别子任务关联的词单元子序列;将所述词单元子序列组成所述内容安全识别任务关联的词单元序列;
[0563] 所述第二生成样本模块1608,进一步被配置为:
[0564] 确定所述内容安全识别子任务对应的目标子文本;将所述目标子文本按照所述内容安全等级依次输入至媒体内容生成模型,获得所述内容安全识别子任务对应的目标子媒体内容,基于所述目标子媒体内容组成目标媒体内容。
[0565] 可选地,所述第二训练模块,进一步被配置为:
[0566] 按照所述内容安全等级对所述内容安全识别任务中包含的所述内容安全识别子任务进行排序,并按序在排序结果中选择目标内容安全识别子任务;在所述训练样本中确定所述目标内容安全识别子任务对应的目标训练子样本,以及在所述训练样本标签中确定所述目标内容安全识别子任务对应的目标训练子样本标签;利用所述目标训练子样本以及所述目标训练子样本标签,对所述内容安全识别任务的初始内容安全识别模型进行模型训练;在训练完成的情况下,返回执行按序在所排序结果中选择目标内容安全识别子任务的步骤。
[0567] 本说明书一个实施例,为了在内容安全场景下,获得大量的训练/评估样本,本说明书实施例中,通过获取内容安全识别任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于内容安全识别任务关联的知识图谱判断目标文本是否满足内容安全识别任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,并基于目标媒体内容获得内容安全识别任务的任务样本,实现了自动化生成内容安全场景下的大量任务样本,以便基于生成的任务样本对内容安全识别任务进行训练或评估。
[0568] 上述为本实施例的第二种样本生成装置的示意性方案。需要说明的是,该第二种样本生成装置的技术方案与上述的第二种样本生成方法的技术方案属于同一构思,第二种样本生成装置的技术方案未详细描述的细节内容,均可以参见上述第二种样本生成方法的技术方案的描述。
[0569] 与上述方法实施例相对应,本说明书还提供了第三种样本生成装置实施例,图17示出了本说明书一个实施例提供的第三种样本生成装置的结构示意图,应用于云侧设备。如图17所示,该装置包括:
[0570] 第三获取模块1702,被配置为获取端侧设备针对目标任务提交的词单元序列;
[0571] 第三文本生成模块1704,被配置为将所述词单元序列输入文本生成模型,获得目标文本;
[0572] 第三判断模块1706,被配置为基于所述目标任务关联的知识图谱判断所述目标文本是否满足所述目标任务的筛选条件;
[0573] 第三生成样本模块1708,被配置为在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,并基于所述目标媒体内容获得所述目标任务的任务样本;
[0574] 发生模块1710,被配置为将所述任务样本发送至所述端侧设备。
[0575] 可选地,所述样本生成装置,还包括:
[0576] 第三确定训练标签模块,被配置为接收所述端侧设备提交的模型训练指令,响应于所述训练指令将将所述任务样本作为训练样本,根据所述筛选条件确定所述训练样本对应的训练样本标签;
[0577] 第三训练模块,被配置为利用所述训练样本以及所述训练样本标签,对所述目标任务的初始任务模型进行模型训练,获得满足预设训练停止条件的任务模型;
[0578] 将所述任务模型的模型参数发送至所述端侧设备。
[0579] 可选地,所述样本生成装置,还包括:
[0580] 第三确定评估标签模块,被配置为接收所述端侧设备提交的模型优化指令,响应于所述评估指令将所述任务样本作为评估样本,根据所述筛选条件确定所述评估样本对应的评估样本标签;
[0581] 第三评估模块,被配置为将所述评估样本输入所述目标任务的待评估的任务模型,根据模型输出结果选择与所述评估样本标签不一致的评估样本作为目标评估样本;
[0582] 第三调优模块,被配置为基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的任务模型,获得目标任务模型;
[0583] 发送参数模块,被配置为将所述目标任务模型的模型参数发送至所述端侧设备。
[0584] 可选地,所述第三调优模块,进一步被配置为:
[0585] 创建所述目标评估样本对应的调优任务;将所述调优任务作为目标任务,返回执行所述获取目标任务关联的词单元序列步骤,并将所述目标任务的任务样本作为任务调优样本;利用所述任务调优样本,对评估后的任务模型进行模型调优,获得满足预设优化条件的目标任务模型。
[0586] 可选地,所述第三生成样本模块1708,进一步被配置为:
[0587] 在所述目标文本满足所述筛选条件的情况下,在包含文本编码器以及图像生成器的媒体内容生成模型中,确定所述图像生成器中的预设目标参数;按照预设生成规则生成所述预设目标参数对应的参数值,并根据所述参数值对所述图像生成器中的所述预设目标参数进行赋值,获得赋值后的图像生成器;将所述目标文本输入所述媒体内容生成模型,通过所述媒体内容生成模型中所述文本编码器对所述目标文本进行编码处理,获得文本编码向量;通过所述媒体内容生成模型中赋值后的图像生成器对所述文本编码向量进行图像生成处理,获得目标图像,并根据所述目标图像确定目标媒体内容。
[0588] 可选地,在所述媒体内容生成模型中包括视频生成器的情况下,所述第三生成样本模块1708,进一步被配置为:根据所述参数值对所述视频生成器中的所述预设目标参数进行赋值,获得赋值后的视频生成器;
[0589] 所述根据所述目标图像确定目标媒体内容,包括:通过所述媒体内容生成模型中赋值后的视频生成器对所述目标图像进行视频生成处理,获得目标视频;根据所述目标视频确定目标媒体内容,或,根据所述目标图像以及所述目标视频确定目标媒体内容。
[0590] 可选地,所述媒体内容生成模型的训练,包括:
[0591] 基于预设检测规则对初始媒体内容生成模型的生成结果进行检测,根据检测结果确定目标优化类型;获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签,并将所述文本样本输入初始媒体内容生成模型;通过所述初始媒体内容生成模型中初始文本编码器对所述文本样本进行编码处理,获得样本文本编码向量,并通过所述初始媒体内容生成模型中媒体内容生成器对所述样本文本编码向量进行媒体生成处理,获得预测媒体;根据所述媒体内容标签和所述预测媒体计算所述初始文本编码器的编码损失值;根据所述编码损失值调整所述初始文本编码器的编码器参数,并返回执行所述获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签步骤,直至获得满足预设编码器训练停止条件的文本编码器,并根据所述文本编码器更新所述初始媒体内容生成模型中的所述初始文本编码器,获得媒体内容生成模型。
[0592] 可选地,所述第三获取模块1702,进一步被配置为:
[0593] 接收任务需求方通过端侧设备针对目标任务提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0594] 可选地,所述第三获取模块1702,进一步被配置为:
[0595] 获取端侧设备针对目标任务提交的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0596] 可选地,所述第三生成样本模块1708,进一步被配置为:
[0597] 将所述目标视频输入帧间插值模型进行图像插帧处理,获得插帧视频;将所述插帧视频以及所述目标文本输入语音字幕生成模型进行语音字幕生成处理,获得优化视频;将所述目标图像以及所述优化视频作为目标媒体内容。
[0598] 可选地,所述第三生成样本模块1708,进一步被配置为:
[0599] 在所述目标文本中确定目标语句集合;将所述目标语句集合中的目标语句输入媒体内容生成模型,获得目标语句对应的目标媒体内容。
[0600] 可选地,所述样本生成装置,还包括:
[0601] 接收用户针对用户媒体提交的告警信息;基于所述告警信息确定所述任务模型对所述用户媒体处理错误的情况下,根据所述告警信息,创建告警目标任务。
[0602] 可选地,所述第三获取模块1702,进一步被配置为:
[0603] 确定目标任务中包含的目标子任务,以及所述目标子任务对应的子任务等级;按照所述子任务等级依次获取端侧设备针对所述目标子任务提交的词单元子序列;将所述词单元子序列组成所述目标任务关联的词单元序列;
[0604] 所述第三生成样本模块1708,进一步被配置为:确定所述目标子任务对应的目标子文本;将所述目标子文本按照所述子任务等级依次输入至媒体内容生成模型,获得所述目标子任务对应的目标子媒体内容,基于所述目标子媒体内容组成目标媒体内容。
[0605] 可选地,所述第三训练模块,进一步被配置为:
[0606] 按照所述子任务等级对所述目标任务中包含的所述目标子任务进行排序,并按序在排序结果中选择目标子任务;在所述训练样本中确定所述目标子任务对应的目标训练子样本,以及在所述训练样本标签中确定所述目标子任务对应的目标训练子样本标签;利用所述目标训练子样本以及所述目标训练子样本标签,对所述目标任务的初始任务模型进行模型训练;在训练完成的情况下,返回执行按序在所排序结果中选择目标子任务的步骤。
[0607] 本说明书一个实施例,应用于云侧设备,为了在内容安全场景下,获得大量的训练/评估样本,本说明书实施例中,通过获取目标任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于目标任务关联的知识图谱判断目标文本是否满足目标任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,并基于目标媒体内容获得目标任务的任务样本,实现了为端侧设备自动化生成内容安全场景下的大量任务样本,以便基于生成的任务样本对任务模型进行训练或评估,从而增加了提升任务模型的识别能力的效率。
[0608] 上述为本实施例的第三种样本生成装置的示意性方案。需要说明的是,该第三种样本生成装置的技术方案与上述的第三种样本生成方法的技术方案属于同一构思,第三种样本生成装置的技术方案未详细描述的细节内容,均可以参见上述第三种样本生成方法的技术方案的描述。
[0609] 与上述方法实施例相对应,本说明书还提供了模型评估装置实施例,图18示出了本说明书一个实施例提供的一种模型评估装置的结构示意图。如图18所示,该装置包括:
[0610] 第四获取模块1802,被配置为获取目标任务关联的词单元序列,并将所述词单元序列输入文本生成模型,获得目标文本;
[0611] 第四判断模块1804,被配置为基于所述目标任务关联的知识图谱判断所述目标文本是否满足所述目标任务的筛选条件;
[0612] 第四生成样本模块1806,被配置为在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得目标媒体内容,并基于所述目标媒体内容获得目标任务的评估样本;
[0613] 评估模块1808,被配置为根据所述筛选条件确定所述评估样本对应的评估样本标签,并利用所述评估样本以及所述评估样本标签,对所述目标任务的待评估的任务模型进行模型评估。
[0614] 可选地,所述模型评估装置,还包括:
[0615] 选择模块,被配置为根据模型输出结果选择与所述评估样本标签不一致的评估样本作为目标评估样本;
[0616] 第四调优模块,被配置为基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的任务模型,获得目标任务模型。
[0617] 可选地,所述第四调优模块,进一步被配置为:
[0618] 创建所述目标评估样本对应的调优任务;将所述调优任务作为目标任务,返回执行所述获取目标任务关联的词单元序列步骤,并将所述目标任务的任务样本作为任务调优样本;利用所述任务调优样本,对评估后的任务模型进行模型调优,获得满足预设优化条件的目标任务模型。
[0619] 可选地,所述第四生成样本模块1806,进一步被配置为:
[0620] 在所述目标文本满足所述筛选条件的情况下,在包含文本编码器以及图像生成器的媒体内容生成模型中,确定所述图像生成器中的预设目标参数;按照预设生成规则生成所述预设目标参数对应的参数值,并根据所述参数值对所述图像生成器中的所述预设目标参数进行赋值,获得赋值后的图像生成器;将所述目标文本输入所述媒体内容生成模型,通过所述媒体内容生成模型中所述文本编码器对所述目标文本进行编码处理,获得文本编码向量;通过所述媒体内容生成模型中赋值后的图像生成器对所述文本编码向量进行图像生成处理,获得目标图像,并根据所述目标图像确定目标媒体内容。
[0621] 可选地,在所述媒体内容生成模型中包括视频生成器的情况下,所述第四生成样本模块1806,进一步被配置为:根据所述参数值对所述视频生成器中的所述预设目标参数进行赋值,获得赋值后的视频生成器;
[0622] 所述根据所述目标图像确定目标媒体内容,包括:通过所述媒体内容生成模型中赋值后的视频生成器对所述目标图像进行视频生成处理,获得目标视频;根据所述目标视频确定目标媒体内容,或,根据所述目标图像以及所述目标视频确定目标媒体内容。
[0623] 可选地,所述媒体内容生成模型的训练,包括:
[0624] 基于预设检测规则对初始媒体内容生成模型的生成结果进行检测,根据检测结果确定目标优化类型;获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签,并将所述文本样本输入初始媒体内容生成模型;通过所述初始媒体内容生成模型中初始文本编码器对所述文本样本进行编码处理,获得样本文本编码向量,并通过所述初始媒体内容生成模型中媒体内容生成器对所述样本文本编码向量进行媒体生成处理,获得预测媒体;根据所述媒体内容标签和所述预测媒体计算所述初始文本编码器的编码损失值;根据所述编码损失值调整所述初始文本编码器的编码器参数,并返回执行所述获取所述目标优化类型的文本样本以及所述文本样本对应的媒体内容标签步骤,直至获得满足预设编码器训练停止条件的文本编码器,并根据所述文本编码器更新所述初始媒体内容生成模型中的所述初始文本编码器,获得媒体内容生成模型。
[0625] 可选地,所述第四获取模块1802,进一步被配置为:
[0626] 接收任务需求方针对目标任务提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0627] 可选地,所述第四获取模块1802,进一步被配置为:
[0628] 获取目标任务关联的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0629] 可选地,所述第四生成样本模块1806,进一步被配置为:
[0630] 将所述目标视频输入帧间插值模型进行图像插帧处理,获得插帧视频;将所述插帧视频以及所述目标文本输入语音字幕生成模型进行语音字幕生成处理,获得优化视频;
[0631] 将所述目标图像以及所述优化视频作为目标媒体内容。
[0632] 可选地,所述第四生成样本模块1806,进一步被配置为:
[0633] 在所述目标文本中确定目标语句集合;将所述目标语句集合中的目标语句输入媒体内容生成模型,获得目标语句对应的目标媒体内容。
[0634] 可选地,所述模型评估装置,还包括:
[0635] 接收用户针对用户媒体提交的告警信息;基于所述告警信息确定所述任务模型对所述用户媒体处理错误的情况下,根据所述告警信息,创建告警目标任务。
[0636] 可选地,所述第四获取模块1802,进一步被配置为:
[0637] 确定目标任务中包含的目标子任务,以及所述目标子任务对应的子任务等级;按照所述子任务等级依次获取所述目标子任务关联的词单元子序列;将所述词单元子序列组成所述目标任务关联的词单元序列;
[0638] 所述第四生成样本模块1806,进一步被配置为:确定所述目标子任务对应的目标子文本;将所述目标子文本按照所述子任务等级依次输入至媒体内容生成模型,获得所述目标子任务对应的目标子媒体内容,基于所述目标子媒体内容组成目标媒体内容。
[0639] 本说明书一个实施例,为了在内容安全场景下,获得大量的评估样本,本说明书实施例中,通过获取目标任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于目标任务关联的知识图谱判断目标文本是否满足目标任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,并基于目标媒体内容获得目标任务的任务样本,实现了自动化生成内容安全场景下的大量任务样本,以便基于生成的任务样本对任务模型进行评估,从而提升了任务模型的评估效率。
[0640] 上述为本实施例的一种模型评估装置的示意性方案。需要说明的是,该模型评估装置的技术方案与上述的模型评估方法的技术方案属于同一构思,模型评估装置的技术方案未详细描述的细节内容,均可以参见上述模型评估方法的技术方案的描述。
[0641] 与上述方法实施例相对应,本说明书还提供了第一种内容生成装置实施例,图19示出了本说明书一个实施例提供的第一种内容生成装置的结构示意图。如图19所示,该装置包括:
[0642] 第五获取模块1902,被配置为获取内容安全识别任务关联的词单元序列;
[0643] 第五文本生成模块1904,被配置为将所述词单元序列输入文本生成模型,获得所述内容安全识别任务对应的目标文本。
[0644] 可选地,所述内容生成装置,还包括:
[0645] 第五判断模块,被配置为基于所述内容安全识别任务关联的知识图谱,判断所述目标文本是否满足所述内容安全识别任务的筛选条件;
[0646] 第五生成样本模块,被配置为在所述目标文本满足所述筛选条件的情况下,基于所述目标文本获得所述内容安全识别任务的任务样本。
[0647] 可选地,所述第五获取模块1902,进一步被配置为:接收任务需求方针对内容安全识别任务提交的词单元表;确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0648] 可选地,所述第五获取模块1902,进一步被配置为:获取内容安全识别任务关联的初始词单元序列;基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0649] 本说明书实施例提供的第一种内容安全生成装置,通过获取内容安全识别任务关联的词单元序列,并将词单元序列输入文本生成模型,获得内容安全识别任务对应的目标文本,实现了获得内容安全识别场景下的待识别的文本内容的生成,提高了文本内容的生成效率。
[0650] 上述为本实施例的第一种内容生成装置的示意性方案。需要说明的是,该第一种内容生成装置的技术方案与上述的样本生成方法的技术方案属于同一构思,第一种内容生成装置的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0651] 与上述方法实施例相对应,本说明书还提供了第二种内容生成装置实施例,图20示出了本说明书一个实施例提供的第二种内容生成装置的结构示意图。如图20所示,该装置包括:
[0652] 第六获取模块2002,被配置为获取内容安全识别任务关联的目标文本;
[0653] 第六判断模块2004,被配置为基于所述内容安全识别任务关联的知识图谱,判断所述目标文本是否满足所述内容安全识别任务的筛选条件;
[0654] 图像生成模块2006,被配置为在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入图像生成模型,获得所述内容安全识别任务对应的目标图像。
[0655] 可选地,所述内容生成装置,还包括:
[0656] 第六样本生成模块,被配置为基于所述目标图像获得所述内容安全识别任务的任务样本。
[0657] 可选地,所述图像生成模块2006,进一步被配置为:在所述目标文本满足所述筛选条件的情况下,在包含文本编码器以及图像生成器的图像生成模型中,确定所述图像生成器中的预设目标参数;按照预设生成规则生成所述预设目标参数对应的参数值,并根据所述参数值对所述图像生成器中的所述预设目标参数进行赋值,获得赋值后的图像生成器;将所述目标文本输入所述图像生成模型,通过所述图像生成模型中所述文本编码器对所述目标文本进行编码处理,获得文本编码向量;通过所述图像生成模型中赋值后的图像生成器对所述文本编码向量进行图像生成处理,获得目标图像。
[0658] 可选地,所述图像生成模型的训练,包括:基于预设检测规则对初始图像生成模型的生成结果进行检测,根据检测结果确定目标优化类型;获取所述目标优化类型的文本样本以及所述文本样本对应的图像标签,并将所述文本样本输入初始图像生成模型;通过所述初始图像生成模型中初始文本编码器对所述文本样本进行编码处理,获得样本文本编码向量,并通过所述初始图像生成模型中图像生成器对所述样本文本编码向量进行图像生成处理,获得预测图像;根据所述图像标签和所述预测图像计算所述初始文本编码器的编码损失值;根据所述编码损失值调整所述初始文本编码器的编码器参数,并返回执行所述获取所述目标优化类型的文本样本以及所述文本样本对应的图像标签步骤,直至获得满足预设编码器训练停止条件的文本编码器,并根据所述文本编码器更新所述初始图像生成模型中的所述初始文本编码器,获得图像生成模型。
[0659] 可选地,所述内容生成装置,还包括:
[0660] 接收用户针对用户图像提交的告警信息;基于所述告警信息确定所述内容安全识别模型对所述用户图像处理错误的情况下,根据所述告警信息,创建告警内容安全识别任务。
[0661] 本说明书实施例提供的第二种内容安全生成方法,通过获取内容安全识别任务关联的目标文本,基于所述内容安全识别任务关联的知识图谱,判断所述目标文本是否满足所述内容安全识别任务的筛选条件,实现了基于知识图谱对目标文本的筛选,并在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入图像生成模型,获得所述内容安全识别任务对应的目标图像,实现了获得内容安全识别场景下的待识别的图像内容的生成,提高了文本内容的生成效率。
[0662] 上述为本实施例的第二种内容生成装置的示意性方案。需要说明的是,该第二种内容生成装置的技术方案与上述的样本生成方法的技术方案属于同一构思,第二内容生成装置的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0663] 与上述方法实施例相对应,本说明书还提供了第三种内容生成装置实施例,图21示出了本说明书一个实施例提供的第三种内容生成装置的结构示意图。如图21所示,该装置包括:
[0664] 第七获取模块2102,被配置为接收内容安全识别任务关联的目标图像;
[0665] 视频生成模块2104,被配置为将所述目标图像输入视频生成模型,获得所述内容安全识别任务对应的目标视频。
[0666] 可选地,所述内容生成装置,还包括:
[0667] 第七样本生成装置,被配置为基于所述目标视频获得所述内容安全识别任务的任务样本。
[0668] 可选地,所述内容生成装置,还包括:
[0669] 接收用户针对用户视频提交的告警信息;基于所述告警信息确定所述内容安全识别模型对所述用户视频处理错误的情况下,根据所述告警信息,创建告警内容安全识别任务。
[0670] 本说明书实施例提供的第三种内容安全生成方法,通过获取内容安全识别任务关联的目标图像,将所述目标图像输入视频生成模型,获得所述内容安全识别任务对应的目标视频,实现了获得内容安全识别场景下的待识别的视频内容的生成,提高了视频内容的生成效率。
[0671] 上述为本实施例的第三种内容生成装置的示意性方案。需要说明的是,该第三种内容生成装置的技术方案与上述的样本生成方法的技术方案属于同一构思,第三内容生成装置的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0672] 与上述方法实施例相对应,本说明书还提供了第四种内容生成装置实施例,图22示出了本说明书一个实施例提供的第四种内容生成装置的结构示意图。如图22所示,该装置包括:
[0673] 第八获取模块2202,被配置为接收内容安全识别任务关联的词单元序列;
[0674] 第六文本生成模块2204,被配置为将所述词单元序列输入文本生成模型,获得目标文本;
[0675] 第七判断模块2206,被配置为基于所述目标任务关联的知识图谱,判断所述目标文本是否满足所述内容安全识别任务的筛选条件;
[0676] 媒体内容生成模块2208,被配置为在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得所述内容安全识别任务的目标媒体内容。
[0677] 可选地,所述内容生成装置,还包括:
[0678] 第八样本生成模块,被配置为基于所述目标媒体内容获得所述内容安全识别任务的任务样本。
[0679] 本说明书实施例提供的第四种内容生成方法,通过获取内容安全识别任务关联的词单元序列,即获取用以对任务样本进行描述的关键词,将词单元序列输入文本生成模型,获得目标文本,实现了生成具有清楚语义关系的文本内容;再基于内容安全识别任务关联的知识图谱判断目标文本是否满足内容安全识别任务的筛选条件,实现了对目标文本是否符合针对任务样本的文本描述需求的判断;并在目标文本满足筛选条件的情况下,将目标文本输入媒体内容生成模型,获得目标媒体内容,实现了自动化生成内容安全识别场景下待识别的媒体内容,提高了内容生成效率。
[0680] 上述为本实施例的第四种内容生成装置的示意性方案。需要说明的是,该第四种内容生成装置的技术方案与上述的样本生成方法的技术方案属于同一构思,第四内容生成装置的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0681] 与上述方法实施例相对应,本说明书还提供了一种内容安全识别装置实施例,图23示出了本说明书一个实施例提供的一种内容安全识别装置的结构示意图。如图23所示,该装置包括:
[0682] 接收待识别媒体内容模块2302,被配置为接收待识别媒体内容;
[0683] 安全识别模块2304,被配置为将所述待识别媒体内容输入目标内容安全识别模型,获得所述目标内容安全识别模型输出的所述待识别媒体内容对应的安全识别结果,其中,所述目标内容安全识别模型为利用内容安全识别任务的任务调优样本优化评估后的内容安全识别模型生成的。
[0684] 可选地,所述内容安全识别任务的任务样本的生成,包括:获取内容安全识别任务关联的词单元序列;将所述词单元序列输入文本生成模型,获得目标文本;基于所述内容安全识别任务关联的知识图谱,判断所述目标文本是否满足所述内容安全识别任务的筛选条件;在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得所述内容安全识别任务对应的目标媒体内容,基于所述目标媒体内容获得内容安全识别模型任务的任务样本。
[0685] 本说明书实施例提供的内容安全识别装置,通过接收待识别媒体内容,并将所述待识别媒体内容输入目标内容安全识别模型,获得所述目标内容安全识别模型输出的所述待识别媒体内容对应的安全识别结果,其中,所述目标内容安全识别模型为利用内容安全识别任务的任务调优样本优化评估后的内容安全识别模型生成的,实现了通过优化后的目标内容安全识别模型进行内容安全识别,提升了安全识别结果的准确性。
[0686] 上述为本实施例的一种内容安全识别装置的示意性方案。需要说明的是,该内容安全识别装置的技术方案与上述的样本生成方法的技术方案属于同一构思,内容安全识别装置的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0687] 与上述方法实施例相对应,本说明书还提供了一种媒体内容分类装置实施例,图24示出了本说明书一个实施例提供的一种媒体内容分类装置的结构示意图。如图24所示,该装置包括:
[0688] 接收媒体内容模块2402,被配置为接收待分类媒体内容;
[0689] 媒体内容分类模块2404,被配置为将所述待分类媒体内容输入媒体内容分类模型,获得所述媒体内容分类模型输出的所述待分类媒体内容对应的媒体内容类型,其中,所述媒体内容分类模型为利用媒体内容分类任务的任务调优样本优化评估后的媒体内容分类模型生成的。
[0690] 可选地,所述媒体内容分类任务的任务样本的生成,包括:获取媒体内容分类任务关联的词单元序列;将所述词单元序列输入文本生成模型,获得目标文本;基于所述媒体内容分类关联的知识图谱,判断所述目标文本是否满足所述媒体内容分类任务的筛选条件;在所述目标文本满足所述筛选条件的情况下,将所述目标文本输入媒体内容生成模型,获得所述媒体内容分类对应的目标媒体内容,基于所述目标媒体内容获得媒体内容分类任务的任务样本。
[0691] 可选地,所述媒体内容分类装置,还包括:
[0692] 将所述任务样本作为训练样本,根据所述筛选条件确定所述训练样本对应的训练样本标签;利用所述训练样本以及所述训练样本标签,对所述媒体内容分类任务的初始媒体内容分类模型进行模型训练,获得满足预设训练停止条件的媒体内容分类模型。
[0693] 可选地,所述媒体内容分类装置,还包括:
[0694] 将所述任务样本作为评估样本,根据所述筛选条件确定所述评估样本对应的评估样本标签;将所述评估样本输入所述媒体内容分类任务的待评估的媒体内容分类模型,根据模型输出结果选择与所述评估样本标签不一致的评估样本作为目标评估样本;基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的媒体内容分类模型,获得目标媒体内容分类模型。
[0695] 可选地,所述基于所述目标评估样本确定任务调优样本,并利用所述任务调优样本优化评估后的媒体内容分类模型,获得目标媒体内容分类模型,包括:
[0696] 创建所述目标评估样本对应的调优任务;将所述调优任务作为媒体内容分类,返回执行所述获取媒体内容分类关联的词单元序列步骤,并将所述媒体内容分类任务的任务样本作为任务调优样本;利用所述任务调优样本,对评估后的任务模型进行模型调优,获得满足预设优化条件的目标媒体内容分类模型。
[0697] 可选地,所述获取媒体内容分类关联的词单元序列,包括:
[0698] 接收任务需求方针对媒体内容分类提交的词单元表;
[0699] 确定所述词单元表包含的词单元类型,并基于词单元表确定所述词单元类型对应的词单元集合;
[0700] 从所述词单元集合中选择词单元,并按照预设类型顺序进行组合,获得词单元序列。
[0701] 可选地,所述获取媒体内容分类关联的词单元序列,包括:
[0702] 获取媒体内容分类关联的初始词单元序列;
[0703] 基于预设校验规则,对所述初始词单元序列进行校验,并根据校验结果对所述初始词单元序列进行调整,获得词单元序列。
[0704] 本说明书实施例提供的媒体内容分类装置,通过接收待分类媒体内容,并将所述待分类媒体内容输入媒体内容分类模型,获得所述媒体内容分类模型输出的所述待分类媒体内容对应的媒体内容类型,其中,所述媒体内容分类模型为利用媒体内容分类任务的任务调优样本优化评估后的媒体内容分类模型生成的,通过优化后目标媒体内容分类模型进行媒体内容分类,提升了媒体内容分类的准确性。
[0705] 上述为本实施例的一种媒体内容分类装置的示意性方案。需要说明的是,该媒体内容分类装置的技术方案与上述的样本生成方法的技术方案属于同一构思,媒体内容分类装置的技术方案未详细描述的细节内容,均可以参见上述样本生成方法的技术方案的描述。
[0706] 图25示出了根据本说明书一个实施例提供的一种计算设备2500的结构框图。该计算设备2500的部件包括但不限于存储器2510和处理器2520。处理器2520与存储器2510通过总线2530相连接,数据库2550用于保存数据。
[0707] 计算设备2500还包括接入设备2540,接入设备2540使得计算设备2500能够经由一个或多个网络2560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备2540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi‑MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
[0708] 在本说明书的一个实施例中,计算设备2500的上述部件以及图25中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图25所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0709] 计算设备2500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备2500还可以是移动式或静止式的服务器。
[0710] 其中,处理器2520用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述样本生成方法或模型评估方法或内容生成方法或内容安全识别方法或媒体内容分类方法的步骤。
[0711] 上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的样本生成方法或模型评估方法或内容生成方法或内容安全识别方法或媒体内容分类方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述样本生成方法或模型评估方法或内容生成方法或内容安全识别方法或媒体内容分类方法的技术方案的描述。
[0712] 本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述样本生成方法或模型评估方法或内容生成方法或内容安全识别方法或媒体内容分类方法的步骤。
[0713] 上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的样本生成方法或模型评估方法或内容生成方法或内容安全识别方法或媒体内容分类方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述样本生成方法或模型评估方法的技术方案的描述。
[0714] 本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述样本生成方法或模型评估方法或内容生成方法或内容安全识别方法或媒体内容分类方法的步骤。
[0715] 上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的样本生成方法或模型评估方法或内容生成方法或内容安全识别方法或媒体内容分类方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述样本生成方法或模型评估方法或内容生成方法或内容安全识别方法或媒体内容分类方法的技术方案的描述。
[0716] 上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0717] 所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0718] 需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
[0719] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0720] 以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

当前第1页 第1页 第2页 第3页