首页 / 自动数据生成

自动数据生成实质审查 发明

技术领域

[0001] 本文描述的实施例总体涉及提供训练数据以增加深度神经网络(DNN)的能力。

相关背景技术

[0002] 深度神经网络(DNN)需要大量的训练数据才能获得最佳或接近最佳的性能。然而,收集大规模数据集既昂贵又耗时。

具体实施方式

[0011] 在下面的详细描述中,参考形成描述的一部分的附图。在附图中,除非上下文另有说明,否则相似的符号通常标识相似的部件。此外,除非另有说明,否则每个连续附图的描述可以引用来自一个或多个先前附图的特征,以提供更清晰的上下文和对当前示例实施例的实质性解释。尽管如此,在详细说明书、附图和权利要求书中描述的示例实施例不旨在是限制性的。可以利用其他实施例,并且可以进行其他改变,而不背离本文呈现的主题的精神或范围。将容易地理解,如本文总体描述和记载的以及在附图中所示的,本公开的各方面可以以各种不同的配置来布置、替换、组合、分离和设计,所有这些都在本文明确地预期到。
[0012] 此外,本文可以按照功能块组件和各种处理步骤来描述本公开的各部分。应当理解,这样的功能块可以通过被配置为执行指定功能的任意数量的硬件和/或软件组件来实现。
[0013] 在本说明书和记载中,除了它们被接受的含义之外,还可以如下使用以下术语。
[0014] 人工智能,本文备选地称为“AI”,可以指经学习或经训练的计算机或处理器相关技术,通过该技术自主地作出决定和/或动作,而不是人工干预。AI指的是支持机器学习、自然语言理解、自然语言处理、语音识别、计算机视觉等的软件,即算法和/或程序、硬件或固件或其任意组合。还包括在AI功能和能力的范围中,并且与本文公开、记载和建议的实施例有关的是图像生成和模型训练。
[0015] 本文公开、记载和/或建议的引擎或生成器可以指一种类型的软件、固件、硬件或其任意组合,其促进生成源代码或标记以产生开始另一过程的元素。另外地或备选地,引擎或生成器可以促进自动化过程,其中各种软件元素基于自然语言描述、输入或其他提示进行交互以产生预期产品,无论是物理的还是虚拟的。根据已知的AI技术,根据单模或多模训练模型来训练本文公开、记载和/或建议的AI引擎或生成器。
[0016] 根据计算机视觉和图像处理,文本到图像模型图像生成可以指通过机器学习模型基于自然语言描述输入来生成或产生图像。训练文本到图像模型需要与文本字幕(例如分类)配对的图像数据集。
[0017] 根据计算机视觉和图像处理,潜在特征可以指由生成式模型的编码器提取的特征向量,即,从对应于输入字幕中的任何一个的输入数据集中提取的特征,例如分类。
[0018] 根据计算机视觉和图像处理,对象检测可以指用于检测数字图像和/或视频中的特定类别的语义对象的实例的技术。用于对象检测的非限制性上下文应用可以包括图像检索、视频监督、设备安全等。
[0019] 如本文公开和记载的,社交媒体应用可以指允许账户持有用户使用各种媒体和在不同规模上彼此交互的在线应用,这种交互包括创建和/或共享媒体内容。如本文公开和记载的,用户设备可以具有本地存储的社交媒体应用账户的实例,或者可以经由特定社交媒体应用的基于网络的版本来访问用户的账户。
[0020] 如本文公开和记载的,平台,例如社交媒体平台,可以指其上可以托管能够执行或实现基于通信或媒体共享技术的集合的算法和/或程序的应用。此外,本文描述、记载或建议的任何算法或程序可以由托管在这样的平台上的一个或多个处理器执行。这些技术的非限制性示例可以包括多媒体供应的创建、共享和/或存储。
[0021] 如本文公开和记载的,媒体或多媒体产品或体验可以包括但不限于记录或可实况传输的内容,包括文本、音频、图像、动画、视频等。此外,这样的产品或体验可以包括但同样不限于交互式增强现实(AR)和/或交互式虚拟现实(VR)体验。
[0022] 图1示出了可以根据本文描述和记载的至少一些实施例实现、布置自动数据生成的系统。如图所示,系统100包括输入设备102和媒体平台105。媒体平台105利用生成式模型,该生成式模型至少包括图像编码器110、类别编码器115、解码器120和图像生成器125。尽管被示为离散组件,但是在所公开的主题的范围内考虑时,各种组件可以被分成附加组件、组合成更少的组件、或者被完全消除。本领域技术人员将理解,组件的每个功能和/或操作可以通过广泛的硬件、软件、固件或其任意组合单独和/或共同实现。
[0023] 输入设备102可以指传统计算设备的一个或多个实施例,其可以是或包括传统计算机、处理设备、微处理器、微控制器、数字信号处理器或其任何组合。设备102可以是各种电子设备之一或其组合,其具有一个或多个图像和/或视频捕获组件(即照相机和/或录像机)、具有音频和/或视频输入/输出的显示屏,并且其支持相对于媒体平台的内容的提供和消费。各种电子设备可以包括但不限于智能手机、平板计算机、膝上型计算机、台式计算机、安全/监督设备、电子书阅读器、MP3(运动图像专家组音频层III)播放器、MP4播放器和/或任何其他适当的电子设备。作为安全设备的输入设备102的非限制性示例可以包括视频门铃、车辆仪表盘摄像头、安全摄像机(无论是持续活动的还是运动激活的)等。输入设备102的其他非限制性示例可以包括数据库、本地服务器、基于云的服务、虚拟现实(VR)和/或增强现实(AR)服务器等。此外,本文描述、记载或建议的任何算法或程序可以由托管于输入设备102上的一个或多个处理器执行。
[0024] 根据本文公开和记载的至少一些实施例,输入104可以指可以手动或以自动方式输入到适当的输入接口的数字图像、数字视频、文本和/或音频。输入104可以经由有线或无线网络从输入设备102传输或以其他方式传送到对应于媒体平台105的接收组件。这样的网络可以被认为是作为媒体平台105和输入设备102之间的双向通信链路提供的介质。网络可以包括互联网、局域网(LAN)、广域网(WAN)、本地互连网络(LIN)、本地云等。
[0025] 媒体平台105可以指例如社交媒体平台和/或安全/监督平台,针对其实现了应用,其上可以托管能够执行基于通信或媒体共享技术的集合的算法和/或程序。这些技术包括监控、创建、共享和/或存储多媒体产品。
[0026] 图像编码器110和类别编码器115可以指被设计、编程或以其他方式配置为接收数据集(x,y)作为输入104的一个或多个组件或模块,该数据集包括来自输入设备102的一个或多个图像x和对应分类y。结合了图像编码器110和类别编码器115两者的功能的编码器的非限制性示例是文本‑视觉对比预训练模型(CLIP),其可以通过对大规模图像到文本数据集的对比学习来训练以准备先前的生成式模型。
[0027] 图像编码器110可以被设计、编程或以其他方式训练以根据已知的编码技术从数据集(x,y)输入104迭代地提取对应于数据集输入104的潜在特征f(x)的特征向量。所提取的特征的非限制性示例可以包括人(完整或部分地)、动物、对象、边缘、点、边界、曲线、形状等。这些特征可以被视为输入图像的高级内容,通常对应于相应图像的语义。
[0028] 类别编码器115可以被设计、编程或以其他方式训练以根据已知的编码技术从数据集输入104迭代地从数据集输入104提取分类y。
[0029] 根据例如CLIP编码器(图像编码器110和类别编码器115)的零次(zero shot)分类能力,样本x的类别名称y被编码为f(y)以作为类别y的零次分类器。零次分类指的是不对注释的目标图像数据进行训练而是预测相应数据集输入104中的样本的类别标签的分类模型。也就是说,零次识别指的是例如片段编码器在其未对所标记的目标数据集进行训练时预测相应数据集中的样本类别的能力。因此,至少对于本文描述、记载和建议的与自动数据生成有关的非限制性示例实施例,将零次预测应用于输入图像x和随后的中间或输出图像,以导出用于优化潜在特征的指导。
[0030] 解码器120可以指预先训练的扩散模型,其被设计、编程或以其他方式训练以实现用于从编码器110和115开始的数据集扩展的引导想象框架(GIF)的部分。解码器120基于由应用于输入图像x和后续中间图像的零次预测导出的指导来优化数据集(x,y)输入104的潜在特征。对于扩散模型,零次预测被计算为s=w(f),其中w是零次分类器,并且f是所提取的特征向量。
[0031] 在解码器120处或由解码器120,预先训练的扩散模型使得潜在特征(即,所提取的特征向量)重复K次,K是扩展比。对于每个潜在特征,向剩余乘法扰动注入随机初始化的噪声和偏差,由此将特征向量从f扰动到f’,其中随机初始化的噪声是从高斯分布采样的随机噪声,而偏差对于各个潜在特征来说都是唯一的。基于f’,解码器120可以生成新图像。
[0032] 然而,为了使解码器120生成的新图像与输入104的输入(x,y)的y类别一致,随机初始化的噪声和偏差作为类别一致性、熵差和多样性的函数在潜在特征上被优化。也就是说,根据本文描述、记载和建议的自动数据生成的实施例,解码器120将利用例如CLIP编码器的零次预测能力来实现用于所提取的潜在特征的信息性标准,即,指导,并且类别预测向量因此被计算为s’=w(f’)。
[0033] 对噪声和偏差实施的指导包括零次预测一致性、熵最大化和多样性提升。预测一致性是指由一个或多个编码器为输入图像x和后续中间或输出图像提供的零次预测是相同的,从而确保输出图像的类语义与输入图像x的类别语义相同。熵最大化是指具有比输入图像x的零次预测熵更大的后续中间或输出图像。也就是说,输入图像x和任何后续中间或输出图像的预测熵之间的任何差异都将被最大化。多样性提升指的是随后的中间或输出图像被多样化,而不是过度相似或重复。
[0034] 在优化噪声和偏差并将其注入到所提取的潜在特征x上,从而有效地产生新的潜在特征x’集合之后,解码器120在扩展比K的尺度上产生合成图像230。
[0035] 图像生成器125可以参考DNN图像生成模型,该DNN图像生成模型基于从解码器120输入的数据集(x,y)输入104被扩展因子K的训练来生成新图像。
[0036] 本文引用、描述和记载的生成式模型涉及用于数据集扩展的引导想象框架(GIF),其通过指导建立在预先训练的生成式模型上的方法来实现。因此,给定来自目标数据集(x,y)的种子图像x,利用预训练模型的编码器(例如,CLIP图像编码器fCLIP‑I)来提取其潜在特征f(x)。与对原始RGB图像施加变化的数据增强不同,该模型优化了样本潜在特征的变化。因此,不同的潜在特征能够维持样本类别语义,同时为模型训练提供额外的新信息。
[0037] 根据框架的非限制性示例实施例,可以使用DALL‑E2作为先前的生成式模型。
[0038] 可以通过采用CLIP图像/文本编码器fCLIP‑I和fCLIP‑T作为图像编码器110和文本编码器115,并使用预先训练的扩散模型G作为其解码器来构建DALL‑E2。
[0039] 为了从种子图像x创建新图像x’的集合,GIF首先将其潜在特征f=fCLIP‑I(x)重复K次,其中K是扩展比。对于每个潜在特征,扰动被注入到潜在特征f,其中随机初始化噪声z~U(0,1)和偏差b~N(0,1)。为了防止想象失控,对潜在特征f进行剩余乘法扰动,并对扰动施加ε‑ball约束,如下所示:
[0040] (1)f′=Pf,∈((1+z)f+b)
[0041] 其中Pf,∈(·)指经扰动特征f’到原始潜在特征的ε‑ball的投影,即//f′‑f//∞≤ε。每个潜在特征具有唯一和/或独立的z和b。
[0042] GIF在潜在特征空间上优化z和b,如下所示:
[0043] z′,b′←argz,bmax
[0044] (2)Scon+Sent+Sdiv.
[0045] Scon、Sent和Sdiv分别对应于类别一致性、熵差和多样性。为了计算这些目标,利用了CLIP的零次分类能力。具体地,利用fCLIP‑T对对应于输入数据集样本(x,y)的图像x的类别名y进行编码,并且利用嵌入wy=fCLIP‑T(y)作为类别y的零次分类器。
[0046] 每个潜在特征f(x)可以根据其与wy的余弦相似度来分类,即,属于类别y的x的亲和度分数为sy=cos(f(x),wy),其形成分类预测向量s=[s1,...,sC],用于目标数据集的C类别。
[0047] 可以用同样的方式获得对经扰动特征s′的预测。
[0048] 预测一致性Scon提高了s和s′的经预测分类分数之间的一致性,因此Scon=s′i,其中i=argmax(s)是原始潜在特征的经预测类别。
[0049] 熵最大化Sent寻求提高所生成图像的信息量,因此Sent=Entropy(s′)‑Entropy(s)以鼓励经扰动特征具有更高的预测熵。
[0050] 通过输入数据集(x,y)的所有经扰动潜在特征之间的Kullback‑Leibler(KL)散度来计算样本多样性Sdiv: 其中f′表示当前经扰动潜在特征,并且 表示输入数据集(x,y)的K个经扰动潜在特征的平均值。
[0051] 值得重复的是,根据本文描述、记载和建议的非限制性示例实施例生成的合成图像基于所指导的潜在特征优化。也就是说,在更新了每个潜在特征向量的噪声z’和偏差b’之后,GIF利用上面列出的公式(1)获得新的潜在特征集合,然后可以使用该集合通过解码器120来创建新的样本。因此,小规模的数据集可以有效地扩展为更大且更有信息量的数据集。
[0052] 在其上托管媒体平台105并因此实现自动数据生成的服务器或服务器集群中的任何一个或多个可以指的是高性能计算(HPC)环境,其至少包括存在于例如视频卡上、嵌入在主板上或CPU管芯上的CPU和GPU。训练和/或所产生的自动数据生成,即数据集扩展,可以完全在CPU上执行,或者部分在CPU和GPU上执行。备选实施例可以在本领域已知的演进HPC组件中执行。无论如何,CPU、GPU和/或HPC组件可以存储一个或多个算法和/或程序,当在其上执行时,可以导致执行或进行本文公开和/或记载的操作和/或功能。此外,根据本文描述的实施例,可以提供计算机可读非易失性介质。该计算机可读介质存储计算机程序。当由处理器执行时,计算机程序用于执行或进行至少与本文描述和记载的实施例有关的操作或功能。
[0053] 图2是根据本文描述和记载的自动数据生成的至少一些实施例布置的媒体平台105的一部分的示意图。如图所示,并且根据图1的说明和描述,媒体平台105至少包括图像编码器110、类别编码器115和解码器120。还应当理解,各种库或存储组件的每个存储功能和/或操作可以通过广泛的硬件、软件、固件或其任意组合单独和/或共同实现。
[0054] 如上所述,在不同附图中使用相同的附图标记表示相似或相同的物品。因此,图2的描述结合了图1的描述。
[0055] 根据图1和图2的非限制性示例实施例,给定在图像编码器110、类别编码器115和解码器120之间实现的预训练生成式模型,将从设备102接收的输入数据集(x,y)104扩展因子K,以便训练图像生成器125。
[0056] 图像编码器110从输入数据集(x,y)104中提取与图像x 210相对应的潜在特征向量212;并且类别编码器115从输入数据集(x,y)104中提取与类别y 215相对应的分类217。
[0057] 根据预先训练的生成式模型,例如文本‑视觉对比预训练模型(CLIP),潜在特征向量212被重复K次,其中K是扩展因子,即基于输入数据集(x,y)104生成的合成图像的预期数量。
[0058] 合成图像x’被生成为x’=G(f(x)+δ)。G是预先训练的生成式模型,f(·)指的是图像编码器110,而δ是应用于输出潜在特征向量f(x)212的扰动。
[0059] 分类217和所提取的潜在特征212除了重复K因子之外,还受到随机噪声和偏差的扰动220,这些随机噪声和偏差被优化225以维持分类一致性、增加预测熵以及提高后续图像的多样性。
[0060] 然后,解码器120将注入了优化后的指导225的潜在特征向量212输出为合成图像230。
[0061] 如前所述,需要具有足够量的训练数据来如所期望的那样最佳地利用深度神经网络(DNN)。然而,以前用于实际收集大规模数据集的解决方案既昂贵又耗时。因此,DNN一直未得到充分利用。然而,通过本文描述、记载和建议的解决方案,输入数据集被扩展因子K,从而基于潜在语义和忠于输入分类而产生合成图像,然后可以利用该合成图像来训练DNN输出引擎。因此,在多种优点中,本解决方案能够节省用于DNN的实际训练和从DNN输出的资源。
[0062] 图3示出了本文描述和记载的至少根据图1和图2的实施例的用于实现自动数据生成的示例处理流程。如图所示,处理流程300包括由包括媒体平台105的系统100的各种组件执行的操作或子过程,如结合图1和图2所示和描述的。然而,处理流程300不限于这样的组件和过程,因为可以通过对本文描述的两个或更多个子过程重新排序、消除至少一个子过程、添加更多子过程、替换组件、甚至使各种组件承担与以下描述中的其他组件一致的子处理角色来进行明显的修改。
[0063] 处理流程300可以包括如框305、框310、框315和框320中的一个或多个所示的各种操作、功能或动作。这些各种操作、功能或动作可以例如对应于可由处理器执行的软件、程序代码或程序指令,其使得功能被执行。处理可以在框305开始。
[0064] 在框305(接收输入),可以在媒体平台105处接收或以其他方式输入输入数据集(x,y)。处理可以进行到框310。
[0065] 在框310(提取潜在特征),图像编码器110从输入数据集(x,y)104中提取与图像x 210相对应的潜在特征向量212;并且类别编码器115从输入数据集(x,y)104中提取与类别y 
215相对应的分类217。通过预先训练的生成式模型,例如CLIP模型,潜在特征向量212被重复扩展因子K。所提取的潜在特征受到随机噪声和偏差的扰动,其被优化以维持分类一致性、增加预测熵以及提高后续图像的多样性。处理可以进行到框315。
[0066] 在框315(生成合成图像),合成图像x’被生成为x’=G(f(x)+δ)。G是预先训练的生成式模型,f(·)指的是图像编码器110,而δ是应用于输出潜在特征向量f(x)212的扰动。处理可以进行到框320。
[0067] 在框320(训练图像生成器),基于所生成的合成图像和输入图像的分类来训练DNN图像生成器,所生成的合成图像基于如本文描述的那样被扰动和优化的所提取的潜在语义。
[0068] 图4示出了说明性计算实施例,其中自动生成数据的任何过程和子过程可以被实现为存储在非易失性计算机可读介质上的可执行指令。计算机可读指令可以例如由本文引用的设备的处理器执行,该设备具有网络元件和/或与其相对应的任何其他设备,特别是适用于上述与系统100相对应的应用和/或程序以实现自动数据生成。
[0069] 在非常基本的配置中,计算设备400通常可以包括至少一个或多个处理器402、存储器404、一个或多个输入组件406、一个或多个输出组件408、显示组件410、计算机可读介质412和收发机414。
[0070] 处理器402可以指例如微处理器、微控制器、数字信号处理器或其任意组合。
[0071] 存储器404可以指例如易失性存储器、非易失性存储器或其任意组合。存储器404可以在其中存储操作系统、对应于媒体平台105的一个或多个应用和/或程序数据。也就是说,存储器404可以存储用于实现上述任何功能或操作的可执行指令,因此,存储器404可以被视为计算机可读介质。
[0072] 输入组件406可指内置或通信耦合的键盘、触摸屏、电信设备(即,智能手机)和/或麦克风,其被配置为与可存储在存储器404中的语音识别程序协作地接收来自计算设备400的用户的语音命令。此外,输入组件406如果不是内置到计算设备400,则可以经由包括但不限于射频或 的短距离通信协议通信地耦合到计算设备400。
[0073] 输出组件408可以指被配置为将命令和数据输出到外部设备的内置或可从计算设备400移除的组件或模块。
[0074] 显示组件410可以指例如可以具有触摸输入能力的固态显示器。也就是说,显示组件410可包括可与输入组件406共享或替换输入组件406的能力。
[0075] 计算机可读介质412可以指被配置为存储实现上述任何功能或操作的一个或多个程序的可分离机器可读介质。也就是说,可以被接收到计算设备400的驱动组件中或以其他方式连接到计算设备400的驱动组件的计算机可读介质412可以存储可执行指令以实现上述任何功能或操作。这些指令可以补充或以其他方式独立于由存储器404存储的那些指令。
[0076] 收发机414可以指配置为有线网络或直接有线连接的计算设备400的网络通信链路。备选地,收发机414可以被配置为无线连接,例如,射频(RF)、红外、 和其他无线协议。
[0077] 如上所述,可以理解,本文出于说明的目的描述了本公开的各种实施例,并且可以在不背离本公开的范围和精神的情况下进行各种修改。因此,本文公开的各种实施例不旨在是限制性的,其真实范围和精神由所附权利要求指示。
[0078] 方面
[0079] 方面1.一种媒体平台,包括:
[0080] 图像提取器,用于从输入图像提取潜在特征和至少一个类别;
[0081] 生成式模型,用于:
[0082] 基于所提取的潜在特征生成合成图像,所述合成图像具有与所述输入图像相同的类别,以及
[0083] 使用所生成的合成图像来训练深度神经网络(DNN)图像生
[0084] 成模型;以及
[0085] DNN图像生成器,用于利用所述DNN图像来生成模型生成图像。
[0086] 方面2.根据方面1所述的媒体平台,其中所提取的潜在特征受到随机噪声和偏差的扰动,随机噪声和偏差被优化以维持分类一致性、增加预测熵以及提高针对后续图像的多样性。
[0087] 方面3.根据方面1或方面2所述的媒体平台,其中媒体平台是社交媒体平台。
[0088] 方面4.根据方面1‑3中任一项所述的媒体平台,其中DNN图像生成器用于针对所述社交媒体平台生成网络迷因(meme)。
[0089] 方面5.根据方面1‑3中任一项所述的媒体平台,其中媒体平台为视频安全平台。
[0090] 方面6.根据方面1‑3或5中任一项所述的媒体平台,其中DNN图像生成器用于针对对象检测模型生成图像。
[0091] 方面7.一种自动数据生成方法,包括:
[0092] 从输入图像提取潜在特征和至少一个分类;
[0093] 将所提取的潜在特征输入生成式模型解码器;以及
[0094] 使用大规模生成式模型生成合成图像。
[0095] 方面8.根据方面7所述的方法,其中合成图像x’被生成为:
[0096] x’=G(f(x)+δ),
[0097] 其中:
[0098] (x,y)是所提取的潜在特征的样本,
[0099] x是输入图像,并且y是分类,
[0100] G是预先训练的生成式模型,
[0101] f(·)是所述生成式模型的图像编码器,以及
[0102] δ是应用于f(x)的扰动。
[0103] 方面9.根据方面7或方面8所述的方法,其中所提取的潜在特征受到随机噪声和偏差的扰动,随机噪声和偏差被优化以维持分类一致性、增加预测熵以及提高针对后续图像的多样性。
[0104] 方面10.根据方面8或方面9所述的方法,其中δ是从高斯分布采样的随机噪声。
[0105] 方面11.根据方面7‑10中任一项所述的方法,其中提取由文本‑视觉对比预训练模型(CLIP)来执行。
[0106] 方面12.根据方面7‑11中任一项所述的方法,其中进一步地,f(x)不改变针对x的分类。
[0107] 方面13.根据方面7‑12中任一项所述的方法,其中所生成的合成图像具有相同的分类y。
[0108] 14.一种其上存储有计算机可执行指令的非易失性计算机可读介质,所述计算机可执行指令在执行时,使一个或多个处理器执行操作,所述操作包括:
[0109] 从输入图像提取潜在特征和至少一个分类;
[0110] 向所述潜在特征添加扰动;
[0111] 根据预先训练的生成式模型对经扰动的潜在特征进行解码;以及
[0112] 利用经解码的图像来训练深度神经网络(DNN)图像生成器。
[0113] 方面15.根据方面14所述的非易失性计算机可读介质,其中所述提取由对比预训练模型(CLIP)图像编码器来执行。
[0114] 方面16.根据方面14或方面15中任一项所述的非易失性计算机可读介质,其中扰动是从高斯分布中采样的随机噪声。
[0115] 方面17.根据方面14‑16中任一项所述的非易失性计算机可读介质,其中扰动包括随机噪声和偏差,随机噪声和偏差被优化以维持分类一致性、增加预测熵以及提高针对后续图像的多样性。
[0116] 方面18.根据根据方面14‑17中任一项所述的非易失性计算机可读介质,其中解码由DALL‑E2解码器来执行。
[0117] 方面19.根据方面14‑18中任一项所述的非易失性计算机可读介质,其中经解码的图像具有与所述输入图像相同的分类。

当前第1页 第1页 第2页 第3页