首页 / 视频生成模型的训练方法、装置、电子设备及存储介质

视频生成模型的训练方法、装置、电子设备及存储介质实质审查 发明

技术领域

[0001] 本申请涉及计算机技术领域,尤其涉及一种视频生成模型的训练方法、装置、电子设备及存储介质。

相关背景技术

[0002] 随着计算机技术的迅速发展,基于扩散模型在图像生成和视频生成的任务中取得了显著的成功。现有的用于视觉内容生成的扩散模型大部分采用UNet架构进行建模,UNet架构可以实现输出和输入一样的维度,适合于扩散模型。现有的扩散模型使用的UNet架构除了包含基于残差的卷积模块,也采用注意力机制。但基于注意力机制的扩散通常包含大量的参数,且需要大量的计算资源和内存来训练和推理。

具体实施方式

[0011] 以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0012] 下面将结合附图详细说明根据本申请实施例的一种视频生成模型的训练方法和装置。
[0013] 图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。
[0014] 终端设备1、2和3可以是硬件,也可以是软件。当终端设备1、2和3为硬件时,其可以是具有显示屏且支持与服务器4通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备1、2和3为软件时,其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,终端设备1、2和3上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
[0015] 服务器4可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器4可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本申请实施例对此不作限制。
[0016] 需要说明的是,服务器4可以是硬件,也可以是软件。当服务器4为硬件时,其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时,其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块,也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块,本申请实施例对此不作限制。
[0017] 网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near Field Communication,NFC)、红外(Infrared)等,本申请实施例对此不作限制。
[0018] 用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接,以接收或发送信息等。具体地,服务器4获取训练集,训练集包括多个训练样本,训练样本包括训练视频的多个训练视频帧;将各个训练样本输入视频生成模型,对各个训练视频的训练视频帧进行特征嵌入,得到各个训练视频的训练视频帧的特征图;对视频生成模型的多个时间步进行特征嵌入,得到各个时间步的特征图;将各个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的多个多层感知机,基于各个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图进行多次迭代扩散处理,得到对应的多个预测视频的视频帧的初始特征图;根据各个预测视频的视频帧的初始特征图,确定各个预测视频的视频帧的目标特征图;对各个预测视频的视频帧的目标特征图进行解码处理,得到各个预测视频的各个视频帧;基于各个预测视频的各个视频帧和各个训练视频的各个训练视频帧计算视频生成模型的损失值,并根据损失值更新视频生成模型的参数。
[0019] 需要说明的是,终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本申请实施例对此不作限制。
[0020] 图2是本申请实施例提供的一种视频生成模型的训练方法的流程示意图。图2的视频生成模型的训练方法可以由图1的服务器执行。如图2所示,该视频生成模型的训练方法包括:步骤201,获取训练集,训练集包括多个训练样本,训练样本包括训练视频的多个训练视频帧。
[0021] 在一些实施例中,可以从公开数据库获取用于训练视频生成模型的训练集,训练集中包含多个训练样本,每个训练样本对应一个完整的训练视频,训练视频的多个训练视频帧按时间顺序排列,可以共同构成一个视觉叙事或动作序列,各个训练视频是由一系列训练视频帧按一定频率连续播放形成的,每个训练视频帧表示对应的训练视频在某一时刻的状态,训练视频的训练视频帧包含丰富的空间信息(如物体位置、形状、颜色等)和潜在的运动信息。训练视频的训练视频帧包含视频生成模型需要学习的视觉信息,提供了视频生成模型所需的空间特征和时间动态。训练视频帧组成的序列有助于视频生成模型学习视频的时间动态,例如物体的运动轨迹、速度变化、动作衔接等,理解并模拟时间相关的特征是生成自然流畅视频的重要因素。训练集中的多个训练样本可以包括各种场景、动作、风格等,丰富的训练样本有助于视频生成模型在训练过程中学习到广泛而丰富的视觉和动态特征。视频生成模型在训练过程中,可以通过训练集中的多个训练样本,学习如何从输入的各个训练视频的多个训练视频帧中捕获关键视觉特征、理解时空关系、预测未来帧以及生成连贯的视频序列。
[0022] 步骤202,将各个训练样本输入视频生成模型,对各个训练视频的训练视频帧进行特征嵌入,得到各个训练视频的训练视频帧的特征图。
[0023] 在一些实施例中,将各个训练视频的训练视频帧输入待训练的视频生成模型,对各个训练视频的训练视频帧进行特征嵌入,将高维的各个训练视频的训练视频帧通过特征嵌入映射到指定维度的特征空间内,从各个训练视频的训练视频帧中提取出关键信息,关键信息可以包括各个训练视频的训练视频帧的颜色、纹理、形状、运动等,得到对应的各个训练视频的训练视频帧的特征图,各个训练视频的训练视频帧的特征图可以表征视频生成模型捕捉到的视觉特征以及时空信息。通过特征嵌入对原始的高维数据(视频帧)进行降维与抽象化表示,消除无关细节,突出了对预测视频生成有重要意义的信息,有助于在训练过程中减少计算量,提高视频生成模型的训练和推理效率。对各个训练视频的训练视频帧进行特征嵌入,得到各个训练视频的训练视频帧的特征图,特征图之间还包含视频帧之间的时间依赖关系,有助于视频生成模型理解训练视频中物体(或对象)的运动轨迹、动作的连贯性以及场景的变化,从而生成更自然、更连贯的视频内容。
[0024] 步骤203,对视频生成模型的多个时间步进行特征嵌入,得到各个时间步的特征图。
[0025] 在一些实施例中,对视频生成模型的多个时间步进行可学习的特征嵌入,得到各个时间步的特征图是视频生成模型的关键部分,可以通过各个时间步的特征图将时间信息传递到视频生成模型。对视频生成模型的多个时间步进行可学习的特征嵌入得到各个时间步的特征图,有助于视频生成模型在各个时间步了解当前阶段的具体细节,从而更好地生成预测视频。视频生成模型在不同的时间步长上具备不同的权重或行为模式,各个时间步的特征图可以为视频生成模型提供在每个时间步进行预测视频生成的关键信息,以便更好地遵循视频生成模型后续扩散处理过程的内在规律,有助于更好地理解数据演变的过程,并最终生成高质量的预测视频。
[0026] 步骤204,将各个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的多个多层感知机,基于各个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图进行多次迭代扩散处理,得到对应的多个预测视频的视频帧的初始特征图。
[0027] 在一些实施例中,时间步的数量对应视频生成模型进行迭代扩散处理的次数。具体地,若视频生成模型对应有十个时间步,视频生成模型将会进行十次扩散处理,在第一次扩散处理的过程中,将第一个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的多个多层感知机,基于各个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图进行第一次扩散处理,得到第一次扩散处理的结果;在第二次扩散处理的过程中,将第一次扩散处理的结果、第一个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的多个多层感知机,基于各个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图进行第二次扩散处理,得到第二次扩散处理的结果;在第三次扩散处理的过程中,将第二次扩散处理的结果、第二个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的多个多层感知机,基于各个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图进行第三次扩散处理,得到第三次扩散处理的结果,以此类推,得到第十次扩散处理的结果,即多个预测视频的视频帧的初始特征图。
[0028] 在一些实施例中,视频生成模型包括多个连续的多层感知机,多个多层感知机在视频生成模型是串联的。具体地,若视频生成模型包括三个多层感知机,分别为第一多层感知机、第一多层感知机和第三多层感知机,执行第一次扩散处理时,将第一个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的第一多层感知机进行非线性变换,得到第一多层感知机的输出结果;将第一多层感知机的输出结果、第一个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的第二多层感知机进行非线性变换,得到第二多层感知机的输出结果;将第二多层感知机的输出结果、第一个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的第三多层感知机进行非线性变换,得到第三多层感知机的输出结果,即第一次扩散处理的结果。参照第一次扩散处理,将各个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的多个多层感知机,基于各个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图进行多次迭代扩散处理,得到对应的多个预测视频的视频帧的初始特征图。
[0029] 在一些实施例中,视频生成模型的多层感知机是一种神经网络结构,可以对输入的时间步的特征图和各个训练视频的训练视频帧的特征图进行处理,通过多层非线性变换学习输入数据的复杂特征表示,以提取出更高级别的特征信息。时间步的特征图和各个训练视频的训练视频帧的特征图包含视频帧的视觉信息和时间步的时序信息,是视频生成模型生成预测视频帧的基础,多层感知机通过对上述特征图进行非线性变换和组合,捕捉视频帧间的复杂时空依赖关系和内在模式,以生成与训练视频帧相似的预测视频帧的初始特征图。在每一次扩散处理过程中,视频生成模型的多层感知机可以根据输入的特征图生成新的预测特征图,并将其与输入的特征图进行融合,在一次次扩散处理的过程中,生成的预测视频的视频帧的初始特征图逐步逼近训练视频的训练视频帧。通过多次迭代,视频生成模型可以逐步优化其预测结果,提高生成视频的质量。将各个时间步的特征图和各个训练视频的训练视频帧的特征图输入多个多层感知机,并进行多次迭代扩散处理,利用多层感知机的强大表征能力,逐步构建和优化预测视频的视频帧,有助于最终生成高质量、符合预期的视频内容。视频生成模型的多个多层感知机在不引入注意力机制和卷积层的基础上,通过视频生成模型的多个多层感知机对各个训练视频的训练视频帧的特征图在空间维度学习和提取特征信息,对各个时间步的特征图在时序维度学习和提取特征信息,通过纯多层感知机的架构的进行迭代扩散处理,用于模拟预测视频的多个视频帧的生成,有助于生成的预测视频在时空信息上具备一致性。纯多层感知机架构降低了视频生成模型的复杂度,减少了计算资源,从而在计算上更加高效,从而本申请提出的视频生成模型的训练过程所需的时间较短,耗费计算资源较少。
[0030] 步骤205,根据各个预测视频的视频帧的初始特征图,确定各个预测视频的视频帧的目标特征图。
[0031] 在一些实施例中,预测视频的视频帧的初始特征图为视频生成模型的多层感知机经过多次迭代扩散处理后得到的特征表示,为视频生成模型对预测视频的视频帧内容的初步估计。预测视频的视频帧的目标特征图为期望生成的预测视频的视频帧的理想特征表示。可以对各个预测视频的视频帧的初始特征图进行一系列的非线性变换处理,对初始特征图进行进一步的优化和调整,得到各个预测视频的视频帧的目标特征图。根据预测视频的视频帧的初始特征图确定预测视频的视频帧的目标特征图,是视频生成模型训练中的一个关键步骤,有助于进一步提高预测视频的视频帧的准确性,增强视频生成模型的鲁棒性,促进视频生成模型性能的提升。
[0032] 步骤206,对各个预测视频的视频帧的目标特征图进行解码处理,得到各个预测视频的各个视频帧。
[0033] 在一些实施例中,视频生成模型还包括解码器,将各个预测视频的视频帧的目标特征图输入解码器,对各个预测视频的视频帧的目标特征图进行解码处理,将抽象的特征图转换为具体的视频帧图像,即包含时序关系的各个预测视频的各个视频帧,使得人可以直观地看到视频生成模型生成的预测视频的各个视频帧。
[0034] 步骤207,基于各个预测视频的各个视频帧和各个训练视频的各个训练视频帧计算视频生成模型的损失值,并根据损失值更新视频生成模型的参数。
[0035] 在一些实施例中,计算各个预测视频的各个视频帧和各个训练视频的各个训练视频帧之间每个像素的平均平方误差得到损失值。损失值可以度量预测视频的视频帧与训练视频的视频帧之间的差异,例如像素级别的差异或者特征级别的差异。通过计算损失值,可以量化视频生成模型预测结果的准确性,从而指导后续的参数更新。根据损失值,通过反向传播算法计算视频生成模型参数对损失值的梯度,并根据梯度更新视频生成模型的参数。基于训练集更新视频生成模型参数,通过不断调整参数以最小化损失值,视频生成模型逐渐学会如何根据给定的输入生成与训练数据相似的视频内容,即视频生成模型具备良好的生成新视频的能力。视频生成模型的参数更新为迭代优化过程,随着迭代次数的增加,视频生成模型的参数逐渐调整到最佳状态,使得预测视频的视频帧更加接近训练视频的视频帧,视频生成模型可以学习更多关于视频生成任务的规律和特征,有助于视频生成模型在后续的任务中表现出更好的性能,生成更加真实、自然和连贯的视频内容。
[0036] 基于本申请提出的视频生成模型的训练方法,获取的训练集包含多个训练样本,每个样本都包含训练视频的多个训练视频帧,训练视频的多个训练视频帧是视频生成模型学习的目标,视频生成模型在训练阶段基于训练集学习如何生成与训练视频的多个训练视频帧接近的预测视频的多个视频帧。将各个训练样本输入视频生成模型,将各个训练视频的训练视频帧通过特征嵌入映射到指定维度的特征空间内,将高维像素信息压缩到低维特征空间,得到各个训练视频的训练视频帧的特征图,便于视频生成模型后续进一步处理和学习。视频生成模型的时间步可以表示视频生成模型在生成或重构视频帧时的离散时间间隔,在视频生成模型的扩散处理过程中,每一时间步对应着视频生成模型对训练视频帧信息内容的逐渐恢复学习。对多个时间步进行可学习的嵌入,得到各个时间步的特征图,将时间信息用数值形式进行表示,有助于视频生成模型在每个时间步阶段了解当前阶段的具体细节,从而更好地进行扩散处理,生成预测视频的多个视频帧。将各个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的多个多层感知机,通过视频生成模型的多个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图多次迭代扩散处理,得到对应的多个预测视频的视频帧的初始特征图, 模拟预测视频的视频帧的生成过程,在扩散处理的过程中学习视频帧之间的时间依赖性和空间关联性,有助于生成具有连贯性和一致性的视频帧。视频生成模型的多个多层感知机在不引入注意力机制和卷积层的基础上,通过视频生成模型的多个多层感知机对各个训练视频的训练视频帧的特征图在空间维度学习和提取特征信息,对各个时间步的特征图在时序维度学习和提取特征信息,通过纯多层感知机的架构的进行迭代扩散处理,用于模拟预测视频的多个视频帧的生成,有助于生成的预测视频在时空信息上具备一致性。基于各个预测视频的视频帧的初始特征图,通过一些优化处理过程确定每个预测视频帧的理想特征表示,即各个预测视频的视频帧的目标特征图。对各个预测视频的视频帧的目标特征图进行解码处理,将视频生成模型学习的特征表示转化为可视化的视频帧,即各个预测视频的各个视频帧,以便与真实的各个训练视频的训练视频帧进行比较。计算各个预测视频的视频帧与对应的各个训练视频的视频帧之间的损失值,损失值可以度量视频生成模型的预测结果与真实结果的差距。可以根据损失值,通过反向传播算法更新视频生成模型的参数,使得视频生成模型在下一轮迭代中能够更准确地生成预测视频的视频帧,在训练过程中逐渐预测得到逼近真实数据的分布。本申请提出的视频生成模型在不引入注意力机制和卷积层的基础上,使用纯多层感知机架构用于视频内容的生成任务,通过视频生成模型的多个多层感知机对视频帧的特征图在空间维度学习和提取特征信息,对各个时间步的特征图在时序维度学习和提取特征信息,纯多层感知机架构降低了视频生成模型的复杂度,减少了计算资源,从而在计算上更加高效,对本申请提出的视频生成模型的训练过程所需的时间较短。本申请提出的视频生成模型在较少参数量和计算量的条件下,解决了现有技术中基于注意力机制的扩散模型训练耗费大量计算资源且训练速度慢的问题,实现以较低计算成本生成高质量的视觉内容。
[0037] 在一些实施例中,根据各个预测视频的视频帧的初始特征图,确定各个预测视频的视频帧的目标特征图,包括:对各个预测视频的视频帧的初始特征图进行归一化处理,得到各个预测视频的视频帧的归一化特征图;对各个预测视频的视频帧的目标归一化特征图进行线性化处理,得到各个预测视频的视频帧的线性化处理结果;对各个预测视频的视频帧的线性化处理结果进行特征图进行重塑,得到各个预测视频的视频帧的目标特征图。
[0038] 在一些实施例中,视频生成模型还包括归一化层、特征线性映射层和重塑层。将各个预测视频的视频帧的初始特征图输入归一化层进行归一化处理,将特征图中的数值调整到统一的尺度范围内,可以消除不同特征之间的量纲差异和数值范围差异,得到各个预测视频的视频帧的归一化特征图,有助于稳定训练过程,加速视频生成模型的收敛。将各个预测视频的视频帧的归一化特征图输入特征线性映射层进行线性化处理,提取输入的各个预测视频的视频帧的归一化特征图的线性组合,形成更高层次的抽象特征表示,得到各个预测视频的视频帧的线性化处理结果。可以使用reshape()函数对各个预测视频的视频帧的线性化处理结果进行特征图进行重塑,调整输入特征图的形状(高度、宽度、通道数)以适应后续处理的要求如解码器的输入格式,得到各个预测视频的视频帧的目标特征图。通过对各个预测视频的视频帧的线性化处理结果进行特征图进行重塑,可以正确合理地利用各个预测视频的视频帧的目标特征图进行视频帧的预测和生成。上述归一化处理、线性化处理以及重塑的共同协同,有助于提升视频生成模型的性能和预测的准确性。
[0039] 参考图3,若视频生成模型包括三个多层感知机,视频生成模型包括:第一特征嵌入层301、第二特征嵌入层302、第一多层感知机303、第二多层感知机304、第三多层感知机305、归一化层306、特征线性映射层307、重塑层308、解码器309。将各个训练视频的训练视频帧输入第一特征嵌入层301进行特征嵌入,得到各个训练视频的训练视频帧的特征图,将视频生成模型的多个时间步输入第二特征嵌入层302进行特征嵌入,得到各个时间步的特征图。执行第一次扩散处理时,将第一个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的第一多层感知机303进行非线性变换,得到第一多层感知机的输出结果;将第一多层感知机的输出结果、第一个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的第二多层感知机304进行非线性变换,得到第二多层感知机的输出结果;将第二多层感知机的输出结果、第一个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的第三多层感知机404进行非线性变换,得到第三多层感知机的输出结果,即第一次扩散处理的结果。参照第一次扩散处理,将各个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的多个多层感知机,基于各个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图进行多次迭代扩散处理,得到对应的多个预测视频的视频帧的初始特征图。将各个预测视频的视频帧的初始特征图输入归一化层306进行归一化处理,得到各个预测视频的视频帧的归一化特征图,将各个预测视频的视频帧的归一化特征图输入特征线性映射层307进行线性化处理,得到各个预测视频的视频帧的线性化处理结果,将各个预测视频的视频帧的线性化处理结果输入重塑层308进行重塑,得到各个预测视频的视频帧的目标特征图。将各个预测视频的视频帧的目标特征图输入解码器309进行解码处理,得到各个预测视频的视频帧。
本申请提出的视频生成模型在不引入注意力机制和卷积层的基础上,使用纯多层感知机架构用于视频内容的生成任务,通过视频生成模型的多个多层感知机对视频帧的特征图在空间维度学习和提取特征信息,对各个时间步的特征图在时序维度学习和提取特征信息,纯多层感知机架构降低了视频生成模型的复杂度,减少了计算资源,从而在计算上更加高效,本申请提出的视频生成模型的训练过程所需的时间较短。上述为本申请的一个实施例,本申请不对视频生成模型中多层感知机的数量进行限制,在实际应用时,视频生成模型中多层感知机的数量可以根据实际需求进行设定。
[0040] 在一些实施例中,多层感知机包括第一时序信息混合层、第一空间信息混合层、第二时序信息混合层和第二空间信息混合层,基于各个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图进行多次迭代扩散处理,得到对应的多个预测视频的视频帧的初始特征图,包括:根据各个多层感知机的第一时序信息混合层,对上一个多层感知机的输出结果或各个训练视频的训练视频帧的特征图与各个时间步的特征图进行时序信息融合处理,得到各个多层感知机的第一时序信息混合层的处理结果;根据各个多层感知机的第一空间信息混合层,对各个多层感知机的第一时序信息混合层的处理结果与各个训练视频的训练视频帧的特征图进行空间信息融合处理,得到各个多层感知机的第一空间信息混合层的处理结果;根据各个多层感知机的第二时序信息混合层,对各个多层感知机的第一空间信息混合层的处理结果与各个时间步的特征图进行时序信息融合处理,得到各个多层感知机的第二时序信息混合层的处理结果;根据各个多层感知机的第二空间信息混合层,对各个多层感知机的第二时序信息混合层的处理结果与各个训练视频的训练视频帧的特征图进行空间信息融合处理,得到各个多层感知机的输出结果,将最后一个多层感知机的输出结果确定为各个预测视频的视频帧的初始特征图。
[0041] 在一些实施例中,视频生成模型包括多个多层感知机,各个多层感知机的结构相同,每个多层感知机包括第一时序信息混合层、第一空间信息混合层、第二时序信息混合层和第二空间信息混合层。对于每个多层感知机,若该多层感知机非视频生成模型中的第一个多层感知机,通过多层感知机的第一时序信息混合层,对上一个多层感知机的输出结果和各个时间步的特征图进行时序信息融合处理,得到多层感知机的第一时序信息混合层的处理结果。若该多层感知机为视频生成模型中的第一个多层感知机,通过多层感知机的第一时序信息混合层对各个训练视频的训练视频帧的特征图和各个时间步的特征图进行时序信息融合处理,得到多层感知机的第一时序信息混合层的处理结果。通过各个多层感知机的第一时序信息混合层融合上一个多层感知机的输出结果(或各个训练视频的训练视频帧的特征图)与时间步的特征图,提取和整合时序上的关键信息,通过时序信息的融合处理,视频生成模型可以学习视频帧之间的时间依赖关系,有助于理解训练视频中的动态变化或运动轨迹。
[0042] 在一些实施例中,通过多层感知机的第一空间信息混合层对多层感知机的第一时序信息混合层的处理结果和各个训练视频的训练视频帧的特征图进行空间信息融合处理,进一步融合空间信息,捕获训练视频帧中的空间结构和特征,得到多层感知机的第一空间信息混合层的处理结果。通过第一空间信息混合层进行空间信息融合有助于视频生成模型理解训练视频帧中的内容,有助于更准确地生成预测视频的视频帧。
[0043] 在一些实施例中,通过多层感知机的第二时序信息混合层对多层感知机的第一空间信息混合层的处理结果和各个时间步的特征图进行时序信息融合处理,得到多层感知机的第二时序信息混合层的处理结果,通过第二空间信息混合层进一步优化对视频帧时序特征,提取训练视频在时间维度上的信息,有助于视频生成模型可以更深入地捕捉视频帧之间的时间依赖关系,提高预测的准确性。
[0044] 在一些实施例中,通过多层感知机的第二空间信息混合层对多层感知机的第二时序信息混合层的处理结果和各个训练视频的训练视频帧的特征图进行空间信息融合处理,进一步融合空间信息,捕获训练视频帧中的空间结构和特征,得到多层感知机的第二空间信息混合层的处理结果。通过第二空间信息混合层再一次进行空间信息融合有助于视频生成模型更好地理解训练视频帧中的内容,更准确地生成预测视频的视频帧。通过多层感知机对各个训练视频的各个训练视频帧的特征图和各个时间步的特征图进行特征融合和特征提取,在时序和空间维度上交替提取融合特征信息。上述第一时序信息混合层和第二时序信息混合层结构相同,第一空间信息混合层和第二空间信息混合层结构相同。多层感知机中交替的空间信息混合层和时序信息混合层对输入的特征信息在空间维度和时间维度进行特征的提取,系统地整合视频帧在时间和空间两个维度上的特征,构建全面的时空特征表示,有助于生成的视觉内容在时空维度上一致性。将最后一次扩散处理得到的最后一个多层感知机的输出结果确定为各个预测视频的视频帧的初始特征图,预测视频的视频帧的初始特征图既包含了时序信息也包含了空间信息,为后续的解码处理提供了丰富的特征表示。
[0045] 参考图4,第一多层感知机303包括:第一时序信息混合层401、第一空间信息混合层402、第二时序信息混合层403和第二空间信息混合层304。将各个训练视频的各个训练视频帧的特征图和各个时间步的特征图输入第一时序信息混合层401进行时序信息融合处理,得到第一多层感知机的第一时序信息混合层的处理结果。将第一多层感知机的第一时序信息混合层的处理结果和各个训练视频的训练视频帧的特征图输入第一空间信息混合层402进行空间信息融合处理,得到第一多层感知机的第一空间信息混合层的处理结果。将第一多层感知机的第一空间信息混合层的处理结果和各个时间步的特征图输入第二时序信息混合层403进行时序信息融合处理,得到第一多层感知机的第二时序信息混合层的处理结果。将第一多层感知机的第二时序信息混合层的处理结果和各个训练视频的训练视频帧的特征图输入第二空间信息混合层404进行空间信息融合处理,得到第一多层感知机的输出结果。通过多层感知机对各个训练视频的各个训练视频帧的特征图和各个时间步的特征图进行特征融合和特征提取,在时序和空间维度上交替提取融合特征信息。多层感知机中交替的空间信息混合层和时序信息混合层对输入的特征信息在空间维度和时间维度进行特征的提取,有助于生成的视觉内容在时空维度上一致性。
[0046] 在一些实施例中,根据各个多层感知机的第一空间信息混合层,对各个多层感知机的第一时序信息混合层的处理结果与各个训练视频的训练视频帧的特征图进行空间信息融合处理,得到各个多层感知机的第一空间信息混合层的处理结果,包括:对各个多层感知机的第一时序信息混合层的处理结果和各个训练视频的训练视频帧的特征图进行相加,得到各个训练视频的训练视频帧的第一融合特征图;对各个训练视频的训练视频帧的第一融合特征图进行归一化处理,得到各个训练视频的训练视频帧的第一归一化特征图;对各个训练视频的训练视频帧的第一归一化特征图进行非线性变换,得到各个训练视频的训练视频帧的第一非线性处理结果;对各个训练视频的训练视频帧的第一非线性处理结果和各个训练视频的训练视频帧的特征图进行相加,得到各个训练视频的训练视频帧的第二融合特征图;对各个训练视频的训练视频帧的第二融合特征图进行归一化处理,得到各个训练视频的训练视频帧的第二归一化特征图;对各个训练视频的训练视频帧的第二归一化特征图进行非线性变换,得到各个多层感知机的第一空间信息混合层的处理结果。
[0047] 在一些实施例中,参考图5,第一空间信息混合层402包括:第一归一化层501、第一多层感知机单元502、第二归一化层503、第二多层感知机单元504。上述第一多层感知机单元502和第二多层感知机单元504均为最基础的多层感知机,包括一个输入层、一个隐藏层和一个输出层。将多层感知机的第一时序信息混合层的处理结果和各个训练视频的训练视频帧的特征图进行相加,将第一时序信息混合层输入的时序信息和空间信息(各个训练视频的训练视频帧的特征图)进行初步融合,直接将时序处理后的信息与空间特征相结合,初步整合两种不同维度的信息,得到各个训练视频的训练视频帧的第一融合特征图。将各个训练视频的训练视频帧的第一融合特征图输入第一归一化层501进行归一化处理,得到各个训练视频的训练视频帧的第一归一化特征图,有助于消除特征图中的数据分布差异,使得不同特征之间具有可比较性,同时将特征值落入一个合理的数值范围内,避免因数值过大或过小导致后续计算的不稳定或信息失真。将各个训练视频的训练视频帧的第一归一化特征图输入第一多层感知机单元502进行非线性变换,得到各个训练视频的训练视频帧的第一非线性处理结果。进行非线性变换可以增强视频生成模型的非线性表达能力,使得视频生成模型可以学习和表示更复杂、更高级别的空间特征,有助于视频生成模型更好地理解视频帧的内容。将各个训练视频的训练视频帧的第一非线性处理结果和各个训练视频的训练视频帧的特征图进行相加,得到各个训练视频的训练视频帧的第二融合特征图,进一步融合经过非线性变换的特征和训练视频的训练视频帧的特征图,可以强化关键的空间特征,并保留输入的训练视频帧的特征图中的有用信息。将各个训练视频的训练视频帧的第二融合特征图输入第二归一化层503进行归一化处理,得到各个训练视频的训练视频帧的第二归一化特征图,有助于消除数据分布差异,使得特征图更适合进行后续的非线性处理。将各个训练视频的训练视频帧的第二归一化特征图输入第二多层感知机单元504进行非线性变换,得到各个多层感知机的第一空间信息混合层的处理结果,可以进一步提取和整合空间特征,得到更加精确、更丰富的特征表示,有助于视频生成模型可以更全面地理解视频帧的空间结构和动态变化,从而生成更准确地预测视频帧。需要注意的是,各个多层感知机中的第一空间信息混合层的结构相同。
[0048] 在一些实施例中,根据各个多层感知机的第二时序信息混合层,对各个多层感知机的第一空间信息混合层的处理结果与各个时间步的特征图进行时序信息融合处理,得到各个多层感知机的第二时序信息混合层的处理结果,包括:对各个多层感知机的第一空间信息混合层的处理结果和各个时间步的特征图进行相加,得到各个训练视频的训练视频帧的第三融合特征图;对各个训练视频的训练视频帧的第三融合特征图进行归一化处理,得到各个训练视频的训练视频帧的第三归一化特征图;对各个训练视频的训练视频帧的第三归一化特征图进行非线性变换,得到各个训练视频的训练视频帧的第二非线性处理结果;对各个训练视频的训练视频帧的第二非线性处理结果和各个时间步的特征图进行相加,得到各个训练视频的训练视频帧的第四融合特征图;对各个训练视频的训练视频帧的第四融合特征图进行归一化处理,得到各个训练视频的训练视频帧的第四归一化特征图;对各个训练视频的训练视频帧的第四归一化特征图进行非线性变换,得到各个多层感知机的第二时序信息混合层的处理结果。
[0049] 参考图6,第二时序信息混合层403包括:第三归一化层601、第三多层感知机单元602、第四归一化层603、第四多层感知机单元604。上述第三多层感知机单元602和第四多层感知机单元604均为最基础的多层感知机,包括一个输入层、一个隐藏层和一个输出层。将多层感知机的第一空间信息混合层的处理结果和时间步的特征图进行相加,融合空间信息和时序信息,得到各个训练视频的训练视频帧的第三融合特征图。通过相加操作,视频生成模型可以同时考虑视频帧的空间结构和当前时间步的时序特征,为后续的时序信息融合提供基础。将各个训练视频的训练视频帧的第三融合特征图输入第三归一化层601进行归一化处理,得到各个训练视频的训练视频帧的第三归一化特征图。归一化处理有助于融合后的特征值在合理范围内,避免数值溢出或欠饱和问题,有利于后续计算的稳定进行。将各个训练视频的训练视频帧的第三归一化特征图输入第三多层感知机单元602进行非线性变换,增加视频生成模型的表达能力,捕捉时空特征间的非线性关系,提取出更高级别的特征表示,得到各个训练视频的训练视频帧的第二非线性处理结果。将各个训练视频的训练视频帧的第二非线性处理结果和时间步的特征图进行相加,进一步整合经过非线性变换后的特征与当前时序特征(时间步的特征图),强化时间步的特征图中的关键信息,同时保留经过非线性变换后的空间与时序特征,得到更深层次、更全面的时空融合特征,即各个训练视频的训练视频帧的第四融合特征图。将各个训练视频的训练视频帧的第四融合特征图输入第四归一化层603进行归一化处理,得到各个训练视频的训练视频帧的第四归一化特征图,有助于维持数值稳定性和特征尺度的一致性,为后续非线性变换提供良好的输入条件。将各个训练视频的训练视频帧的第四归一化特征图输入第四多层感知机单元604进行非线性变换,进一步强化视频生成模型特征图的深度非线性建模能力,对输入的视频帧的信息在时序维度学习和提取特征,得到多层感知机的第二时序信息混合层的处理结果。通过上述一系列的时序信息融合处理,得到多层感知机的第二时序信息混合层的处理结果,对输入的训练视频的视频帧的信息在时序维度进行学习和提取,有助于视频生成模型可以更深入地理解视频帧的时序变化,从而生成更准确的预测视频帧。需要注意的是,各个多层感知机中的第二空间信息混合层的结构相同。
[0050] 在一些实施例中,并根据损失值更新视频生成模型的参数之后,还包括:获取描述文本和多个噪声图;将描述文本和各个噪声图输入视频生成模型,对描述文本进行特征嵌入,得到描述文本的特征图,对各个噪声图进行特征嵌入,得到各个噪声图的特征图,以及对视频生成模型的多个时间步进行特征嵌入,得到各个时间步的特征图;将各个时间步的特征图、描述文本的特征图和各个时间步的特征图输入视频生成模型的各个多层感知机,基于各个多层感知机对各个噪声图的特征图、各个时间步的特征图和描述文本的特征图进行多次迭代扩散处理,得到包含时序关系的目标视频的多个视频帧的初始特征图;根据目标视频的各个视频帧的初始特征图,确定目标视频的多个视频帧的特征图;对目标视频的多个视频帧的特征图进行解码处理,得到目标视频。
[0051] 在一些实施例中,获取描述文本和多个噪声图,描述文本为对目标视频的文字描述,可以作为生成目标视频的语义指导,多个噪声图可以为高斯噪声图,为视频生成的初始随机输入,噪声图包含随机分布的像素值,用于视频生成模型在多次扩散处理中逐步构造出有意义的视频帧。将描述文本和各个噪声图输入视频生成模型,对描述文本进行特征嵌入,将描述文本转换为视频生成模型可以理解的数值形式,即描述文本的特征图,对各个噪声图进行特征嵌入,将各个噪声图转换为视频生成模型可以理解的数值形式,即各个噪声图的特征图。对多个时间步进行可学习特征嵌入,得到各个时间步的特征图,各个时间步的特征图有助于视频生成模型在每个时间步了解当前阶段的具体细节,从而更好地去噪各个时间步的特征图可以为视频生成模型提供在每个时间步进行去噪的关键信息,有助于视频生成模型更好地理解数据的演变过程,并最终生成高质量的目标视频。将各个时间步的特征图、描述文本的特征图和各个时间步的特征图输入视频生成模型的各个多层感知机,基于各个多层感知机对各个噪声图的特征图、各个时间步的特征图和描述文本的特征图进行多次迭代扩散处理,在不同的层次上融合提取上述信息,通过多次迭代,可以逐步从噪声图中提炼出与描述文本相匹配的视频内容,同时考虑到时序关系,有助于生成的视频帧之间具有连贯性和合理性,得到包含时序关系的目标视频的多个视频帧的初始特征图。对目标视频的多个视频帧的初始特征图进行一系列调整,可以包括归一化处理、线性变换以及重塑,得到目标视频的多个视频帧的特征图,用以后续进行解码处理。对目标视频的多个视频帧的特征图进行解码处理,将目标视频的多个视频帧的特征图转换回图像空间,即生成实际的视频帧,得到目标视频。目标视频为根据描述文本和噪声图生成的,具有与描述文本相符的内容和时序关系。本申请的视频生成模型在不引入注意力机制和卷积层的基础上基于多个多层感知机进行扩散处理,相较于基于卷积神经网络和基于自注意力机制的扩散模型,本申请的视频生成模型具备较少参数量和计算量,实现以较低计算成本生成高质量的视觉内容。
[0052] 在一些实施例中,视频生成模型还包括解码器,对目标视频的多个视频帧的特征图进行解码处理,得到目标视频,包括:将目标视频的多个视频帧的特征图输入解码器,基于解码器对目标视频的各个视频帧的特征图进行解码处理,得到目标视频的各个视频帧;基于目标视频的各个视频帧之间的时序关系对目标视频的各个视频帧进行排列,生成目标视频。
[0053] 在一些实施例中,解码器是专门设计用于将特征图转换回视频的神经网络结构。解码器可以为变分自解码器。将目标视频的多个视频帧的特征图输入解码器,逆向构建图像细节,可以从底层纹理到高层结构,逐步恢复出清晰的视频帧,是将高度抽象、压缩的目标视频的多个视频帧的特征图逐级还原为具有实际像素值的包含时序关系的目标视频的各个视频帧。根据目标视频的各个视频帧之间的顺序,将解码得到的目标视频的各个视频帧进行排列,生成连续的视频流,每个视频帧根据其在时间轴上的位置依次播放,形成具有流畅动态效果的目标视频。目标视频在视频帧间过渡上保持平滑、连贯,符合用户观看视频的习惯和预期。
[0054] 上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
[0055] 下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
[0056] 图7是本申请实施例提供的一种视频生成模型的训练装置的示意图。如图7所示,该视频生成模型的训练装置包括:获取模块701,用于获取训练集,训练集包括多个训练样本,训练样本包括训练视频的多个训练视频帧;
特征嵌入模块702,用于将各个训练样本输入视频生成模型,对各个训练视频的训练视频帧进行特征嵌入,得到各个训练视频的训练视频帧的特征图;
时间步编码模块703,用于对视频生成模型的多个时间步进行特征嵌入,得到各个时间步的特征图;
扩散模块704,用于将各个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的多个多层感知机,基于各个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图进行多次迭代扩散处理,得到对应的多个预测视频的视频帧的初始特征图;
确定模块705,用于根据各个预测视频的视频帧的初始特征图,确定各个预测视频的视频帧的目标特征图;
解码模块706,用于对各个预测视频的视频帧的目标特征图进行解码处理,得到各个预测视频的各个视频帧;
更新模块707,用于基于各个预测视频的各个视频帧和各个训练视频的各个训练视频帧计算视频生成模型的损失值,并根据损失值更新视频生成模型的参数。
[0057] 根据本申请实施例提供的技术方案,通过获取训练集,训练集包含多个训练样本,每个样本都包含训练视频的多个训练视频帧,训练视频的多个训练视频帧是视频生成模型学习的目标,视频生成模型在训练阶段基于训练集学习如何生成与训练视频的多个训练视频帧接近的预测视频的多个视频帧。将各个训练样本输入视频生成模型,将各个训练视频的训练视频帧通过特征嵌入映射到指定维度的特征空间内,将高维像素信息压缩到低维特征空间,得到各个训练视频的训练视频帧的特征图,便于视频生成模型后续进一步处理和学习。视频生成模型的时间步可以表示视频生成模型在生成或重构视频帧时的离散时间间隔,在视频生成模型的扩散处理过程中,每一时间步对应着视频生成模型对训练视频帧信息内容的逐渐恢复学习。对多个时间步进行可学习的嵌入,得到各个时间步的特征图,将时间信息用数值形式进行表示,有助于视频生成模型在每个时间步阶段了解当前阶段的具体细节,从而更好地进行扩散处理,生成预测视频的多个视频帧。将各个时间步的特征图和各个训练视频的训练视频帧的特征图输入视频生成模型的多个多层感知机,通过视频生成模型的多个多层感知机对各个时间步的特征图和各个训练视频的训练视频帧的特征图多次迭代扩散处理,得到对应的多个预测视频的视频帧的初始特征图, 模拟预测视频的视频帧的生成过程,在扩散处理的过程中学习视频帧之间的时间依赖性和空间关联性,有助于生成具有连贯性和一致性的视频帧。视频生成模型的多个多层感知机在不引入注意力机制和卷积层的基础上,通过视频生成模型的多个多层感知机对各个训练视频的训练视频帧的特征图在空间维度学习和提取特征信息,对各个时间步的特征图在时序维度学习和提取特征信息,通过纯多层感知机的架构的进行迭代扩散处理,用于模拟预测视频的多个视频帧的生成,有助于生成的预测视频在时空信息上具备一致性。基于各个预测视频的视频帧的初始特征图,通过一些优化处理过程确定每个预测视频帧的理想特征表示,即各个预测视频的视频帧的目标特征图。对各个预测视频的视频帧的目标特征图进行解码处理,将视频生成模型学习的特征表示转化为可视化的视频帧,即各个预测视频的各个视频帧,以便与真实的各个训练视频的训练视频帧进行比较。计算各个预测视频的视频帧与对应的各个训练视频的视频帧之间的损失值,损失值可以度量视频生成模型的预测结果与真实结果的差距。可以根据损失值,通过反向传播算法更新视频生成模型的参数,使得视频生成模型在下一轮迭代中能够更准确地生成预测视频的视频帧,在训练过程中逐渐预测得到逼近真实数据的分布。本申请提出的视频生成模型在不引入注意力机制和卷积层的基础上,使用纯多层感知机架构用于视频内容的生成任务,通过视频生成模型的多个多层感知机对视频帧的特征图在空间维度学习和提取特征信息,对各个时间步的特征图在时序维度学习和提取特征信息,纯多层感知机架构降低了视频生成模型的复杂度,减少了计算资源,从而在计算上更加高效,对本申请提出的视频生成模型的训练过程所需的时间较短。本申请提出的视频生成模型在较少参数量和计算量的条件下,解决了现有技术中基于注意力机制的扩散模型训练耗费大量计算资源且训练速度慢的问题,实现以较低计算成本生成高质量的视觉内容。
[0058] 在一些实施例中,确定模块705被配置为对各个预测视频的视频帧的初始特征图进行归一化处理,得到各个预测视频的视频帧的归一化特征图;对各个预测视频的视频帧的目标归一化特征图进行线性化处理,得到各个预测视频的视频帧的线性化处理结果;对各个预测视频的视频帧的线性化处理结果进行特征图进行重塑,得到各个预测视频的视频帧的目标特征图。
[0059] 在一些实施例中,多层感知机包括第一时序信息混合层、第一空间信息混合层、第二时序信息混合层和第二空间信息混合层,扩散模块704被配置为根据各个多层感知机的第一时序信息混合层,对上一个多层感知机的输出结果或各个训练视频的训练视频帧的特征图与各个时间步的特征图进行时序信息融合处理,得到各个多层感知机的第一时序信息混合层的处理结果;根据各个多层感知机的第一空间信息混合层,对各个多层感知机的第一时序信息混合层的处理结果与各个训练视频的训练视频帧的特征图进行空间信息融合处理,得到各个多层感知机的第一空间信息混合层的处理结果;根据各个多层感知机的第二时序信息混合层,对各个多层感知机的第一空间信息混合层的处理结果与各个时间步的特征图进行时序信息融合处理,得到各个多层感知机的第二时序信息混合层的处理结果;根据各个多层感知机的第二空间信息混合层,对各个多层感知机的第二时序信息混合层的处理结果与各个训练视频的训练视频帧的特征图进行空间信息融合处理,得到各个多层感知机的输出结果,将最后一个多层感知机的输出结果确定为各个预测视频的视频帧的初始特征图。
[0060] 在一些实施例中,扩散模块704被配置为对各个多层感知机的第一时序信息混合层的处理结果和各个训练视频的训练视频帧的特征图进行相加,得到各个训练视频的训练视频帧的第一融合特征图;对各个训练视频的训练视频帧的第一融合特征图进行归一化处理,得到各个训练视频的训练视频帧的第一归一化特征图;对各个训练视频的训练视频帧的第一归一化特征图进行非线性变换,得到各个训练视频的训练视频帧的第一非线性处理结果;对各个训练视频的训练视频帧的第一非线性处理结果和各个训练视频的训练视频帧的特征图进行相加,得到各个训练视频的训练视频帧的第二融合特征图;对各个训练视频的训练视频帧的第二融合特征图进行归一化处理,得到各个训练视频的训练视频帧的第二归一化特征图;对各个训练视频的训练视频帧的第二归一化特征图进行非线性变换,得到各个多层感知机的第一空间信息混合层的处理结果。
[0061] 在一些实施例中,扩散模块704被配置为对各个多层感知机的第一空间信息混合层的处理结果和各个时间步的特征图进行相加,得到各个训练视频的训练视频帧的第三融合特征图;对各个训练视频的训练视频帧的第三融合特征图进行归一化处理,得到各个训练视频的训练视频帧的第三归一化特征图;对各个训练视频的训练视频帧的第三归一化特征图进行非线性变换,得到各个训练视频的训练视频帧的第二非线性处理结果;对各个训练视频的训练视频帧的第二非线性处理结果和各个时间步的特征图进行相加,得到各个训练视频的训练视频帧的第四融合特征图;对各个训练视频的训练视频帧的第四融合特征图进行归一化处理,得到各个训练视频的训练视频帧的第四归一化特征图;对各个训练视频的训练视频帧的第四归一化特征图进行非线性变换,得到各个多层感知机的第二时序信息混合层的处理结果。
[0062] 在一些实施例中,并根据损失值更新视频生成模型的参数之后,视频生成模型的训练装置被配置为获取描述文本和多个噪声图;将描述文本和各个噪声图输入视频生成模型,对描述文本进行特征嵌入,得到描述文本的特征图,对各个噪声图进行特征嵌入,得到各个噪声图的特征图,以及对视频生成模型的多个时间步进行特征嵌入,得到各个时间步的特征图;将各个时间步的特征图、描述文本的特征图和各个时间步的特征图输入视频生成模型的各个多层感知机,基于各个多层感知机对各个噪声图的特征图、各个时间步的特征图和描述文本的特征图进行多次迭代扩散处理,得到包含时序关系的目标视频的多个视频帧的初始特征图;根据目标视频的各个视频帧的初始特征图,确定目标视频的多个视频帧的特征图;对目标视频的多个视频帧的特征图进行解码处理,得到目标视频。
[0063] 在一些实施例中,视频生成模型的训练装置被配置为将目标视频的多个视频帧的特征图输入解码器,基于解码器对目标视频的各个视频帧的特征图进行解码处理,得到目标视频的各个视频帧;基于目标视频的各个视频帧之间的时序关系对目标视频的各个视频帧进行排列,生成目标视频。
[0064] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
[0065] 图8是本申请实施例提供的电子设备8的示意图。如图8所示,该实施例的电子设备8包括:处理器801、存储器802以及存储在该存储器802中并且可在处理器801上运行的计算机程序803。处理器801执行计算机程序803时实现上述各个方法实施例中的步骤。或者,处理器801执行计算机程序803时实现上述各装置实施例中各模块/单元的功能。
[0066] 电子设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备8可以包括但不仅限于处理器801和存储器802。本领域技术人员可以理解,图8仅仅是电子设备8的示例,并不构成对电子设备8的限定,可以包括比图示更多或更少的部件,或者不同的部件。
[0067] 处理器801可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field‑Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0068] 存储器802可以是电子设备8的内部存储单元,例如,电子设备8的硬盘或内存。存储器802也可以是电子设备8的外部存储设备,例如,电子设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器802还可以既包括电子设备8的内部存储单元也包括外部存储设备。存储器802用于存储计算机程序以及电子设备所需的其它程序和数据。
[0069] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0070] 集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质(例如计算机可读存储介质)中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。
[0071] 以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

当前第1页 第1页 第2页 第3页