特征提取 [0001] 相关申请的交叉引用 [0002] 本申请要求于2022年4月19日提交的题为“特征提取”的第17/724140号美国专利申请的优先权,该申请通过引用整体并入本文。 [0003] 领域 [0004] 本公开一般涉及特征提取,更具体地,涉及用于从多媒体数据中提取特征的方法、设备和计算机程序产品。 背景技术 [0005] 目前,机器学习技术已广泛应用于数据处理中。例如在数据推荐领域中,数据可能涉及诸如:文本、图像、音频等多种媒体类型。已经提出了从具有单一类型(诸如:文本数据或图像数据)的数据提取特征的解决方案,然而,这些解决方案不能有效地处理多媒体数据。在这一点上,如何从多媒体数据中提取特征成为人们关注的热点。 发明内容 [0006] 在本公开的第一方面中,提供了一种用于提取多媒体数据的特征的方法,多媒体数据包括多个媒体类型。在该方法中,通过遮蔽具有多个媒体类型中的第一媒体类型的第一媒体对象中的一部分,第一媒体类型的第一特征被确定。多个媒体类型中除第一媒体类型之外的第二媒体类型的第二特征被确定。基于第一特征和第二特征,多媒体数据的特征被生成。 [0007] 在本公开的第二方面中,提供了一种电子设备。电子设备包括:耦合到计算机可读存储器单元的计算机处理器,存储器单元包括指令,指令在由计算机处理器执行时实现根据本公开的第一方面的方法。 [0008] 在本公开的第三方面中,提供了一种计算机程序产品,计算机程序产品包括计算机可读存储介质,存储介质具有具体化的程序指令,程序指令可由电子设备执行以使电子设备执行根据本公开的第一方面的方法。 [0009] 提供本发明内容是为了以简化的形式介绍以下在具体实施方式中进一步描述的一系列概念。本发明内容不旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护主题的范围。 附图说明 [0010] 通过附图中对本公开的一些实施方式的更详细描述,本公开的上述和其他目的、特征和优点将变得更加明显,其中相同的附图标记通常指代本公开的实施方式中的相同组件。 [0011] 图1示出了根据机器学习技术提取特征的示例环境; [0012] 图2示出了根据本公开的实施方式可以处理的多媒体数据的示例图; [0013] 图3示出了根据本公开的实施方式的用于从多媒体数据中提取特征的示例图; [0014] 图4A示出了根据本公开的实施方式的用于处理包括在多媒体数据中的文本对象的示例图; [0015] 图4B示出了根据本公开的实施方式的用于处理包括在多媒体数据中的多个文本对象的示例图; [0016] 图5A示出了根据本公开的实施方式的用于基于多个特征生成多媒体特征的示例图; [0017] 图5B示出了根据本公开的实施方式的用于基于多个加权特征生成多媒体特征的示例图; [0018] 图6A示出了根据本公开的实施方式的基于滑动窗口进行图像分割的示例图; [0019] 图6B示出了根据本公开的实施方式的基于内容识别进行图像分割的示例图; [0020] 图7示出了根据本公开的实施方式的用于处理包括在多媒体数据中的图像序列的示例图; [0021] 图8示出了根据本公开的实施方式的用于处理包括在多媒体数据中的音频对象的示例图; [0022] 图9A‑9C示出了根据本公开的实施方式的特征提取中的各个步骤的示例图; [0023] 图10示出了根据本公开的实施方式的用于从多媒体数据中提取特征的方法的示例流程图;以及 [0024] 图11示出了其中可以实现本公开的各种实现的计算设备的框图。 具体实施方式 [0025] 现在将参考一些实现来描述本公开的原理。应当理解,描述这些实施方式仅仅是为了说明的目的,并且有助于本领域技术人员理解和实施本公开,而不对本公开的范围提出任何限制。本文所描述的公开可以以不同于以下所描述的方式的各种方式来实现。 [0026] 在以下描述和权利要求中,除非另有定义,否则本文中使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。 [0027] 在本公开中,对“一个实现”、“一个实施方式”、“示例实施方式”等的引用指示所描述的实施方式可以包括特定的特征、结构或特性,但不一定每个实施方式都包括特定的特征、结构或特性。此外,这些短语不一定指的是相同的实现方式。此外,当结合示例实现来描述特定的特征、结构或特性时,认为在本领域技术人员的知识范围内,无论特征、结构、或特性,结合其他实现,是否明确地描述。 [0028] 应当理解,尽管术语“第一”和“第二”等可以在本文中用于描述各种元件,但是这些元件不应当受到这些术语的限制。这些术语仅用于将一个元件与另一个元件区分开来。 例如,在不脱离示例实现的范围的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称作第一元件。如本文所用,术语“和/或”包括一个或多个所列术语的任何和所有组合。 [0029] 此处使用的术语仅出于描述特定实现的目的,而不旨在限制示例实现。如本文所用,除非上下文另有明确指示,否则单数形式“一”、“一个”和“该”也应包括复数形式。将进一步理解的是,术语“包括”、“包含”、“具有”、“有”、“含有”和/或“囊括”在本文中使用时,指定特征、元件和/或组件等的存在,但不排除一个或多个其他特征、元件、组件和/或其组合的存在或添加。 [0030] 应当理解,在应用本公开的实施方式中公开的技术方案之前,应当根据相关法律法规以适当的方式向用户通知本公开所涉及的项目,并获得用户授权。这些项目包括个人信息的类型、应用范围和应用场景等。 [0031] 现在将参考一些实现来描述本公开的原理。应当理解,描述这些实施方式仅仅是为了说明的目的,并且有助于本领域技术人员理解和实施本公开,而不对本公开的范围提出任何限制。本文所描述的公开可以以不同于以下所描述的方式的各种方式来实现。在以下描述和权利要求中,除非另有定义,否则本文中使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。 [0032] 为了便于描述,以下段落将以推荐环境为例提供更多细节。在推荐环境中,可以向用户显示各种数据。有时,用户对其中一些感兴趣,然后提供积极的反馈(例如“点赞”动作)。如果用户对某些数据不感兴趣,他/她会提供负面反馈(例如“不喜欢”动作)。这里,应该从反馈和/或其他用户信息中删除敏感信息。对于具有单一类型的显示数据,机器学习技术可以提取用于特定目的的特征(例如,嵌入)。在下文中,将参考图1了解有关特征提取的更多细节,这里,图1示出了根据机器学习技术提取特征的示例环境100。 [0033] 在图1中,可以为特征提取提供提取模型130。这里,环境100包括训练系统150和提取系统152。图1的上部示出了训练阶段,下部示出了应用阶段。在训练阶段之前,提取模型 130可以配置有未经训练或部分训练的参数(例如初始参数或预训练的参数)。在训练阶段,可以基于包括多个训练数据112的训练数据集110在训练系统150中训练提取模型130。这里,每个训练数据112可以具有二元组格式,并且可以包括数据120(例如,显示给用户的数据)和用户反馈122。具体地,可以使用大量的训练数据112来迭代地执行训练阶段。在训练阶段之后,可以更新和优化提取模型130的参数,并且可以获得具有经训练的参数的提取模型130’。在这一点上,提取模型130’可以用于实现应用阶段的提取任务。例如,可以将待处理的数据140输入到提取系统152中,然后可以提取相应的特征144。 [0034] 在图1中,模型训练系统150和模型应用系统152可以包括任何具有计算能力的计算系统,如各种计算设备/系统、终端设备、服务器等。终端设备可以包括任何类型的移动设备、固定终端或便携式设备,包括移动电话、台式计算机、膝上型计算机、笔记本电脑、上网本计算机、平板电脑、媒体计算机、多媒体平板电脑或上述任何组合,包括这些设备的附件和外围设备或其任何组合。服务器可以包括但不限于大型机、边缘计算节点、云环境中的计算设备等。应该理解,图1中的环境100中的组件和布置仅为示例,适合实现本公开中描述的示例实现的计算系统可以包括一个或多个不同的组件和其他组件。例如,训练系统150和提取系统152可以集成在同一系统或设备中。 [0035] 如图1所示,已经提出了用于提取单一媒体类型的特征的解决方案。然而,随着各种数据类型的丰富,涉及多种媒体类型的多媒体数据变得流行起来。因此,现有的特征提取解决方案不能有效地处理多媒体数据,并且提取的特征不能完全反映多媒体数据的各个方面。 [0036] 鉴于上述情况,本公开提出了一种特征提取解决方案。在所提出的解决方案中,可以从多媒体数据中提取多媒体特征,并且在提取过程中可以考虑包括在多媒体数据中的各种媒体类型。关于多媒体数据的更多细节将参考图2,此处,图2示出了可以根据本公开的实施方式处理的多媒体数据的示例图200。如图2所示,多媒体数据240可以包括诸如文本类型、图像类型、音频类型等的多种媒体类型。具体地,对于特定的媒体类型,可以存在一个或多个媒体对象。例如,多媒体数据240可以包括具有文本类型的三个文本对象:文本对象 210‑1、文本对象210‑2和文本对象210‑3(统称为文本对象210)。此外,多媒体数据240可以包括具有图像类型的图像对象220和具有音频类型的音频对象230。通过本公开的实施方式,可以在提取过程中处理相应的媒体类型,并且因此提取的特征可以包括关于多媒体数据240的准确特性信息。 [0037] 参见图3,以获得对本公开的实施方式的简要描述。图3示出了根据本公开的实施方式的用于从多媒体数据中提取特征的示例图300。在图3中,可以在提取过程中处理不同类型的媒体对象。具体地,可以从包括在多媒体数据240中的多个媒体类型中选择第一媒体类型(例如文本类型)和第二媒体类型(诸如图像类型和音频类型中的任何一种)。此处,第一媒体类型和第二媒体类型应该是不同的。 [0038] 如图3所示,提取模型310可用于处理多种媒体类型,并从多媒体数据240中提取多媒体特征320。在本公开的实施方式中,提取模型310可以包括用于处理相应媒体类型的相应模块。此处,每个模块可以描述特征和特定媒体类型的媒体对象之间的关联关系。例如,文本特征提取模块312可以描述文本特征与文本对象之间的关联关系,图像特征提取模块 314可以描述图像特征和图像对象之间的关联关系,音频特征提取模块316可以描述音频特征和音频对象之间的关联关系。 [0039] 此处,可以通过基于历史训练数据的预训练的机器学习模型通过最小化损失来实现上述提取模块。需要理解的是,本公开涉及的数据(包括但不限于数据本身、数据的获取或使用)应当符合相应的法律法规和相关要求。此处,历史训练数据可以包括显示给用户的多媒体数据和来自用户的展示用户是否喜欢多媒体数据的反馈330。例如,“点赞”动作表示用户喜欢该多媒体数据,“不喜欢”动作表示该用户不喜欢该多媒体数据,左滑动动作也表示该用户对该多媒体数据感兴趣并希望了解更多信息。应当理解,应当从训练数据中去除敏感信息。例如,用户信息和/或反馈应该被转换成嵌入并变得不可见。在本公开的实施方式中,可以基于新接收的训练数据进一步迭代地优化上述提取模块。 [0040] 如图3所示,相应提取模块可以用于处理相应对象。例如,文本对象210可以被输入到用于提取文本特征322的文本特征提取模块312中,图像对象220可以被输入到用于提取图像特征324的图像特征提取模块314,并且音频对象230可以被输入到用于提取音频特征 326的音频特征提取模块316中。尽管如图3所示的多媒体数据240包括三种媒体类型,但其他多媒体数据可以包括更多或更少的媒体类型。例如,多媒体数据240可以仅包括文本类型和图像类型。 [0041] 此外,文本特征322、图像特征324和音频特征326可以用于生成多媒体特征320。在本公开的实施方式中,上述三个特征可以被联接以生成多媒体特征320。备选地和/或附加地,可以提供注意力模块318用于估计相应媒体类型的相应权重,然后可以将加权的特征联接以生成多媒体特征320。此处,注意力模块318也可以通过预训练的机器学习模型来实现。 [0042] 通过这些实现,可以在多媒体特征320中考虑各种媒体对象,并且因此多媒体特征 320可以完全反映多媒体数据240的各个方面,然后可以以准确和有效的方式表示多媒体数据240。此外,基于准确的多媒体特征320,可以以更准确的方式处理多媒体数据240。例如,可以向用户推荐准确地吸引用户注意力的多媒体数据。 [0043] 在本公开的实施方式中,可以以各种方式选择第一媒体类型和第二媒体类型。例如,可以随机选择第一媒体类型,并且可以选择除了第一媒体类型之外的另一媒体类型作为第二媒体类型。备选地和/或附加地,可以选择提供更多信息的媒体类型作为第一媒体类型。例如,如果文本对象210包括大量字,而图像对象220仅包括简单图案,则文本类型可以被选择为第一媒体类型。一旦确定了第一媒体类型,就可以分别确定第一和第二媒体类型的特征。具体地,通过遮蔽操作为第一媒体类型确定第一特征,并且为第二媒体类型直接确定第二特征。 [0044] 下文中,将参考图4A描述有关遮蔽操作的更多细节。图4示出了根据本公开的实施方式的用于处理包括在多媒体数据240中的文本对象210‑1的示例图400A。如图4A所示,可以选择文本类型作为第一媒体类型,然后可以解析文本对象210‑1,并且可以在一轮或多轮中遮蔽字。在一些实现中,轮次的数量可以基于文本对象中包括的字的数目来确定。如图所示,在第1轮中,文本对象210‑1中的第一个词“咖啡”可以被遮蔽并用预定义的标记(例如“@@”或另一个字符串)替换。在一些实现中,标记的长度可以基于被遮蔽的字的长度来决定。备选地和/或附加地,标记可以被设置为预定义的长度。在这一点上,可以将不包括被遮蔽的字的被遮蔽的对象410输入到文本特征提取模块312,然后文本特征提取模块312可以输出被遮蔽的对象410的中间特征。在本公开的实施方式中,掩码340可以像滑动窗口一样沿着文本对象210‑1移动,以覆盖第二个词“15”。 [0045] 在第2轮中,第二个词“15”可以被遮蔽并替换为预定义的标记,然后不包括被遮蔽的字的被遮蔽的对象412可以被输入到文本特征提取模块312。在这一点上,可以为被遮蔽的对象412输出另一中间特征。所有轮次的细节可以是相似的,并且在最后一轮N中,可以为被遮蔽的对象414输出进一步的中间特征。接下来,可以基于所有上述中间特征来生成文本特征322。例如,可以对这些中间特征执行诸如加权求和、平均等的操作,以生成文本特征 322。利用这些实现方式,可以在检测到文本对象中的字与提取的多媒体特征320之间的深层关系时促进遮蔽操作。因此,特征提取准确性和性能级别可以增加。 [0046] 在本公开的实施方式中,如果多媒体数据240包括多个文本对象,则可以将多个文本目标联接起来以形成文本字符串。图4B示出了根据本公开的实现方式的用于处理多媒体数据中包括的多个文本对象的示例图400B。如图4B所示,可以从文本对象210‑1、210‑2和 210‑3生成文本字符串410。在一些实施方式中,可以将上述文本对象中的文本联接起来以生成文本字符串410,并且可以通过预定的分隔符(例如“;”或其他字符)来分隔不同文本对象中的文本。此外,可以以与图4A所示相同的方式处理文本字符串420中的字,以生成所有文本对象210的文本特征322。通过本公开的实施方式,可以通过在相应回合中遮蔽相应单词来以准确的方式生成文本特征。 [0047] 在本公开的一些实施方式中,文本特征提取模块312可以用预训练的机器学习模型来构建。例如,双向编码器表征法(BERT)模型或具有预定义参数的另一语言模型可以用作文本特征提取模块312。此外,本公开的实现允许利用进一步的训练数据集来优化BERT模型。例如,可以在提取过程中优化BERT模型中的预定义参数,使得经优化的BERT模型可以以更准确的方式描述关联关系。具体地,可以输入新的多媒体数据,然后提取模型310可以提取相应的特征。此外,在接收到对新多媒体数据的反馈时,新多媒体数据和反馈可以作为用于优化文本特征提取模块312的新训练数据。通过本公开的实施方式,可以以连续的方式优化提取模型310中的模块。 [0048] 回到并参考图3,以了解有关生成第二媒体类型的第二特征的更多细节。在图3中,一旦文本类型被选择为第一媒体类型,图像类型和音频类型中的一个或多个可以作为第二媒体类型。与用于仅从一种媒体类型提取特征的常规解决方案相比,本公开的实施方式可以考虑更多媒体类型的贡献,并且因此多媒体特征320可以在多媒体数据240中全面反映来自各种媒体类型的贡献。 [0049] 假设图像类型被选择为第二媒体类型,图像对象220可以直接输入到图像特征提取模块314。在本公开的一些实施方式中图像特征提取模块314可以基于预训练的机器学习模型来实现。例如,残差网络(ResNet)模型或具有预定义参数的另一图像处理模型可以作为图像特征提取模块314。一旦获得图像特征提取模块314,其可以输出图像对象220的图像特征324。在这一点上,可以基于第一和第二特征(即,文本特征322和图像特征324)生成多媒体数据特征320。此外,本公开允许以迭代的方式进一步优化ResNet模型。例如,可以优化ResNet模型中的预定义参数,使得经优化的ResNet模型可以以更准确的方式描述图像特征和图像对象之间的关联关系。 [0050] 在本公开的实施方式中,第二媒体类型可以包括音频类型,然后音频对象230可以被直接输入到音频特征提取模块316中。在本公开的一些实现中,音频特征提取模块316可以基于预训练的机器学习模型来实现。例如,梅尔频率倒谱系数(MFCC)模型或具有预定参数的另一音频处理模型可以用作音频特征提取模块316。一旦获得音频特征提取模块316,它就可以输出输入的音频对象230的音频特征326。此处,可以基于文本特征322和音频特征 326来生成多媒体特征320。此外,本公开允许以迭代的方式进一步优化MFCC模型。例如,可以优化MFCC模型中的预定义参数,使得经优化的MFCC模型可以以更精确的方式描述音频特征和音频对象之间的关联关系。 [0051] 在本公开的一些实施方式中,第二媒体类型可以包括一种以上的媒体类型(例如图像类型和音频类型两者)。此时,可以基于文本特征322、图像特征324和音频特征326生成多媒体特征320。基于以上,在生成多媒体特征320时使用了所有的媒体类型,并且准确性和性能级别可以进一步增加。 [0052] 在描述了关于提取文本特征322、图像特征324和音频特征326的细节之后,将参考图5A和5B为多媒体数据240生成多媒体特征320。图5A示出了根据本公开的实施方式的用于基于多个特征生成多媒体特征的示例图500A。如图5A所示,多媒体特征320可以基于文本特征322、图像特征324和音频特征326确定。这里,文本特征322、图像特征324和音频特征326可以具有相同或不同的维度。例如,文本特征322可以由128维(或不同格式)的矢量表示,并且图像特征324和音频特征326可以由512维(或不同的格式)的矢量表示。 [0053] 通过本公开的实施方式,在确定多媒体特征320时使用所有上述三种媒体类型。与用于从单个媒体类型提取特征的常规解决方案相比,这些实现方式可以充分利用包括在多媒体数据240中的每个媒体类型。因此,可以有效地进行特征提取。 [0054] 通常,来自多个媒体类型的贡献并不总是相同的,由此可以在确定多媒体特征320时对多个媒体类型的特征进行加权。图5B示出了根据本公开的实施方式的用于基于多个加权特征生成多媒体特征的示例图500B。如图5B所示,注意力模块318可用于确定多种媒体类型的相应权重。这里,注意力模块318可以基于预训练的模型来实现,该模型描述了媒体类型的特征与该特征的权重之间的关联关系。例如,注意力模块318可以基于一组训练数据来训练,其中每个训练数据包括显示给用户的历史多媒体数据和来自用户的反馈。 [0055] 注意力模块318可以输出用于相应媒体类型的相应权重:针对文本类型的文本权重522、针对图像类型的图像权重524以及针对音频类型的音频权重526。此外,文本特征 322、图像特征324和音频特征326可以进行加权以分别确定加权文本特征512,加权图像特征514和加权音频特征516。在这一点上,多媒体特征320可以基于加权文本特征512、加权图像特征514和加权音频特征516的联接来生成。利用本公开的实施方式,该实施方式考虑了每种媒体类型的贡献程度,并且特征提取的精度和性能级别可以进一步提高。 [0056] 此外,本公开的实现允许利用进一步的训练数据集来优化注意力模块318。例如,可以在提取过程中优化注意力模块318中的预定义参数,使得经优化的注意力模块318可以以更准确的方式描述关联关系。具体地,可以输入新的多媒体数据,然后可以由注意力模型 318提取对应的权重。此外,在接收到对新多媒体数据的反馈时,新多媒体数据和反馈可以用作优化注意力模型318的新训练数据。通过本公开的实施方式,可以以连续的方式优化提取模型310中的模块。 [0057] 前面的段落已经描述了当文本类型被选择为第一媒体类型时关于特征提取的细节。在本公开的实施方式中图像类型以及音频类型可以被选择为第一媒体类型。以下,将参考图6A‑6B和图7了解有关通过遮蔽操作生成图像特征的更多信息。图6A示出了根据本公开的实施方式的用于基于滑动窗口的图像分割的示例图。在图6A中图像类型被选择为第一媒体类型,然后图像对象220可以在遮蔽操作中被划分为多个图像块。例如图像块可以具有 16*16像素的预定义尺寸(或其他尺寸)。在另一个示例中可以基于图像对象220的复杂程度来确定图像块的尺寸。如果图像对象220包括复杂图案,图像块可以具有更大的尺寸,例如 32*32个像素。如果图像对象220包括简单的图案,图像块可以具有较小的尺寸,例如16*16像素。 [0058] 如图6A所示,覆盖图像块的掩码可以在图像对象220中移动。图像对象220可以分几轮处理,并且掩码可以在每一轮移动到下一图像块。具体地,掩码可以第1轮中覆盖图像对象220中的第一图像块。在这一点上,第一图像块可以替换为预定义的图像块(如白色图像块,或具有另一种颜色的图像块)。此外,没有第一图像块的被遮蔽的图像对象可以输入到图像特征提取模块314,然后可以输出被遮蔽的图像对象的中间特征。在第2轮中,掩码可以滑动到第二图像块,然后可以为没有第二图像块的被遮蔽的图像对象生成对应的中间特征。掩码可以在图像对象220中滑动,直到它到达最后一个图像块,然后可以为没有最后一图像块的被遮蔽的图像对象生成对应的中间特征。此外,所有这些中间特征都可以用于生成图像特征324,其方式与生成文本特征322所描述的方式类似。利用这些实现方式,在检测到图像对象中的图像块与多媒体特征320之间的深度关联关系时可以促进遮蔽操作。因此,特征提取的准确性和性能级别可以增加。 [0059] 此外,本公开的实施方式允许利用进一步的训练数据集来优化图像特征提取模块 314。例如,可以在提取过程中优化模块中的参数,使得经优化的模块可以以更准确的方式描述关联关系。具体地,可以输入新的多媒体数据,然后提取模型310可以提取对应的特征。 此外,在接收到对新多媒体数据的反馈时,新多媒体数据和反馈可以作为新训练数据来优化图像特征提取模块314。通过本公开的实施方式,可以以连续的方式优化提取模型310中的模块。 [0060] 在本公开的一些实施方式中可以识别图像对象220的内容以用于识别图像对象 220中的潜在的兴趣区域。图6B示出了根据本公开的实施方式的基于内容识别的图像分割的示意图。如图6B所示,基于内容识别来识别覆盖饮料名称的图像块620。此外,还识别了覆盖饮料的标志的另一图像块622。基于类似的过程,诸如背景之类的另一图像块可以从图像对象220中识别。不同于基于滑动窗口获得的图像块,从内容识别中导出的图像块可能具有不同的尺寸,并且因此可以分别使用具有不同尺寸的掩码来遮蔽这些图像块620和622。此外,取决于从图像对象220中识别的图像块的数目,可以实现一轮或多轮遮蔽操作以生成图像特征324。备选地和/或附加地,图6A和6B所示的过程可以组合并用于生成图像特征324。 [0061] 在本公开的一些实施方式中,多媒体数据240可以包括图像序列(如视频),因此在特征提取过程中单独的图像可以从图像序列中提取。图7示出了根据本公开的实施方式的用于处理包括在多媒体数据240中的图像序列的示例图。如图7所示,多媒体数据240可以包括分别在不同时间点T0、…、Tn处的图像对象220、…、710。每个图像对象可以被提取,然后按照图6A和/或图6B所示的过程来生成图像特征。 [0062] 应当理解,在多媒体数据240包括覆盖时间段的图像序列时,可以在不同的时间点提供用户反馈。换言之,当明显的图像在该时间段内显示时,用户可以提供积极/消极的反馈。在图7中图像对象220可以在时间点T0显示,并且用户可以继续观看并且不提供反馈。随着播放的继续,越来越多图像对象被显示时,用户可以在时间点Tn看到“无糖”的标语时点击“点赞”按钮。在这种情况下图像对象710触发用户反馈,并且因此特征提取可以在多媒体数据240的播放期间考虑不同的时间点。通过这些实现,当考虑时间因素时,可以以更精确的方式提取特征。 [0063] 此外,本公开允许进一步优化图像特征提取模块314。例如,在提取阶段,如果图像对象在特定时间点Ti触发“喜欢/不喜欢”反馈,图像对象和时间点Ti处的反馈可以用作训练数据来优化图像特征提取模块314。通过这些实现,图像特征提取模块314可以被连续迭代地优化,从而提供更准确的图像特征。 [0064] 在本公开的实施方式中,音频类型可以被选择为第一媒体类型,关于音频对象230的特征提取的细节将参考图8。图8示出了根据本公开的实施方式的用于处理包括在多媒体数据240中的音频对象230的示例图800。通常,音频对象230可以包括各种类型的内容。例如,可能有介绍咖啡的语音以及背景音乐,因此这些内容可能经过不同的过程。如图8所示,可以对音频对象230实现内容分析,从而可以从音频对象230中识别语音810和背景音820。 通过本公开的实现,可以识别各种类型的内容,然后进行对应的提取过程。因此,在提取音频特征326时可以考虑更多方面,使得多媒体特征320可以以更精确的方式完全反映多媒体数据240。 [0065] 一旦确定了内容,就可以基于自动语音识别(ASR)技术来处理语音810,以获得相应的文本字符串812。然后,文本字符串812也可以被视为文本对象,并且文本字符串812中的字可以在一轮或多轮中被遮蔽以用于特征提取。在这一点上,可以从语音810中提取音频分量814。关于背景音820,可以为背景音820确定波形822,然后可以根据预定义的窗口尺寸(例如500ms或另一持续时间)将波形822划分为多个片段。此外,掩码830可以沿着波形822(在方向832上)滑动,以在每一轮中遮蔽对应的片段。被遮蔽的波形可以被输入到音频特征提取模块316,以在每一轮中提取中间音频特征。在几轮处理之后,可以从背景音820中提取音频分量824。利用这些实现方式,可以在检测音频对象中的片段与提取的多媒体特征320之间的深层关系时促进遮蔽操作。因此,特征提取准确性和性能级别可以增加。 [0066] 此外,本公开的实现允许利用进一步的训练数据集来优化音频特征提取模块316。 例如,可以在提取过程中优化模块中的预定义参数,使得经优化的模块可以以更准确的方式描述关联关系。具体地,可以输入新多媒体数据,然后提取模型310可以提取对应的特征。 此外,当接收到对新多媒体数据的反馈时,新多媒体数据和反馈可以作为用于优化音频特征提取模块316的新训练数据。通过本公开的实施方式,可以以连续的方式优化提取模型 310中的模块。 [0067] 在本公开的实施方式中,上述两个音频分量814和824可以用于生成音频特征326。 有时,如果音频对象230仅包括一种内容类型,则所获得的音频分量可以直接用作音频特征 326。通过本公开的实现,在特征提取中考虑音频对象230中的所有内容,然后特征提取的准确性和性能级别可以增加。 [0068] 在描述了关于特征提取的各个步骤的细节之后,以下段落将提供用于通过使用经良好训练的提取模型310从目标多媒体数据提取多媒体特征的示例过程。在本公开的实施方式中,可以通过选择不同的媒体类型作为第一媒体类型来多次实现上述提取过程。 [0069] 参考特征提取中的多个步骤的图9A‑9C,这里图9A‑9C示出了根据本公开的实施方式的用于提取多媒体特征的各个步骤的示例图900A‑900C。参考图9A,多媒体数据910包括文本对象912、图像对象914和音频对象916。这里,特征提取可以包括三个步骤,其中在每个步骤中可以选择单个媒体作为第一媒体类型。在每个步骤中,可以为所选择的第一媒体类型生成对应的特征,然后在多个步骤中生成的多个特征可以用于确定多媒体数据910的最终多媒体特征。 [0070] 如图9A所示,可以选择文本媒体类型作为第一媒体类型,因此可以将掩码920A应用于文本对象912。基于如上的提取过程,可以从提取模型310获得多媒体特征930A。类似地,在图9B中,可以选择文本媒体类型作为第一媒体类型,并且可以将掩码920B应用于图像对象914。然后,可以从提取模型310获得多媒体特征930B。在图9C中,可以选择音频媒体类型作为第一媒体类型,并且可以将掩码920C应用于音频对象916。然后,可以从提取模型310获得多媒体特征930C。此外,可以基于多媒体特征930A、930B和930C来生成最终的多媒体特征。通过本公开的实现,每个步骤可以基于单个媒体类型,然后最终的多媒体特征可以包括来自每个媒体类型的全部贡献。 [0071] 尽管在推荐环境中描述了本公开的实施方式,但是可以在其他环境中使用实施方式。例如,在分类环境中,可以从多媒体数据中提取特征,然后可以将多媒体数据分类为各种集群,例如运动、旅行、娱乐等等。 [0072] 以上段落已经描述了特征提取的细节。根据本公开的实施方式,提供了一种用于提取多媒体数据的特征的方法。关于该方法的更多细节将参考图10,其中图10示出了根据本公开的实施方式的用于提取多媒体数据的特征的方法1000的示例流程图。这里,多媒体数据包括多种媒体类型。在框1010,通过遮蔽具有多个媒体类型中的第一媒体类型的第一媒体对象中的一部分,确定第一媒体类型的第一特征。在框1020,确定多个媒体类型中除第一媒体类型之外的第二媒体类型的第二特征。在框1030,基于第一特征和第二特征,生成多媒体数据的特征。 [0073] 在本公开的实施方式中,为了确定第一特征,从第一媒体对象中选择该部分,并且基于提取模块和被遮蔽的第一媒体对象来生成第一特征,提取模块描述特征和具有第一媒体类型的媒体对象之间的关联关系。 [0074] 在本公开的实施方式中,为了从第一媒体对象中选择该部分,响应于确定第一媒体类型是文本类型,基于滑动窗口从第一媒体对象中选择字。 [0075] 在本公开的实施方式中,为了从第一媒体对象中选择部分,响应于确定第一媒体类型是图像类型,基于以下中的任一项从第一媒体对象中选择图像块:在第一媒体对象中滑动的窗口;以及第一媒体对象中被识别的图像区域。 [0076] 在本公开的实施方式中,第一媒体对象是从包括在多媒体数据中的图像序列中被提取的。 [0077] 在本公开的实施方式中,为了从第一媒体对象中选择该部分,响应于确定第一媒体类型是音频类型,通过对第一媒体对象的内容分析,确定第一媒体对象的内容;以及基于内容从第一媒体对象中选择部分。 [0078] 在本公开的实施方式中,为了从第一媒体对象中选择该部分,响应于确定第一媒体类型包括语音,将语音转换为文本对象;然后选择文本对象中的字。 [0079] 在本公开的实施方式中,为了从第一媒体对象中选择该部分,响应于确定第一媒体类型包括背景音频,选择背景音频的波形中的片段。 [0080] 在本公开的实施方式中,为了生成多媒体数据的特征,基于注意力模块以及第一特征和第二特征,分别确定第一特征的第一权重和第二特征的第二权重,注意力模块描述相应媒体类型的相应特征与相应特征的相应权重之间的关联关系。此外,基于第一权重和第二权重以及第一特征和第二特征,生成特征。 [0081] 在本公开的实施方式中,确定多个媒体类型中除第一媒体类型和第二媒体类型之外的第三媒体类型的第三特征,并且基于第三特征生成媒体数据的特征。 [0082] 在本公开的实施方式中,通过遮蔽具有多个媒体类型中的第四媒体类型的第四媒体对象中的一部分,确定第四媒体类型的第四特征。确定多个媒体类型中除第四媒体类型之外的第五媒体类型的第五特征。基于第四特征和第五特征,生成多媒体数据的特征。 [0083] 根据本公开的实施方式,提供了一种用于提取多媒体数据的特征的装置,多媒体数据包括多个媒体类型。该装置包括:第一确定单元,被配置为通过遮蔽具有多个媒体类型中的第一媒体类型的第一媒体对象中的一部分,确定第一媒体类型的第一特征;第二确定单元,被配置为确定多个媒体类型中除第一媒体类型之外的第二媒体类型的第二特征;以及生成单元,被配置为基于第一特征和第二特征,生成多媒体数据的特征。此外,该装置可以包括用于实现方法1000中的其他步骤的其他单元。 [0084] 根据本公开的实现方式,提供了一种用于实现方法1000的电子设备。电子设备包括:耦合到计算机可读存储器单元的计算机处理器,存储器单元包括指令,指令在由计算机处理器执行时实现提取多媒体数据的特征的方法,多媒体数据包括多种媒体类型。该方法包括:通过遮蔽具有多个媒体类型中的第一媒体类型的第一媒体对象中的一部分,确定第一媒体类型的第一特征;确定多个媒体类型中除第一媒体类型之外的第二媒体类型的第二特征;以及基于第一特征和第二特征,生成多媒体数据的特征。 [0085] 在本公开的实施方式中,确定第一特征包括:从第一媒体对象中选择部分;以及基于提取模块和被遮蔽的第一媒体对象,生成第一特征,提取模块描述特征和具有第一媒体类型的媒体对象之间的关联关系。 [0086] 在本公开的实施方式中,从第一媒体对象中选择该部分包括:响应于确定第一媒体类型是文本类型,基于滑动窗口从第一媒体对象中选择字。 [0087] 在本公开的实施方式中,从第一媒体对象中选择该部分包括:响应于确定第一媒体类型是图像类型,基于以下中的任一项从第一媒体对象中选择图像块:在第一媒体对象中滑动的窗口;以及第一媒体对象中被识别的图像区域。 [0088] 在本公开的实施方式中,第一媒体对象是从包括在多媒体数据中的图像序列中被提取的。 [0089] 在本公开的实施方式中,从第一媒体对象中选择部分包括:响应于确定第一媒体类型是音频类型,通过对第一媒体对象的内容分析,确定第一媒体对象的内容;以及基于内容从第一媒体对象中选择部分。 [0090] 在本公开的实施方式中,从第一媒体对象中选择部分包括:响应于确定第一媒体类型包括语音,将第一媒体对象转换为文本对象;并选择文本对象中的字;响应于确定第一媒体类型包括背景音频,选择背景音频的波形中的片段。 [0091] 在本公开的实施方式中,生成多媒体数据的特征包括:基于注意力模块以及第一特征和第二特征,分别确定第一特征的第一权重和第二特征的第二权重,注意力模块描述相应媒体类型的相应特征与相应特征的相应权重之间的关联关系;以及基于第一权重和第二权重以及第一特征和第二特征,生成特征。 [0092] 在本公开的实施方式中,该方法还包括:确定多个媒体类型中除第一媒体类型和第二媒体类型之外的第三媒体类型的第三特征;并且其中生成多媒体数据的特征还包括: 基于第三特征生成媒体数据的特征。 [0093] 在本公开的实施方式中,该方法还包括:通过遮蔽具有多个媒体类型中的第四媒体类型的第四媒体对象中的一部分,确定第四媒体类型的第四特征;确定多个媒体类型中除第四媒体类型之外的第五媒体类型的第五特征;以及为多媒体数据生成特征还包括:基于第四特征和第五特征,生成多媒体数据的特征。 [0094] 根据本公开的实施方式,一种计算机程序产品,计算机程序产品包括计算机可读存储介质,存储介质具有具体化的程序指令,程序指令可由电子设备执行以使电子设备执行方法1000。 [0095] 图11示出了计算设备1100的框图,其中可以实现本公开的各种实现方式。应当理解,图11中所示的计算设备1100仅用于说明目的,而不以任何方式暗示对本公开的功能和范围的任何限制。计算设备1100可以用于在本公开的实现中实现上述方法1000。如图11所示,计算设备1100可以是通用计算设备。计算设备1100可以至少包括一个或多个处理器或处理单元1110、存储器1120、存储单元1130、一个或更多个通信单元1140、一种或更多种输入设备1150和一种或更多种输出设备1160。 [0096] 处理单元1110可以是物理或虚拟处理器,并且可以基于存储在存储器1120中的程序来实现各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备1100的并行处理能力。处理单元1110也可以被称为中央处理单元(CPU)、微处理器、控制器或微控制器。 [0097] 计算设备1100通常包括各种计算机存储介质。这样的介质可以是计算设备1100可访问的任何介质,包括但不限于易失存介质和非易失存介质或可拆卸和不可拆卸介质。存储器1120可以是易失存存储器(例如,寄存器、高速缓存、随机存取存储器(RAM))、非易失存存储器(例如只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存),或其任何组合。存储单元1130可以是任何可拆卸或不可拆卸的介质,并且可以包括机器可读介质,例如存储器、闪存驱动器、磁盘或其他介质,其可以用于存储信息和/或数据并且可以在计算设备1100中访问。 [0098] 计算设备1100还可以包括附加的可拆卸/不可拆卸,易失存/非易失存存储介质。 虽然图11中没有显示,但可以提供一种磁盘驱动器,用于从可拆卸和非易失存磁盘中读取和/或写入以及用于从可拆卸的非易失存光盘中读取和/或写入的光盘驱动器。在这种情况下,每个驱动器可以通过一个或多个数据介质接口连接到总线(未示出)。 [0099] 通信单元1140经由通信介质与另一计算设备进行通信。此外,计算设备1100中的组件的功能可以由能够经由通信连接进行通信的单个计算集群或多个计算机器来实现。因此,计算设备1100可以使用与一个或多个其他服务器、联网个人计算机(PC)或其他通用网络节点的逻辑连接在联网环境中操作。 [0100] 输入设备1150可以是各种输入设备中的一个或多个,例如鼠标、键盘、跟踪球、语音输入设备等。输出设备1160可以是各种输出设备中的一个或多个,例如显示器、扬声器、打印机等。借助于通信单元1140,计算设备1100可以进一步与一个或多个外部设备(未示出)通信,例如存储设备和显示设备,与一个或者多个使得用户能够与计算设备1100交互的设备通信,或者与使得计算设备1100能够在需要时与一个以上其他计算设备通信的任何设备(例如网卡、调制解调器等)通信。这种通信可以经由输入/输出(I/O)接口(未示出)来执行。 [0101] 在一些实现中,计算设备1100的一些或所有组件也可以被布置在云计算架构中,而不是被集成在单个设备中。在云计算体系结构中,可以远程提供这些组件并一起工作以实现本公开中描述的功能。在一些实现中,云计算提供计算、软件、数据访问和存储服务,这将不要求最终用户知道提供这些服务的系统或硬件的物理位置或配置。在各种实现方式中,云计算使用合适的协议经由广域网(例如因特网)提供服务。例如,云计算提供商通过广域网提供应用程序,这些应用程序可以通过网络浏览器或任何其他计算组件访问。云计算架构的软件或组件以及相应的数据可以存储在远程位置的服务器上。云计算环境中的计算资源可以合并或分布在远程数据中心中的位置处。云计算基础设施可以通过共享数据中心提供服务,尽管它们充当用户的单个接入点。因此,云计算架构可用于从远程位置的服务提供商提供本文的组件和功能。或者,它们可以从传统服务器提供,或者直接安装或以其他方式安装在客户端设备上。 [0102] 这里描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于,可以使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。 [0103] 程序代码可以用一种或多种编程语言的任何组合来编写用于执行本文主题的方法的程序。程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器或控制器,使得程序代码,当由处理器或控制器执行时使得在流程图和/或框图中指定的功能/操作得以实现。程序代码可以完全或部分地在机器上执行,部分地在该机器上、部分地在远程机器上、或完全地在远程计算机或服务器上作为独立软件包执行。 [0104] 在本公开的上下文中,机器可读介质可以是任何有形介质,其可以包含或存储程序以供指令执行系统、装置或设备使用或与之结合使用。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的或半导体的系统、装置或设备,或者前述的任何合适的组合。机器可读存储介质的更具体示例将包括具有一条或多条导线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD‑ROM)、光存储设备、磁存储设备、或上述的任何适当组合。 [0105] 此外,虽然以特定顺序示出了操作,但这不应被理解为要求以所示的特定顺序或顺序执行这样的操作,或者要求执行所有示出的操作以实现期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。同样,尽管在上述讨论中包含了几个具体的实现细节,但这些细节不应被解释为对本文主题的范围的限制,而应被理解为对可能特定于特定实现的特征的描述。在单独实现的上下文中描述的某些特征也可以在单个实现中组合实现。相反,在单个实现中描述的各种特征也可以单独地或以任何合适的子组合在多个实现中实现。 [0106] 尽管已经用特定于结构特征和/或方法行为的语言描述了主题,但是应当理解,所附权利要求中指定的主题不一定限于上述特定特征或行为。相反,上述具体特征和行为被公开为实施权利要求的示例形式。 [0107] 从上文中可以理解,为了说明的目的,本文已经描述了当前公开的技术的具体实现方式,但是可以在不偏离本公开的范围的情况下进行各种修改。因此,本公开的技术不受所附权利要求的限制。 [0108] 本公开中描述的主题和功能操作的实现可以在各种系统、数字电子电路中实现,或者在计算机软件、固件或硬件中实现,包括本说明书中公开的结构及其结构等效物,或者在它们中的一个或多个的组合中实现。本说明书中描述的主题的实现可以被实现为一个或多个计算机程序产品,即编码在有形和非瞬态计算机可读介质上,用于由数据处理设备执行或控制数据处理设备的操作的计算机程序指令的一个或多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储设备、影响机器可读传播信号的物质的组成,或者它们中的一个或多个的组合。术语“数据处理单元”或“数据处理装置”包括用于处理数据的所有装置、设备和机器,例如包括可编程处理器、计算机或多个处理器或计算机。 除了硬件之外,装置可以包括,代码,其为所讨论的计算机程序创建执行环境。例如,代码,其构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合。 [0109] 计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以以任何形式的编程语言编写,包括编译或解释语言,并且可以以任何方式部署,包括作为独立程序或作为适合在计算环境中使用的模块、组件、子例程或其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本),存储在专用于所讨论的程序的单个文件中,或者存储在多个协调文件中(例如,存储一个或更多模块、子程序或的一部分的文件编解码)。计算机程序可以被部署为在位于一个站点或分布在多个站点并通过通信网络互连的一台计算机或多台计算机上执行。 [0110] 例如,适合于执行计算机程序的处理器包括通用和专用微处理器,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。一般来说,计算机还将包括一个或多个用于存储数据的大容量存储设备,例如磁光盘、磁光盘或光盘,或者可操作地耦合以从其接收数据或者向其传输数据,或者两者都包括。然而,计算机不需要具有这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失存存储器、介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存设备。处理器和存储器可以由专用逻辑电路补充,或者并入专用逻辑电路中。 [0111] 本说明书和附图仅被视为示例性的,其中示例性是指示例。如本文所用,“或”的使用旨在包括“和/或”,除非上下文另有明确指示。 [0112] 虽然本公开包含许多细节,但这些细节不应被解释为对任何公开的范围或可能要求保护的内容的限制,而是对可能特定于特定公开的特定实现的特征的描述。在单独实现的上下文中在本公开中描述的某些特征也可以在单个实现中组合实现。相反,在单个实现的上下文中描述的各种特征也可以单独地在多个实现中实现,或者在任何合适的子组合中实现。此外,尽管特征可以在上面被描述为以某些组合起作用,甚至最初被要求保护,但是在某些情况下,来自所要求保护的组合的一个或多个特征可以从该组合中删除,并且所要求的组合可以指向子组合或子组合的变体。 [0113] 类似地,虽然在附图中以特定顺序示出了操作,但这不应被理解为要求以所示的特定顺序或顺序执行这样的操作,或者要求执行所有示出的操作,以实现期望的结果。此外,在本公开中描述的实施方式中的各种系统组件的分离不应被理解为在所有实施方式中都需要这样的分离。仅描述了少数实现和示例,并且可以基于本公开中所描述和图示的内容来进行其他实现、增强和变型。