首页 / 自适应声音事件分类

自适应声音事件分类实质审查 发明

技术内容

自适应声音事件分类 [0001] I.优先权要求 [0002] 本申请要求于2020年11月24日提交的共同拥有的美国非临时专利申请No.17/ 102,724的优先权权益,其内容通过援引整体明确纳入于此。 [0003] II.领域 [0004] 本公开一般涉及自适应声音事件分类。 [0005] III.相关技术描述 [0006] 技术进步已导致更小且更强大的计算设备。例如,当前存在各种各样的便携式个人计算设备,包括小型、轻量级且易于用户携带的无线电话(诸如移动和智能电话、平板设备和膝上型计算机)。这些设备可以在无线网络上传达语音和数据分组。此外,许多此类设备结合了附加功能性,诸如数字静止相机、数字视频相机、数字录音机和音频文件播放器。 此外,此类设备可以处理可执行指令,包括可用于访问因特网的软件应用(诸如web浏览器应用)。如此,这些设备可以包括重要的计算能力,包括例如尝试识别音频信号中的声音事件(例如,摔门、汽车喇叭等)的声音事件分类(SEC)系统。 [0007] SEC系统一般使用监督式机器学习技术进行训练以识别经标记训练数据中所标识的一组特定声音。结果,每个SEC系统都倾向于特定领域(例如,能够对一组预定声音进行分类)。在该SEC系统被训练之后,难以更新该SEC系统以识别未在经标记训练数据中所标识的新声音类别。附加地,SEC系统被训练以检测的一些声音类别可表示具有相较于经标记训练数据中所表示的更多变体的声音事件。为了解说,经标记训练数据可包括许多不同门铃的音频数据样本,但不太可能包括门铃声音的所有现有变体。重新训练SEC系统以识别用于训练SEC系统的训练数据中未表示的新声音可涉及使用新经标记训练数据集来完全重新训练SEC系统;除了原始训练数据之外,该新经标记训练数据集还包括该新声音的示例。结果,训练SEC系统以识别新声音(无论是针对新声音类别还是针对现有声音类别的变体)需要与生成全新SEC系统大致相同的计算资源(例如,处理器循环、存储器等)。此外,随时间推移,随着更多的声音被添加以被识别,必须被维持和用于训练SEC系统的音频数据样本的数目可能变得难处理。 [0008] IV.概述 [0009] 在特定方面,一种设备包括一个或多个处理器,该一个或多个处理器被配置成:向声音事件分类模型提供音频数据样本,以及接收该声音事件分类模型的响应于这些音频数据样本的输出。该一个或多个处理器还被配置成:基于该输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出。该一个或多个处理器被进一步配置成:基于确定该声音类别未被识别出,确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景。该一个或多个处理器还被配置成:基于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景,存储基于这些音频数据样本的模型更新数据。 在特定方面,一种方法包括由一个或多个处理器提供音频数据样本作为声音事件分类模型的输入。该方法还包括由该一个或多个处理器基于该声音事件分类模型的响应于这些音频数据样本的输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出。 该方法进一步包括:基于确定该声音类别未被识别出,由该一个或多个处理器确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景。该方法还包括:基于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景,由该一个或多个处理器存储基于这些音频数据样本的模型更新数据。 [0010] 在特定方面,一种设备包括用于向声音事件分类模型提供音频数据样本的装置。 该设备还包括用于基于该声音分类模型的输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出的装置。该设备进一步包括用于响应于确定该声音类别未被识别出而确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景的装置。该设备还包括用于响应于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景来存储基于这些音频数据样本的模型更新数据的装置。 [0011] 在特定方面,一种包括指令的非瞬态计算机可读存储介质,这些指令在由处理器执行时使该处理器提供音频数据样本作为声音事件分类模型的输入。这些指令在由处理器执行时还使该处理器基于该声音事件分类模型的响应于这些音频数据样本的输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出。这些指令在由处理器执行时进一步使该处理器:基于确定该声音类别未被识别出,确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景。这些指令在由处理器执行时还使该处理器:基于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景,存储基于这些音频数据样本的模型更新数据。 [0012] 本公开的其他方面、优点、和特征将在阅读整个申请后变得明了,整个申请包括以下章节:附图简述、详细描述、以及权利要求。 [0013] V.附图简述 [0014] 图1是被配置成响应于音频数据样本而生成声音标识数据并被配置成更新声音事件分类模型的设备的示例的框图。 [0015] 图2是解说根据特定示例的更新声音事件分类模型以计及漂移的各方面的示图。 [0016] 图3是解说根据特定示例的更新声音事件分类模型以计及新声音类别的各方面的示图。 [0017] 图4是解说图1的设备的操作的特定示例的示图。 [0018] 图5是解说图1的设备的操作的另一特定示例的示图。 [0019] 图6是解说图1的设备的特定示例的框图。 [0020] 图7是纳入图1的设备的各方面的交通工具的解说性示例。 [0021] 图8解说了纳入图1的设备的各方面的虚拟现实、混合现实或增强现实头戴式设备。 [0022] 图9解说了纳入图1的设备的各方面的可穿戴电子设备。 [0023] 图10解说了纳入图1的设备的各方面的语音控制扬声器系统。 [0024] 图11解说了纳入图1的设备的各方面的相机。 [0025] 图12解说了纳入图1的设备的各方面的移动设备。 [0026] 图13解说了纳入图1的设备的各方面的空中设备。 [0027] 图14解说了纳入图1的设备的各方面的头戴式设备。 [0028] 图15解说了纳入图1的设备的各方面的电器。 [0029] 图16是解说图1的设备的操作方法的示例的流程图。 [0030] VI.详细描述 [0031] 声音事件分类模型可以使用机器学习技术来训练。例如,神经网络可以使用反向传播或其他机器学习训练技术被训练为声音事件分类器。以这种方式训练的神经网络在本文中被称为“声音事件分类模型”。以这种方式训练的声音事件分类模型可以足够小(就占用的存储空间而言)和足够简单(就在操作期间使用的计算资源而言),以便便携式计算设备存储和使用该声音事件分类模型。相比于被用于使用声音事件分类模型来执行声音事件分类的处理资源,训练声音事件分类模型的过程使用多得多的处理资源。附加地,训练过程使用大的经标记训练数据集,其包括针对声音事件分类模型正在被训练以检测的每个声音类别的许多音频数据样本。就存储器利用或其他计算资源而言,在便携式计算设备或另一资源有限的计算设备上从头开始训练声音事件分类模型可能是禁止的。结果,期望在便携式计算设备上使用声音事件分类模型的用户可能受限于将预训练声音事件分类模型从资源约束较少的计算设备或预训练声音事件分类模型库下载到便携式计算设备上。因此,用户具有有限的定制选项。 [0032] 所公开的系统和方法使用迁移学习技术按使用相比于从头开始训练声音事件分类模型而言少得多的计算资源的方式来更新声音事件分类模型。根据特定方面,迁移学习技术可被用于更新声音事件分类模型,以计及声音类别内的漂移或识别新声音类别。在该上下文中,“漂移”是指声音类别内的变化。例如,声音事件分类模型可以能够识别该声音类别的一些示例,但可能不能够识别该声音类别的其他示例。为了解说,被训练以识别汽车喇叭声音类别的声音事件分类模型可以能够识别许多不同类型的汽车喇叭,但可能不能够识别汽车喇叭的某些示例。漂移也可能由于声学环境中的变化而发生。为了解说,声音事件分类模型可被训练以识别在音乐厅中演奏的低音鼓的声音,但在该低音鼓是由军乐队在室外游行中演奏的情况下可能无法识别该低音鼓。本文中所公开的迁移学习技术促成更新声音事件分类模型以计及此类漂移,这使得声音事件分类模型能够检测声音类别内更宽范围的声音。由于漂移可对应于用户设备遇到但该用户设备未识别的声音,因此更新声音事件分类模型以使该用户设备容适这些遇到的声音类别变化使得该用户设备能够更准确地标识该特定用户设备常遇到的具体声音类别变化。 [0033] 根据特定方面,当声音事件分类模型被确定为尚未识别声音的声音类别(基于该声音的音频数据样本)时,作出关于该声音是由于漂移还是因为该声音事件分类模型未识别出与该声音相关联的类型的声音类别而未被识别出的确定。例如,与音频数据样本不同的信息(诸如时间戳、位置数据、图像数据、视频数据、用户输入数据、设置数据、其他传感器数据等)被用于确定指示与音频数据样本相关联的声音环境(或音频场景)的场景数据。场景数据被用于确定声音事件分类模型是否对应于音频场景(例如,被训练以识别该音频场景中的声音事件)。如果声音事件分类模型对应于音频场景,则音频数据样本被保存为模型更新数据并被指示为漂移数据。在一些方面,如果声音事件分类模型不对应于音频场景,则音频数据样本由于是未知的而被丢弃,或者被保存为模型更新数据并被指示为与未知声音类别(例如,未知数据)相关联。 [0034] 周期性地或偶尔地(例如,当由用户发起时或当更新条件被满足时),声音事件分类模型使用模型更新数据来被更新。例如,为了计及漂移数据,声音事件分类器可使用反向传播或其他类似的机器学习技术进行训练(例如,通过从已经训练的声音事件分类器开始进一步训练)。在该示例中,漂移数据与已经被声音事件分类模型识别出的声音类别的标签相关联,并且漂移数据和对应的标签被用作经标记训练数据。使用漂移数据对声音事件分类模型进行更新可以通过向经标记训练数据添加声音类别的其他示例(诸如取自最初用于训练声音事件分类模型的训练数据的示例)来扩增。在一些方面,当漂移数据可用时,设备自动(例如,在没有用户输入的情况下)更新一个或多个声音事件分类模型。因此,声音事件分类系统可以自动适配以计及声音类别内的漂移,从而使用相比于会被用于从头开始训练声音事件分类模型的计算资源而言少得多的计算资源。 [0035] 为了计及未知数据,声音事件分类模型可使用更复杂的迁移学习技术来训练。例如,当未知数据可用时,用户可被询问以指示该用户是否期望更新声音事件分类模型。表示未知数据的音频可被播放给用户,并且用户可在不更新声音事件分类模型的情况下指示要丢弃未知数据,可指示未知数据对应于已知声音类别(例如,将未知数据重新分类为漂移数据),或者可向未知数据指派新声音类别标签。如果用户将未知数据重新分类为漂移数据,则发起用于更新声音事件分类模型以计及漂移数据的(诸)机器学习技术,如上文所描述的。 [0036] 如果用户向未知数据指派新声音类别标签,则该标签和该未知数据被用作经标记训练数据以生成经更新声音事件分类模型。根据特定方面,用于更新声音事件分类模型的迁移学习技术包括生成声音事件分类器模型的副本,该声音事件分类器模型的副本包括与新声音类别相关联的输出节点。该声音事件分类器模型的副本被称为增量模型。迁移学习技术还包括将声音事件分类模型和增量模型连接到一个或多个适配器网络。(诸)适配器网络促成基于声音事件分类模型的输出和增量模型的输出两者的合并输出的生成。包括未知数据的音频数据样本和与已知声音类别相对应的一个或多个音频数据样本(例如,声音事件分类器先前被训练以识别的声音类别)被提供给声音事件分类模型和增量模型,以生成合并输出。合并输出指示基于声音事件分类模型、增量模型和一个或多个适配器网络的分析而被指派给音频数据样本的声音类别。在训练期间,合并输出被用于更新增量模型和(诸)适配器网络的链路权重。当训练完成时,如果增量模型足够准确,则声音事件分类器可被丢弃。如果单单增量模型不足够准确,则声音事件分类模型、增量模型和(诸)适配器网络被一起保留并被用作单个经更新声音事件分类模型。因此,本文中所公开的技术按相比于从头开始训练神经网络而言资源不那么密集(就存储器资源、处理器时间以及功率而言)的方式实现了声音事件分类模型的定制和更新。另外,在一些方面,所公开的技术实现了声音事件分类模型的自动更新以计及漂移。 [0037] 所公开的系统和方法提供了上下文感知系统,其可以检测数据集漂移、将漂移数据与对应的类别相关联(例如,通过利用可用的多模态输入)、以及在几乎没有或没有监督且不需要从头开始训练新SEC模型的情况下利用漂移数据来精化/微调SEC模型。在一些方面,在精化/微调SEC模型之前,SEC模型被训练以识别特定声音类别的多个变体,并且精化/微调SEC模型会修改SEC模型以使得SEC模型能够识别该特定声音类别的附加变体。 [0038] 在一些方面,所公开的系统和方法可以用于在测试期间遭受数据集漂移的应用。 例如,这些系统和方法可以检测数据集漂移并精化SEC模型,而无需从头开始重新训练先前学习的声音类别。在一些方面,所公开的系统和方法可以用于向现有SEC模型(例如,已经针对某些声音类别进行了训练的SEC模型)添加新声音类别,而无需从头开始重新训练SEC模型,无需访问最初用于训练SEC模型的所有训练数据,并且不会引入关于SEC模型最初被训练以识别的声音类别的任何性能降级。 [0039] 在一些方面,所公开的系统和方法可被用在期望低占用面积约束下的持续学习能力的应用中。在一些实现中,所公开的系统和方法可访问用于各种各样的应用(例如,各种声音环境)的各种检测模型(例如,SEC模型)的数据库。在此类实现中,可在操作期间基于声音环境来选择SEC模型,并且该SEC模型可被加载并被用作源模型。 [0040] 本公开的各特定方面在下文参照附图来描述。在本说明书中,共用的特征由共用的附图标记来指定。如本文所使用的,各种术语是仅出于描述特定实现的目的使用的,而并不旨在限定实现。例如,单数形式的“一”、“某”和“该”旨在也包括复数形式,除非上下文另外明确指示。此外,本文所描述的一些特征在一些实现中是单数,而在其他实现中是复数。 为了解说,图1描绘了包括一个或多个传感器(图1中的“(诸)传感器”134)的设备100,其指示在一些实现中设备100包括单个传感器134,而在其他实现中设备100包括多个传感器 134。为了便于本文引述,此类特征一般被介绍为“一个或多个”特征,并且随后以单数或可任选的复数(通常由以“(诸)”结尾的术语来指示)引用,除非正在描述与这些特征中的多个特征相关的方面。 [0041] 术语“包括”、“具有”和“含有”在本文中与“包含”、“带有”或“拥有”互换地使用。另外,术语“其中”与“在该情况下”互换地使用。如本文中所使用的,“示例性”指示一示例、一实现和/或一方面,并且不应当被构造为限制或指示偏好或优选实现。如本中文所使用的,用于修饰元素(诸如结构、组件、操作等)的序数词(例如,“第一”、“第二”、“第三”等)本身并不指示该元素相对于另一元素的任何优先级或次序,而是仅仅将该元素与具有相同名称(但使用序数词)的另一元素区分开。如本文中所使用的,术语“集(集合)”指一个或多个特定元素,而术语“多个”指多个特定元素(例如,两个或更多个特定元素)。 [0042] 如本文中所使用的,“耦合”可包括“通信地耦合”、“电耦合”或“物理耦合”,并且可另外地(或替换地)包括其任何组合。两个设备(或组件)可以直接地或经由一个或多个其他设备、组件、导线、总线、网络(例如,有线网络、无线网络、或其组合)等间接地耦合(例如,通信地耦合、电耦合、或物理地耦合)。电耦合的两个设备(或组件)可被包括在相同设备或不同设备中,并且可以经由电子器件、一个或多个连接器或电感式耦合进行连接,作为解说性非限制性示例。在一些实现中,通信地耦合的两个设备(或组件)(诸如在电通信中)可以直接地或间接地经由一个或多个导线、总线、网络等发送和接收电信号(数字信号或模拟信号)。如本文中所使用的,“直接耦合”指两个设备在没有居间组件的情况下耦合(例如,通信地耦合、电耦合或物理耦合)。 [0043] 在本公开中,诸如“确定”、“计算”、“估计”、“移位”、“调整”等术语可被用于描述如何执行一个或多个操作。应当注意,此类术语不应被解读为限制性的,并且可以利用其他技术来执行类似的操作。另外,如本文中引用的,“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可以可互换地使用。例如,“生成”、“计算”、“估计”或“确定”参数(或信号)可指主动地生成、估计、计算或确定参数(或信号),或者可指使用、选择或访问(诸如由另一组件或设备)已经生成的参数(或信号)。 [0044] 图1是被配置成响应于音频数据样本110而生成声音标识数据并且被配置成更新声音事件分类模型的设备100的示例的框图。图1的设备100包括一个或多个话筒104,其被配置成基于在声学环境内检测到的声音102来生成音频信号106。(诸)话筒104耦合到特征提取器108,该特征提取器108基于音频信号106来生成音频数据样本110。例如,音频数据样本110可包括数据元素的阵列或矩阵,其中每个数据元素对应于在音频信号106中检测到的特征。作为具体示例,音频数据样本110可以对应于从一秒音频信号106中提取的梅尔(Mel)频谱特征。在该示例中,音频数据样本110可包括128x128的特征值元素矩阵。在其他示例中,可以使用其他音频数据样本配置或大小。 [0045] 音频数据样本110被提供给声音事件分类(SEC)引擎120。SEC引擎120被配置成基于一个或多个SEC模型(诸如SEC模型112)来执行推断操作。“推断操作”指的是在音频数据样本110的声音类别被SEC模型112识别出的情况下将音频数据样本110指派给该声音类别。 例如,SEC引擎120可包括或对应于实现机器学习运行时环境的软件,诸如高通神经处理SDK,其可从美国加利福尼亚州圣迭戈市的高通技术公司获取。在特定方面,SEC模型112是对SEC引擎120可用的多个SEC模型(例如,可用SEC模型114)之一。 [0046] 在特定示例中,可用SEC模型114中的每一者包括或对应于被训练为声音事件分类器的神经网络。为了解说,SEC模型112(以及其他可用SEC模型114中的每一者)可包括输入层、一个或多个隐藏层以及输出层。在该示例中,输入层被配置为对应于由特征提取器108生成的音频数据样本110的值阵列或矩阵。为了解说,如果音频数据样本110包括15个数据元素,则输入层可包括15个节点(例如,每数据元素一个节点)。输出层被配置为对应于SEC模型112被训练以识别的声音类别。输出层的具体布置可以取决于要作为输出来提供的信息而变化。作为一个示例,SEC模型112可被训练以输出包括每声音类别一个比特的阵列,其中输出层执行“独热编码”以使得输出阵列的除一个比特之外的所有比特具有值0,并且与检测到的声音类别相对应的比特具有值1。可以使用其他输出方案来指示例如每个声音类别的置信度量值,其中该置信度量值指示音频数据样本110对应于相应声音类别的概率估计。为了解说,如果SEC模型112被训练以识别四个声音类别,则SEC模型112可生成包括四个值(每声音类别一个值)的输出数据,并且每个值可指示音频数据样本110对应于相应声音类别的概率估计。 [0047] 每个隐藏层包括多个节点,并且每个节点与同一层或不同层中的其他节点(经由链路)互连。节点的每个输入链路与链路权重相关联。在操作期间,节点从它链接到的其他节点接收输入值,基于对应的链路权重对这些输入值进行加权以确定组合值,并将该组合值代入激活函数以生成该节点的输出值。输出值经由节点的输出链路被提供给一个或多个其他节点。节点还可包括被用于生成组合值的偏置值。各节点可以按各种布置进行链接,并且可以包括各种其他特征(例如,先验值记忆)以促成特定数据的处理。在音频数据样本的情形中,可使用卷积神经网络(CNN)。为了解说,诸SEC模型112中的一者或多者可包括三个经链接CNN,并且每个CNN可包括二维(2D)卷积层、最大池化层和批归一化层。在其他实现中,隐藏层包括不同数目的CNN或其他层。训练神经网络包括:修改链路权重以减小神经网络的输出误差。 [0048] 在操作期间,SEC引擎120可将音频数据样本110作为输入提供给单个SEC模型(例如,SEC模型112),提供给多个所选SEC模型(例如,SEC模型112和可用SEC模型114中的第K个SEC模型118),或者提供给每个SEC模型(例如,提供给SEC模型112、可用SEC模型114中的第一SEC模型116、第K个SEC模型118和任何其他SEC模型)。例如,SEC引擎120(或设备100的另一组件)可基于例如以下各项来从可用SEC模型114当中选择SEC模型112:用户输入、与设备 100相关联的设备设置、传感器数据、音频数据样本110被接收的时间、或其他因素。在该示例中,SEC引擎120可选择仅使用SEC模型112,或者可选择使用可用SEC模型114中的两者或更多者。为了解说,设备设置可指示在特定时间帧期间要使用SEC模型112和第一SEC模型 116。在另一示例中,SEC引擎120可(例如,顺序地或并行地)将音频数据样本110提供给可用SEC模型114中的每个SEC模型,以从每个SEC模型生成输出。在特定方面,SEC模型被训练以识别不同的声音类别,以识别不同声学环境中的相同声音类别,或两者。例如,SEC模型112可被配置成识别第一声音类别集合,并且第一SEC模型116可被配置成识别第二声音类别集合,其中第一声音类别集合不同于第二声音类别集合。 [0049] 在特定方面,SEC引擎120基于SEC模型112的输出来确定SEC模型112是否识别出音频数据样本110的声音类别。如果SEC引擎120向多个SEC模型提供音频数据样本110,则SEC引擎120可基于每个SEC模型的输出来确定是否有任何SEC模型识别出音频数据样本110的声音类别。如果SEC模型112(或可用SEC模型114中的另一者)识别出音频数据样本110的声音类别,则SEC引擎120生成输出124,该输出124指示音频数据样本110的声音类别122。例如,输出124可被发送给显示器以向用户通知检测到与声音102相关联的声音类别122,或者可被发送给另一设备或设备100的另一组件并且被用于触发动作(例如,响应于识别出关门的声音而发送命令以激活灯光)。 [0050] 如果SEC引擎120确定SEC模型112(以及可用SEC模型114中被提供了音频数据样本 110的其他SEC模型)未识别出音频数据样本110的声音类别,则SEC引擎120向漂移检测器 128提供触发信号126。例如,SEC引擎120可在设备110的存储器中设置触发标志。在一些实现中,SEC引擎120还可向漂移检测器128提供其他数据。为了解说,如果SEC模型112针对SEC模型112被训练以识别的每个声音类别生成置信度量值,则这些置信度量值中的一者或多者可被提供给漂移检测器128。例如,如果SEC模型112被训练以识别三个声音类别,则SEC引擎120可向漂移检测器128提供由SEC模型112输出的三个置信值(这三个声音类别各一个)之中的最高置信值。 [0051] 在特定方面,SEC引擎120基于置信度量值来确定SEC模型112是否识别出音频数据样本110的声音类别。在该特定方面,特定声音类别的置信度量值指示音频数据样本110与该特定声音类别相关联的概率。为了解说,如果SEC模型112被训练以识别四个声音类别,则SEC模型112可生成包括四个置信度量值(每个声音类别一个)的阵列作为输出。在一些实现中,如果声音类别122的置信度量值大于检测阈值,则SEC引擎120确定SEC模型112识别出音频数据样本110的声音类别122。例如,如果声音类别122的置信度量值大于0.90(例如,90%置信度)、0.95(例如,95%置信度)或检测阈值的某个其他值,则SEC引擎120确定SEC模型 112识别出音频数据样本110的声音类别122。在一些实现中,如果SEC模型112被训练以识别的每个声音类别的置信度量值小于检测阈值,则SEC引擎120确定SEC模型112未识别出音频数据样本110的声音类别。例如,如果每个置信度量值小于0.90(例如,90%置信度)、0.95(例如,95%置信度)或检测阈值的某个其他值,则SEC引擎120确定SEC模型112未识别出音频数据样本110的声音类别122。 [0052] 漂移检测器128被配置成确定无法识别出音频数据样本110的声音类别的SEC模型 112是否对应于与音频数据样本110相关联的音频场景142。在图1中解说的示例中,场景检测器140被配置成接收场景数据138并使用场景数据138来确定与音频数据样本110相关联的音频场景142。在特定方面,场景数据138是基于以下各项来生成的:指示与设备100相关联的一个或多个设备设置的设置数据130、时钟132的输出、来自一个或多个传感器134的传感器数据、经由输入设备136接收的输入、或其组合。在一些方面,场景检测器140使用与SEC引擎120用于选择SEC模型112的信息不同的信息来确定音频场景142。为了解说,如果SEC引擎120基于一天中的时间来选择SEC模型112,则场景检测器140可使用来自(诸)传感器134中的定位传感器的定位传感器数据来确定音频场景142。在一些方面,场景检测器140使用与SEC引擎120用于选择SEC模型112的信息相同的信息中的至少一些信息,并且使用附加信息。为了解说,如果SEC引擎120基于一天中的时间和设置数据130来选择SEC模型112,则场景检测器140可使用定位传感器数据和设置数据130来确定音频场景142。因此,场景检测器 140使用与由SEC引擎120用于选择SEC模型112的音频场景检测模式不同的音频场景检测模式。 [0053] 在特定实现中,场景检测器140是被训练以基于场景数据138来确定音频场景142的神经网络。在其他实现中,场景检测器140是使用不同机器学习技术进行训练的分类器。 例如,场景检测器140可包括或对应于决策树、随机森林、支持向量机或被训练以生成基于场景数据138指示音频场景142的输出的另一分类器。在又一些其他实现中,场景检测器140使用试探法基于场景数据138来确定音频场景142。在再一些其他实现中,场景检测器140使用人工智能和试探法的组合基于场景数据138来确定音频场景142。例如,场景数据138可包括图像数据、视频数据或两者,并且场景检测器140可包括使用机器学习技术进行训练以检测特定对象、运动、背景或其他图像或视频信息的图像识别模型。在该示例中,图像识别模型的输出可经由一个或多个试探法来评估以确定音频场景142。 [0054] 漂移检测器128将由场景检测器140指示的音频场景142与描述SEC模型112的信息进行比较,以确定SEC模型112是否与音频数据样本110的音频场景142相关联。如果漂移检测器128确定SEC模型112与音频数据样本110的音频场景142相关联,则漂移检测器128使得漂移数据144被存储为模型更新数据148。在特定实现中,漂移数据144包括音频数据样本 110和标签,其中该标签标识SEC模型112、指示与音频数据样本110相关联的声音类别、或两者。如果漂移数据144指示与音频数据样本110相关联的声音类别,则该声音类别可基于由SEC模型112生成的最高置信度量值而被选择。作为解说性示例,如果SEC引擎120使用检测阈值0.90,并且对于特定声音类别,由SEC模型112输出的最高置信度量值是0.85,则SEC引擎120确定未识别出音频数据样本110的声音类别,并向漂移检测器128发送触发信号126。 在该示例中,如果漂移检测器128确定SEC模型112对应于音频数据样本110的音频场景142,则漂移检测器128将音频数据样本110存储为与该特定声音类别相关联的漂移数据144。在特定方面,与SEC模型114相关联的元数据包括指定与每个SEC模型114相关联的一个或多个音频场景的信息。例如,SEC模型112可被配置成检测用户家中的声音事件,在这种情形中,与SEC模型112相关联的元数据可指示SEC模型112与“家庭”音频场景相关联。在该示例中,如果音频场景142指示设备100处于家庭位置(例如,基于定位信息、用户输入、家庭无线网络信号的检测、表示家庭位置的图像或视频数据等等),则漂移检测器128确定SEC模型112对应于音频场景142。 [0055] 在一些实现中,漂移检测器128还使一些音频数据样本110被存储为模型更新数据 418并被指定为未知数据146。作为第一示例,如果漂移检测器128确定SEC模型112不对应于音频数据样本110的音频场景142,则漂移检测器128可存储未知数据146。作为第二示例,如果由SEC模型112输出的置信度量值未能满足漂移阈值,则漂移检测器128可存储未知数据 146。在该示例中,漂移阈值小于SEC引擎120所使用的检测阈值。例如,如果SEC引擎120使用检测阈值0.95,则漂移阈值可具有值0.80、0.75、或小于0.95的某个其他值。在该示例中,如果音频数据样本110的最高置信度量值小于漂移阈值,则漂移检测器128确定音频数据样本 110属于SEC模型112未被训练以识别的声音类别,并将音频数据样本110指定为未知数据 146。在特定方面,如果漂移检测器128确定SEC模型112对应于音频数据样本110的音频场景 142,则漂移检测器128仅存储未知数据146。在另一特定方面,漂移检测器128存储未知数据 146,而不管漂移检测器128是否确定SEC模型112对应于音频数据样本110的音频场景142。 [0056] 在模型更新数据148被存储之后,模型更新器152可以访问模型更新数据148并使用模型更新数据148来更新可用SEC模型114之一(例如,SEC模型112)。例如,模型更新数据 148的每个条目指示与该条目相关联的SEC模型,并且模型更新器152使用该条目作为训练数据来更新对应的SEC模型。在特定方面,当更新准则被满足时,或者当用户或另一方(例如,设备100的供应商、SEC引擎120、SEC模型114等)发起模型更新时,模型更新器152更新SEC模型。当模型更新数据148中有特定数目个条目可用时、当模型更新数据148中对于特定SEC模型有特定数目个条目可用时、当模型更新数据148中对于特定声音类别有特定数目个条目可用时、当自在前更新起已经过去了特定时间量时、当发生其他更新时(例如,当发生与设备100相关联的软件更新时)、或基于另一事件的发生,更新准则可被满足。 [0057] 模型更新器152利用反向传播或类似的机器学习优化过程使用漂移数据144作为经标记训练数据来更新SEC模型112的训练。例如,模型更新器152提供来自模型更新数据 148的漂移数据144的音频数据样本作为SEC模型112的输入,基于SEC模型112的输出和与音频数据样本相关联的标签(如由漂移检测器128存储的漂移数据144中指示的)来确定误差函数(亦称为损失函数)的值,并使用梯度下降操作(或其某种变体)或另一机器学习优化过程来确定SEC模型112的经更新的链路权重。 [0058] 模型更新器152(除了漂移数据144的音频数据样本之外)还可在更新训练期间向SEC模型112提供其他音频数据样本。例如,模型更新数据148可包括一个或多个未知音频数据样本(诸如最初用于训练SEC模型112的音频数据样本子集),这可减小更新训练使SEC模型112遗忘先前训练的机会(其中这里的“遗忘”是指失去检测SEC模型112先前被训练以识别的声音类别的可靠性)。由于与漂移数据114的音频数据样本相关联的声音类别由漂移检测器128指示,因此更新训练以计及漂移可以自动完成(例如,无需用户输入)。结果,设备 100的功能性(例如,识别声音类别的准确性)可以在没有用户干预的情况下随时间推移而改进,并且使用比会被用于从头开始生成新SEC模型的计算资源少的计算资源。参照图2描述了模型更新器152可以用于基于漂移数据144来更新SEC模型112的迁移学习过程的特定示例。 [0059] 在一些方面,模型更新器152还可以使用模型更新数据148的未知数据146来更新SEC模型112的训练。例如,周期性地或偶尔地(诸如当更新准则被满足时),模型更新器152可提示用户要求该用户标记模型更新数据148中的未知数据146的条目的声音类别。如果用户选择标记未知数据146的条目的声音类别,则设备100(或另一设备)可播放与未知数据 146的音频数据样本相对应的声音。用户可以提供标识音频数据样本的声音类别的一个或多个标签150(例如,经由输入设备136)。如果由用户指示的声音类别是SEC模型112被训练以识别的声音类别,则未知数据146被重新分类为与用户指定的声音类别和SEC模型112相关联的漂移数据144。取决于模型更新器152的配置,如果由用户指示的声音类别是SEC模型 112未被训练以识别的声音类别(例如,是新声音类别),则模型更新器152可丢弃未知数据 146、向另一设备发送未知数据146和用户指定的声音类别以供用于生成新的或经更新的SEC模型,或者可使用未知数据146和用户指定的声音类别来更新SEC模型112。参照图3描述了模型更新器152可以用于基于未知数据146和用户指定的声音类别来更新SEC模型112的迁移学习过程的特定示例。 [0060] 由模型更新器152生成的经更新SEC模型154被添加到可用SEC模型114以使得经更新SEC模型154可用于评估在生成经更新SEC模型154之后接收到的音频数据样本110。因此,可被用于评估声音的可用SEC模型114集合是动态的。例如,可用SEC模型114中的一者或多者可被自动地更新以计及漂移数据144。附加地,可用SEC模型114中的一者或多者可使用相比从头开始训练新SEC模型而言更少的计算资源(例如,存储器、处理时间以及功率)被更新以计及未知声音类别。 [0061] 图2是解说根据特定示例的更新SEC模型208以计及漂移的各方面的示图。图2的SEC模型208包括或对应于图1的可用SEC模型114中与漂移数据144相关联的特定SEC模型。 例如,如果SEC引擎120响应于SEC模型112的输出而生成了触发信号126,则漂移数据144与SEC模型112相关联,并且SEC模型208对应于或包括SEC模型112。作为另一示例,如果SEC引擎120响应于第K个SEC模型118的输出而生成了触发信号126,则漂移数据144与第K个SEC模型118相关联,并且SEC模型208对应于或包括第K个SEC模型118。 [0062] 在图2中解说的示例中,训练数据202被用于更新SEC模型208。训练数据202包括漂移数据144和一个或多个标签204。漂移数据144的每个条目包括音频数据样本(例如,音频数据样本206)并且与(诸)标签204中的对应标签相关联。漂移数据144的条目的音频数据样本包括表示从未被SEC模型208识别的声音中提取或基于未被SEC模型208识别的声音来确定的特征的值集合。与漂移数据144的条目相对应的标签204标识预期声音所属的声音类别。作为示例,与漂移数据144的条目相对应的标签204可以是由图1的漂移检测器128响应于确定SEC模型208对应于生成音频数据样本的音频场景而指派的。在该示例中,漂移检测器128可将音频数据样本指派给在SEC模型208的输出中与最高置信度量值相关联的声音类别。 [0063] 在图2中,与声音相对应的音频数据样本206被提供给SEC模型208,并且SEC模型 208生成输出210,该输出210指示音频数据样本206被指派给的声音类别、一个或多个置信度量值、或两者。模型更新器152使用输出210和与音频数据样本206相对应的标签204来确定SEC模型208的经更新链路权重212。SEC模型208基于经更新链路权重212来被更新,并且迭代地重复训练过程,直到训练终止条件被满足。在训练期间,漂移数据144的每个条目可被提供给SEC模型208(例如,每次迭代一个条目)。附加地,在一些实现中,其他音频数据样本(例如,先前用于训练SEC模型208的音频数据样本)也可被提供给SEC模型208,以减小SEC模型208遗忘先前训练的机会。 [0064] 当所有漂移数据144都已被提供给SEC模型208至少一次时、在已执行特定次数的训练迭代之后、当收敛度量满足收敛阈值时、或当指示训练结束的某种其他条件得到满足时,训练终止条件可被满足。当训练终止条件被满足时,模型更新器152存储经更新SEC模型 214,其中经更新SEC模型214对应于具有基于在训练期间应用的经更新链路权重212的链路权重的SEC模型208。 [0065] 图3是解说根据特定示例的更新SEC模型310以计及未知数据的各方面的示图。图3的SEC模型310包括或对应于图1的可用SEC模型114中与未知数据146相关联的特定SEC模型。例如,如果SEC引擎120响应于SEC模型112的输出而生成了触发信号126,则未知数据146与SEC模型112相关联,并且SEC模型310对应于或包括SEC模型112。作为另一示例,如果SEC引擎120响应于第K个SEC模型118的输出而生成了触发信号126,则未知数据146与第K个SEC模型118相关联,并且SEC模型310对应于或包括第K个SEC模型118。 [0066] 在图3的示例中,模型更新器152生成更新模型306。更新模型306包括要被更新的SEC模型310、增量模型308、以及一个或多个适配器网络312。增量模型308是SEC模型310的具有与SEC模型310不同的输出层的副本。具体而言,增量模型308的输出层相比于SEC模型 310的输出层而言包括更多的输出节点。例如,SEC模型310的输出层包括第一计数个节点(例如,N个节点,其中N是与SEC模型310被训练以识别的声音类别的数目相对应的正整数),并且增量模型308的输出层包括第二计数个节点(例如,N+M个节点,其中M是与经更新SEC模型324被训练以识别而SEC模型310未被训练以识别的新声音类别的数目相对应的正整数)。 第一节点计数对应于SEC模型310被训练以识别的第一声音类别集合的声音类别计数(例如,第一声音类别集合包括SEC模型310能识别的N个不同的声音类别),并且第二节点计数对应于经更新SEC模型324将被训练以识别的第二声音类别集合的声音类别计数(例如,第二声音类别集合包括经更新SEC模型324将被训练以识别的N+M个不同的声音类别)。第二声音类别集合包括第一声音类别集合(例如,N个类别)加上一个或多个附加声音类别(例如,M个类别)。增量模型308的模型参数(例如,链路权重)被初始化为等于SEC模型310的模型参数。 [0067] (诸)适配器网络312包括神经适配器和合并适配器。神经适配器包括一个或多个适配器层,其被配置成从SEC模型310接收输入并生成可以与增量模型308的输出合并的输出。例如,SEC模型310生成与第一声音类别集合的第一类别计数相对应的第一输出。在特定方面,第一输出包括针对SEC模型310的输出层的每个节点的一个数据元素(例如,N个数据元素)。相比之下,增量模型308生成与第二声音类别集合的第二类别计数相对应的第二输出。例如,第二输出包括针对增量模型308的输出层的每个节点的一个数据元素(例如,N+M个数据元素)。在该示例中,(诸)适配器网络312的适配器层接收SEC模型310的输出作为输入,并生成具有第二计数个(例如,N+M个)数据元素的输出。在特定示例中,(诸)适配器网络 312的适配器层包括两个全连接层(例如,包括N个节点的输入层和包括N+M个节点的输出层,其中输入层的每个节点连接到输出层的每一个节点)。 [0068] (诸)适配器网络312的合并适配器被配置成通过将(诸)适配器层的输出与增量模型308的输出合并来生成更新模型306的输出314。例如,合并适配器按逐元素方式将(诸)适配器层的输出与增量模型308的输出组合以生成组合输出,并向该组合输出应用激活函数(诸如sigmoid函数)以生成输出314。输出314指示音频数据样本304被更新模型306指派给的声音类别、由更新模型306确定的一个或多个置信度量值、或两者。 [0069] 模型更新器152使用输出314和与音频数据样本304相对应的标签150来确定增量模型308、(诸)适配器网络312或两者的经更新链路权重316。SEC模型310的链路权重在训练期间未改变。迭代地重复训练过程,直到训练终止条件被满足。在训练期间,未知数据146的每个条目可被提供给更新模型306(例如,每次迭代一个条目)。附加地,在一些实现中,其他音频数据样本(例如,先前用于训练SEC模型310的音频数据样本)也可被提供给更新模型 306,以减小增量模型308遗忘SEC模型310的先前训练的机会。 [0070] 当所有未知数据146都已被提供给更新模型306至少一次时、在已执行特定次数的训练迭代之后、当收敛度量满足收敛阈值时、或当指示训练结束的某种其他条件得到满足时,训练终止条件可被满足。当训练终止条件被满足时,模型检查器320从增量模型308和更新模型306之间选择经更新SEC模型324(例如,SEC模型310、增量模型308和(诸)适配器网络 312的组合)。 [0071] 在特定方面,模型检查器320基于由增量模型308指派的声音类别322的准确性和由SEC模型310指派的声音类别322的准确性来选择经更新SEC模型324。例如,模型检查器 320可确定增量模型308的F1得分(基于由增量模型308指派的声音类别322)和SEC模型310的F1得分(基于由SEC模型310指派的声音类别322)。在该示例中,如果增量模型308的F1得分值大于或等于SEC模型310的F1得分值,则模型检查器320选择增量模型308作为经更新SEC模型324。在一些实现中,如果增量模型308的F1得分值大于或等于SEC模型310的F1得分值(或小于SEC模型310的F1得分值不到阈值量),则模型检查器320选择增量模型308作为经更新SEC模型324。如果增量模型308的F1得分值小于SEC模型310的F1得分值(或小于SEC模型310的F1得分值超过阈值量),则模型检查器320选择更新模型306作为经更新SEC模型 324。如果增量模型308被选择为经更新SEC模型324,则可丢弃SEC模型310、(诸)适配器网络 312或两者。 [0072] 在一些实现中,模型检查器320被省略或与模型更新器152集成。例如,在训练更新模型306之后,更新模型306可被存储为经更新SEC模型324(例如,没有更新模型306和增量模型308之间的选择)。作为示例,在训练更新模型306之时,模型更新器152可确定增量模型 308的准确性度量。在该示例中,训练终止条件可基于增量模型308的准确性度量,以使得在训练之后,增量模型308被存储为经更新SEC模型324(例如,没有更新模型306和增量模型 308之间的选择)。 [0073] 利用参照图3所描述的迁移学习技术,模型检查器320使得图1的设备100能够更新SEC模型以识别先前未知的声音类别。附加地,所描述的迁移学习技术使用比会被用于从头开始训练SEC模型的计算机资源(例如,存储器、处理时间以及功率)少得多的计算机资源来识别先前未知的声音类别。 [0074] 在一些实现中,参照图2所描述的操作(例如,基于漂移数据144来生成经更新SEC模型214)在图1的设备100处执行,并且参照图3所描述的操作(例如,基于未知数据146来生成经更新SEC模型324)在不同设备(诸如图6的远程计算设备618)处执行。为了解说,未知数据146和(诸)标签150可在设备100处被捕获并被传送给具有更多的可用计算资源的第二设备。在该示例中,第二设备生成经更新SEC模型324,并且设备100从第二设备下载或接收表示经更新SEC模型324的传输或数据。相比于基于漂移数据144生成经更新SEC模型214,基于未知数据146生成经更新SEC模型324是资源更密集的过程(例如,使用更多存储器、功率以及处理器时间)。因此,在不同设备之间划分参照图2所描述的操作和参照图3所描述的操作可以节省设备100的资源。 [0075] 图4是解说图1的设备的操作的特定示例的示图。图4解说了其中关于活跃SEC模型(例如,SEC模型112)是否对应于音频数据样本110被捕获的音频场景的确定基于将当前音频场景与先前音频场景作比较的实现。 [0076] 在图4中,由(诸)话筒104捕获的音频数据被用于生成音频数据样本110。音频数据样本110被用于执行音频分类402。例如,可用SEC模型114中的一者或多者被图1的SEC引擎 120用作活跃SEC模型。在特定方面,在先前采样周期期间基于由场景检测器140指示的音频场景(其也被称为先前音频场景408)来从可用SEC模型114当中选择活跃SEC模型。 [0077] 音频分类402使用活跃SEC模型基于对音频数据样本110的分析来生成结果404。结果404可指示与音频数据样本110相关联的声音类别、音频数据样本110对应于特定声音类别的概率、或音频数据样本110的声音类别是未知的。如果结果404指示音频数据样本110对应于已知的声音类别,则在框406处作出决策以生成输出124,该输出124指示与音频数据样本110相关联的声音类别122。例如,图1的SEC引擎120可生成输出124。 [0078] 如果结果404指示音频数据样本110不对应于已知的声音类别,则在框406处作出决策以生成触发126。触发126激活漂移检测方案;在图4中,该漂移检测方案包括使场景检测器140基于来自(诸)传感器134的数据来标识当前音频场景407。 [0079] 在框410处将当前音频场景407与先前音频场景408作比较,以确定自选择活跃SEC模型以来是否已发生了音频场景变化。在框412,作出关于音频数据样本110的声音类别是否由于漂移而未被识别的确定。例如,如果当前音频场景407不对应于先前音频场景408,则在框412处的确定是:漂移不是音频数据样本110的声音类别未被识别的原因。在这种情况下,音频数据样本110可被丢弃,或在框414处被存储为未知数据。 [0080] 如果当前音频场景407对应于先前音频场景408,则在框412处的确定是:音频数据样本110的声音类别由于漂移而未被识别,因为活跃SEC模型对应于当前音频场景407。在这种情况下,已漂移了的声音类别在框416处被标识,并且音频数据样本110和该声音类别的标识符在框418处被存储为漂移数据。 [0081] 当存储了足够的漂移数据时,SEC模型在框420处被更新,以生成经更新SEC模型 154。经更新SEC模型154被添加到可用SEC模型114。在一些实现中,经更新SEC模型154替代生成了结果404的活跃SEC模型。 [0082] 图5是解说图1的设备的操作的另一特定示例的示图。图5解说了其中关于活跃SEC模型(例如,SEC模型112)是否对应于音频数据样本110被捕获的音频场景的确定基于将当前音频场景与描述该活跃SEC模型的信息作比较的实现。 [0083] 在图5中,由(诸)话筒104捕获的音频数据被用于生成音频数据样本110。音频数据样本110被用于执行音频分类402。例如,可用SEC模型114中的一者或多者被图1的SEC引擎 120用作活跃SEC模型。在特定方面,活跃SEC模型选自可用SEC模型114。在一些实现中,使用可用SEC模型114的集合,而不是选择可用SEC模型114中的一者或多者作为活跃SEC模型。 [0084] 音频分类402使用可用SEC模型114中的一者或多者基于对音频数据样本110的分析来生成结果404。结果404可指示与音频数据样本110相关联的声音类别、音频数据样本 110对应于特定声音类别的概率、或音频数据样本110的声音类别是未知的。如果结果404指示音频数据样本110对应于已知的声音类别,则在框406处作出决策以生成输出124,该输出 124指示与音频数据样本110相关联的声音类别122。例如,图1的SEC引擎120可生成输出 124。 [0085] 如果结果404指示音频数据样本110不对应于已知的声音类别,则在框406处作出决策以生成触发126。触发126激活漂移检测方案;在图5中,该漂移检测方案包括使场景检测器140基于来自(诸)传感器134的数据来标识当前音频场景并确定当前音频场景是否对应于生成导致将发送触发126的结果404的SEC模型。 [0086] 在框412,作出关于音频数据样本110的声音类别是否由于漂移而未被识别的确定。例如,如果当前音频场景不对应于生成了结果404的SEC模型,则在框412处的确定是:漂移不是音频数据样本110的声音类别未被识别的原因。在这种情况下,音频数据样本110可被丢弃,或在框414处被存储为未知数据。 [0087] 如果当前音频场景对应于生成了结果404的SEC模型,则在框412处的确定是:音频数据样本110的声音类别由于漂移而未被识别。在这种情况下,已漂移了的声音类别在框 416处被标识,并且音频数据样本110和该声音类别的标识符在框418处被存储为漂移数据。 [0088] 当存储了足够的漂移数据时,SEC模型在框420处被更新,以生成经更新SEC模型 154。经更新SEC模型154被添加到可用SEC模型114。在一些实现中,经更新SEC模型154替代生成了结果404的活跃SEC模型。 [0089] 图6是解说图1的设备100的特定示例的框图。在图6中,设备100被配置成响应于音频数据样本(例如,图1的音频数据样本110)的输入而生成声音标识数据(例如,图1的输出 124)。附加地,图6的设备100被配置成基于模型更新数据148来更新该一个或多个SEC模型 114。例如,设备100被配置成如参照图2所描述地使用漂移数据144来更新SEC模型114,被配置成如参照图3所描述地使用未知数据146来更新SEC模型114、或两者。在一些实现中,远程计算设备618在一些情况下更新SEC模型114。为了解说,设备100可使用漂移数据144来更新SEC模型114,并且远程计算设备618可使用未知数据146来更新SEC模型114。在各种实现中,设备100可具有比图6中所解说的更多或更少的组件。 [0090] 在特定实现中,设备100包括处理器604(例如,中央处理单元(CPU))。设备100可包括一个或多个附加处理器606(例如,一个或多个数字信号处理器(DSP))。处理器604、(诸)处理器606或两者可被配置成生成声音标识数据、更新SEC模型114、或这两者。例如,在图6中,(诸)处理器606包括SEC引擎120。SEC引擎120被配置成使用一个或多个SEC模型114来分析音频数据样本。 [0091] 在图6中,设备100还包括存储器608和CODEC 624。存储器608存储可由处理器604或(诸)处理器606执行的指令660,以实现参照图1‑5所描述的一个或多个操作。在一示例中,指令660包括或对应于特征提取器108、SEC引擎120、场景检测器140、漂移检测器128、模型更新器152、模型检查器320或其组合。存储器608还可存储设置数据130、SEC模型114和模型更新数据148。 [0092] 在图6中,(诸)扬声器622和(诸)话筒104可耦合到CODEC 624。在特定方面,(诸)话筒104被配置成接收表示与设备100相关联的声学环境的音频,以及生成特征提取器用于生成音频数据样本的音频信号。在图6中所解说的示例中,CODEC 624包括数模转换器(DAC  626)和模数转换器(ADC 628)。在特定实现中,CODEC 624从(诸)话筒104接收模拟信号,使用ADC 628将模拟信号转换成数字信号,并将数字信号提供给(诸)处理器606。在特定实现中,(诸)处理器606将数字信号提供给CODEC 624,并且CODEC624使用DAC 626将数字信号转换成模拟信号并将模拟信号提供给(诸)扬声器622。 [0093] 在图6中,设备100还包括输入设备136。设备100还可包括耦合到显示器控制器610的显示器620。在特定方面,输入设备136包括传感器、键盘、指向设备等等。在一些实现中,输入设备136和显示器620在触摸屏或类似的触敏或运动敏感显示器中被组合。输入设备 136可被用于提供与未知数据146相关联的标签,以生成训练数据302。输入设备136还可被用于发起模型更新操作,诸如启动参照图2所描述的模型更新过程或参照图3所描述的模型更新过程。在一些实现中,输入设备136可以另外地或替换地被用于选择可用SEC模型114中将由SEC引擎120使用的特定SEC模型。在特定方面,输入设备136可被用于配置设置数据130(其可被用于选择将由SEC引擎120使用的SEC模型)、确定音频场景142、或这两者。显示器 620可被用于显示各SEC模型之一的分析结果(例如,图1的输出124)、向用户显示对提供与未知数据146相关联的标签的提示、或这两者。 [0094] 在一些实现中,设备100还包括耦合到收发机614的调制解调器612。在图6中,收发机614耦合到天线616以实现与其他设备(诸如远程计算设备618)的无线通信。在其他示例中,收发机614另外地或替换地耦合到通信端口(例如,以太网端口)以实现与其他设备(诸如远程计算设备618)的有线通信。 [0095] 在图6中,设备100包括时钟132和传感器134。作为具体示例,传感器134包括一个或多个相机650、一个或多个定位传感器652、(诸)话筒104、(诸)其他传感器654、或其组合。 [0096] 在特定方面,时钟132生成时钟信号,该时钟信号可被用于向特定音频数据样本指派时间戳以指示特定音频数据样本何时被接收到。在该方面,SEC引擎120可使用时间戳来选择将用于分析特定音频数据样本的特定SEC模型114。附加地或替换地,时间戳可由场景检测器140用于确定与特定音频数据样本相关联的音频场景142。 [0097] 在特定方面,(诸)相机650生成图像数据、视频数据或两者。SEC引擎120可使用图像数据、视频数据或两者来选择将用于分析音频数据样本的特定SEC模型114。附加地或替换地,图像数据、视频数据或两者可由场景检测器140用于确定与特定音频数据样本相关联的音频场景142。例如,特定SEC模型114可被指定供室外使用,并且图像数据、视频数据或两者可被用于确认设备100是否位于室外环境中。 [0098] 在特定方面,(诸)定位传感器652生成定位数据,诸如指示设备100的位置的全球定位数据。SEC引擎120可使用定位数据来选择将用于分析音频数据样本的特定SEC模型 114。附加地或替换地,定位数据可由场景检测器140用于确定与特定音频数据样本相关联的音频场景142。例如,特定SEC模型114可被指定用于在家使用,并且定位数据可被用于确认设备100是否位于家庭位置。(诸)定位传感器652可包括用于基于卫星的定位系统的接收器、用于本地定位系统接收机、惯性导航系统、基于地标的定位系统的接收器、或其组合。 [0099] (诸)其他传感器654可包括例如取向传感器、磁力计、光传感器、接触传感器、温度传感器或耦合到设备100或被包括在设备100内并且可被用于生成对确定在特定时间与设备100相关联的音频场景142有用的场景数据138的任何其他传感器。 [0100] 在特定实现中,设备100被包括在系统级封装或片上系统设备602中。在特定实现中,存储器608、处理器604、(诸)处理器606、显示器控制器610、CODEC 624、调制解调器612和收发机614被包括在系统级封装或片上系统设备602中。在特定实现中,输入设备136和电源630耦合到片上系统设备602。此外,在特定实现中,如图6中所解说的,显示器620、输入设备136、(诸)扬声器622、传感器134、时钟132、天线616和电源630在片上系统设备602外部。 在特定实现中,显示器620、输入设备136、(诸)扬声器622、传感器134、时钟132、天线616和电源630中的每一者可耦合至片上系统设备602的组件(诸如接口或控制器)。 [0101] 设备100可包括、对应于或被包括在以下各项内:语音激活的设备、音频设备、无线扬声器和语音激活的设备、便携式电子设备、汽车、交通工具、计算设备、通信设备、物联网(IoT)设备、虚拟现实(VR)设备、增强现实(AR)设备、混合现实(MR)设备、智能扬声器、移动计算设备、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板设备、个人数字助理、显示设备、电视、游戏控制台、电器、音乐播放器、收音机、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航设备或其任何组合。在特定方面,处理器604、(诸)存储器606或其组合被包括在集成电路中。 [0102] 图7是纳入图1的设备100的各方面的交通工具700的解说性示例。根据一种实现,交通工具700是自动驾驶汽车。根据其他实现,交通工具700是汽车、卡车、摩托车、飞行器、水上交通工具等。在图7中,交通工具700包括显示器620、诸传感器134中的一者或多者、设备100、或其组合。传感器134和设备100使用虚线来示出以指示这些组件对于交通工具700的乘客可能不可见。设备100可以被集成到交通工具700中或耦合到交通工具700。 [0103] 在特定方面,设备100耦合到显示器620并响应于诸SEC模型114之一检测到或识别出本文中所描述的各种事件(例如,声音事件)而向显示器620提供输出。例如,设备100将图 1的输出124提供给显示器620以指示由诸SEC模型114之一在从(诸)话筒104接收的音频数据样本110中识别出的声音102(诸如汽车喇叭)的声音类别。在一些实现中,设备100可以响应于识别出声音事件而执行动作,诸如警告交通工具的操作员或激活诸传感器134之一。在特定示例中,设备100提供指示是否正在响应于已识别声音事件而执行动作的输出。在特定方面,用户可以选择在显示器620上显示的选项以响应于已识别声音事件而启用或禁用动作的执行。 [0104] 在特定实现中,传感器134包括图1的(诸)话筒104、交通工具乘载传感器、眼睛跟踪传感器、(诸)定位传感器652、或外部环境传感器(例如,激光雷达传感器或相机)。在特定方面,传感器134的传感器输入指示用户的位置。例如,传感器134与交通工具700内的各个位置相关联。 [0105] 图7中的设备100包括SEC模型114、SEC引擎120、漂移检测器128、场景检测器140和模型更新器152。在其他实现中,设备100当被安装在或被用在交通工具700中时省略模型更新器152。为了解说,图6的模型更新数据148可被发送给远程计算设备618,并且远程计算设备618可基于模型更新数据148来更新诸SEC模型114之一。在此类实现中,经更新SEC模型 114可被下载到交通工具700以供SEC引擎120使用。在一些实现中,设备100当被安装在或被用在交通工具700中时进一步包括图3的模型检查器320。 [0106] 因此,参照图1‑5所描述的技术使得交通工具700的用户能够生成经更新SEC模型以计及特定于设备100在其中操作的声学环境的(或许对于该声学环境唯一性的)漂移。在一些实现中,设备100可以在没有用户干预的情况下生成经更新SEC模型。此外,参照图1‑5所描述的技术使得交通工具700的用户能够生成经更新SEC模型以检测一个或多个新声音类别。另外,SEC模型可以在不过多使用装载在交通工具700上的计算资源的情况下被更新。 例如,交通工具700不必将用于从头开始训练SEC模型的所有训练数据存储在本地存储器中。 [0107] 图8描绘了耦合到头戴式设备802(诸如虚拟现实头戴式设备、增强现实头戴式设备、混合现实头戴式设备、扩展现实头戴式设备、头戴式显示器、或其组合)或集成在头戴式设备802内的设备100的示例。可视接口设备(诸如显示器620)被放置在用户眼睛的前面,以使得在头戴式设备802被佩戴时能够向用户显示增强现实、混合现实或虚拟现实图像或场景。在特定示例中,显示器620被配置成显示设备100的输出,诸如对已识别声音事件的指示(例如,图1的输出124)。头戴式设备802包括传感器134,诸如图1的(诸)话筒104、图6的(诸)相机650、图6的(诸)定位传感器652、图6的其他传感器654、或其组合。尽管在单个位置中解说,但在其他实现中,传感器134可被定位在头戴式设备802的其他位置(诸如分布在头戴式设备802周围的一个或多个话筒和一个或多个相机的阵列)以检测多模态输入。 [0108] 传感器134实现对音频数据的检测,设备100使用该音频数据来检测声音事件或更新SEC模型114。例如,SEC引擎120使用一个或多个SEC模型114来生成声音事件分类数据,该声音事件分类数据可被提供给显示器620以指示在从传感器134接收的音频数据样本中检测到已识别声音事件,诸如汽车喇叭。在一些实现中,设备100可以响应于识别出声音事件而执行动作,诸如激活相机或另一个传感器134或者向用户提供触觉反馈。 [0109] 在图8中解说的示例中,设备100包括SEC模型114、SEC引擎120、漂移检测器128、场景检测器140和模型更新器152。在其他实现中,设备100当被安装在或被用在头戴式设备 802中时省略模型更新器152。为了解说,图6的模型更新数据148可被发送给远程计算设备 618,并且远程计算设备618可基于模型更新数据148来更新诸SEC模型114之一。在此类实现中,经更新SEC模型114可被下载到头戴式设备802以供SEC引擎120使用。在一些实现中,设备100当被安装在或被用在头戴式设备802中时进一步包括图3的模型检查器320。 [0110] 图9描绘了集成到可穿戴电子设备902(被解说为“智能手表”,其包括显示器620和传感器134)中的设备100的示例。传感器134使得能够基于模态(诸如位置、视频、话音和姿势)来检测例如用户输入和音频场景。传感器134还使得能够检测可穿戴电子设备902周围的声学环境中的声音,设备100使用这些声音来检测声音事件或更新SEC模型114。例如,设备100向显示器620提供图1的输出124,该输出124指示在从传感器134接收的音频数据样本中检测到已识别声音事件。在一些实现中,设备100可以响应于识别出声音事件而执行动作,诸如激活相机或另一个传感器134或者向用户提供触觉反馈。 [0111] 在图9中解说的示例中,设备100包括SEC模型114、SEC引擎120、漂移检测器128、场景检测器140和模型更新器152。在其他实现中,设备100当被安装在或被用在可穿戴电子设备902中时省略模型更新器152。为了解说,图6的模型更新数据148可被发送给远程计算设备618,并且远程计算设备618可基于模型更新数据148来更新诸SEC模型114之一。在此类实现中,经更新SEC模型114可被下载到可穿戴电子设备902以供SEC引擎120使用。在一些实现中,设备100当被安装在或被用在可穿戴电子设备902中时进一步包括图3的模型检查器 320。 [0112] 图10是语音控制扬声器系统1000的解说性示例。语音控制扬声器系统1000可具有无线网络连通性,并且被配置成执行辅助操作。在图10中,设备100被包括在语音控制扬声器系统1000中。语音控制扬声器系统1000还包括扬声器1002和传感器134。传感器134包括图1的(诸)话筒104以接收语音输入或其他音频输入。 [0113] 在操作期间,响应于接收到口头命令或已识别声音事件,语音控制扬声器系统 1000可以执行辅助操作。辅助操作可以包括调整温度、播放音乐、开灯等等。传感器134使得能够检测音频数据样本,设备100使用这些音频数据样本来检测声音事件或更新一个或多个SEC模型114。附加地,语音控制扬声器系统1000可以基于由设备100识别的声音事件来执行一些操作。例如,如果设备100识别出关门的声音,则语音控制扬声器系统1000可以打开一个或多个灯。 [0114] 在图10中解说的示例中,设备100包括SEC模型114、SEC引擎120、漂移检测器128、场景检测器140和模型更新器152。在其他实现中,设备100当被安装在或被用在语音控制扬声器系统1000中时省略模型更新器152。为了解说,图6的模型更新数据148可被发送给远程计算设备618,并且远程计算设备618可基于模型更新数据148来更新诸SEC模型114之一。在此类实现中,经更新SEC模型114可被下载到语音控制扬声器系统1000以供SEC引擎120使用。在一些实现中,设备100当被安装在或被用在语音控制扬声器系统1000中时进一步包括图3的模型检查器320。 [0115] 图11解说了纳入图1的设备100的各方面的相机1100。在图11中,设备100被纳入或耦合到相机1100。相机1100包括图像传感器1102和一个或多个其他传感器(例如,传感器 134),诸如图1的(诸)话筒104。附加地,相机1100包括设备100,其被配置成:基于音频数据样本来标识声音事件,以及更新诸SEC模型114中的一者或多者。在特定方面,相机1100被配置成响应于已识别声音事件而执行一个或多个动作。例如,相机1100可使图像传感器1102响应于设备100在来自传感器134的音频数据样本中检测到特定声音事件而捕获图像。 [0116] 在图11中解说的示例中,设备100包括SEC模型114、SEC引擎120、漂移检测器128、场景检测器140和模型更新器152。在其他实现中,设备100当被安装在或被用在相机1100中时省略模型更新器152。为了解说,图6的模型更新数据148可被发送给远程计算设备618,并且远程计算设备618可基于模型更新数据148来更新诸SEC模型114之一。在此类实现中,经更新SEC模型114可被下载到相机1100以供SEC引擎120使用。在一些实现中,设备100当被安装在或被用在相机1100中时进一步包括图3的模型检查器320。 [0117] 图12解说了纳入图1的设备100的各方面的移动设备1200。在图12中,移动设备 1200包括或耦合到图1的设备100。作为解说性而非限制性示例,移动设备1200包括电话或平板设备。移动设备1200包括显示器620和传感器134,诸如图1的(诸)话筒104、图6的(诸)相机650、图6的(诸)定位传感器652、或图6的(诸)其他传感器654。在操作期间,移动设备 1200可响应于设备100识别出特定声音事件而执行特定动作。例如,这些动作可以包括向其他设备(诸如恒温器、家庭自动化系统、另一移动设备等)发送命令。 [0118] 在图12中解说的示例中,设备100包括SEC模型114、SEC引擎120、漂移检测器128、场景检测器140和模型更新器152。在其他实现中,设备100当被安装在或被用在移动设备 1200中时省略模型更新器152。为了解说,图6的模型更新数据148可被发送给远程计算设备 618,并且远程计算设备618可基于模型更新数据148来更新诸SEC模型114之一。在此类实现中,经更新SEC模型114可被下载到移动设备1200以供SEC引擎120使用。在一些实现中,设备 100当被安装在或被用在移动设备1200中时进一步包括图3的模型检查器320。 [0119] 图13解说了纳入图1的设备100的各方面的空中设备1300。在图13中,空中设备 1300包括或耦合到图1的设备100。空中设备1300是载人、无人或遥控空中设备(例如,包裹递送无人机)。空中设备1300包括控制系统1302和传感器134,诸如图1的(诸)话筒104、图6的(诸)相机650、图6的(诸)定位传感器652、或图6的(诸)其他传感器654。控制系统1302控制空中设备1300的各种操作,诸如货物放行、传感器激活、起飞、导航、着陆或其组合。例如,控制系统1302可控制空中设备1300在指定点之间的飞行和货物在特定位置的部署。在特定方面,控制系统1302响应于由设备100检测到特定声音事件而执行一个或多个动作。为了解说,控制系统1302可响应于设备100检测到飞行器引擎而发起安全着陆协议。 [0120] 在图13中解说的示例中,设备100包括SEC模型114、SEC引擎120、漂移检测器128、场景检测器140和模型更新器152。在其他实现中,设备100当被安装在或被用在空中设备 1300中时省略模型更新器152。为了解说,图6的模型更新数据148可被发送给远程计算设备 618,并且远程计算设备618可基于模型更新数据148来更新诸SEC模型114之一。在此类实现中,经更新SEC模型114可被下载到空中设备1300以供SEC引擎120使用。在一些实现中,设备 100当被安装在或被用在空中设备1300中时进一步包括图3的模型检查器320。 [0121] 图14解说了纳入图1的设备100的各方面的头戴式设备1400。在图14中,头戴式设备1400包括或耦合到图1的设备100。头戴式设备1400包括图1的(诸)话筒104,其被定位成主要捕获用户的话音。头戴式设备1400还可包括:一个或多个附加话筒,其被定位成主要捕获环境声音(例如,以进行噪声消除操作);以及诸传感器134中的一者或多者(诸如图6的(诸)相机650、(诸)定位传感器652或(诸)其他传感器654)。在特定方面,头戴式设备1400响应于由设备100检测到特定声音事件而执行一个或多个动作。为了解说,头戴式设备1400可响应于设备100检测到枪声而激活噪声消除特征。头戴式设备1400还可更新诸SEC模型114中的一者或多者。 [0122] 在图14中解说的示例中,设备100包括SEC模型114、SEC引擎120、漂移检测器128、场景检测器140和模型更新器152。在其他实现中,设备100当被安装在或被用在头戴式设备 1400中时省略模型更新器152。为了解说,图6的模型更新数据148可被发送给远程计算设备 618,并且远程计算设备618可基于模型更新数据148来更新诸SEC模型114之一。在此类实现中,经更新SEC模型114可被下载到头戴式设备1400以供SEC引擎120使用。在一些实现中,设备100当被安装在或被用在头戴式设备1400中时进一步包括图3的模型检查器320。 [0123] 图15解说了纳入图1的设备100的各方面的电器1500。在图15中,电器1500是台灯; 然而,在其他实现中,电器1500包括另一物联网电器,诸如冰箱、咖啡机、烤箱、另一家用电器等。电器1500包括或耦合到图1的设备100。电器1500包括传感器134,诸如图1的(诸)话筒 104、图6的(诸)相机650、图6的(诸)定位传感器652、或图6的(诸)其他传感器654。在特定方面,电器1500响应于由设备100检测到特定声音事件而执行一个或多个动作。为了解说,电器1500可响应于设备100检测到关门而激活灯。电器1500还可更新诸SEC模型114中的一者或多者。 [0124] 在图15中解说的示例中,设备100包括SEC模型114、SEC引擎120、漂移检测器128、场景检测器140和模型更新器152。在其他实现中,设备100当被安装在或被用在电器1500中时省略模型更新器152。为了解说,图6的模型更新数据148可被发送给远程计算设备618,并且远程计算设备618可基于模型更新数据148来更新诸SEC模型114之一。在此类实现中,经更新SEC模型114可被下载到电器1500以供SEC引擎120使用。在一些实现中,设备100当被安装在或被用在电器1500中时进一步包括图3的模型检查器320。 [0125] 图16是解说图1的设备100的操作方法1600的示例的流程图。方法1600可由设备 100发起、控制或执行。例如,图6的(诸)处理器604或606可以执行来自存储器608的指令606以使漂移检测器128生成模型更新数据148。 [0126] 在框1602中,方法1600包括提供音频数据样本作为声音事件分类模型的输入。例如,图1的SEC引擎120(或图6的执行与SEC引擎120相对应的指令660的(诸)处理器606)可提供音频数据样本110作为SEC模型112的输入。在一些实现中,方法1600还包括捕获与音频数据样本相对应的音频数据。例如,图1的(诸)话筒104可基于由(诸)话筒104检测到的声音 102来生成音频信号106。此外,在一些实现中,方法1600包括从存储在存储器处的多个声音事件分类模型当中选择声音事件分类模型。例如,图1的SEC引擎120(或图6的执行与SEC引擎120相对应的指令660的(诸)处理器606)可基于以下各项来从可用SEC模型114当中选择SEC模型112:与音频数据样本相关联的传感器数据、标识音频场景或SEC模型112的输入、音频数据样本何时被接收到、设置数据、或其组合。 [0127] 在框1604中,方法1600包括基于声音事件分类模型的响应于音频数据样本的输出来确定音频数据样本的声音类别是否被声音事件分类模型识别出。例如,图1的SEC引擎120(或图6的执行与SEC引擎120相对应的指令660的(诸)处理器606)可确定音频数据样本110的声音类别122是否SEC模型112识别出。为了解说,SEC模型112可生成与SEC模型112被训练以识别的每个声音类别相关联的置信度量,并且关于声音类别是否被SEC模型识别出的确定可基于(诸)置信度量的值。在特定方面,基于确定声音类别122被SEC模型112识别出,SEC引擎120生成指示与音频数据样本110相关联的声音类别122的输出124。 [0128] 在框1606中,方法1600包括:基于确定声音类别未被识别出,确定声音事件分类模型是否对应于与音频数据样本相关联的音频场景。例如,图1的漂移检测器128(或图6的执行与SEC引擎128相对应的指令660的(诸)处理器606)可确定SEC模型112是否对应于与音频数据样本110相关联的音频场景142。为了解说,场景检测器140可基于以下各项来确定音频场景142:经由输入设备136接收的输入、来自(诸)传感器134的传感器数据、由时钟132指示的与音频数据样本110相关联的时间戳、设置数据130、或其组合。在其中SEC模型112选自可用SEC模型的实现中,音频场景142的确定可基于与用于选择SEC模型112的信息不同的信息。 [0129] 在框1608中,方法1600包括:基于确定声音事件分类模型对应于与音频数据样本相关联的音频场景,存储基于音频数据样本的模型更新数据。例如,图1的漂移检测器128(或图6的执行与漂移检测器128相对应的指令660的(诸)处理器606)可存储基于音频数据样本110的模型更新数据148。在特定方面,如果漂移检测器128确定SEC模型112对应于与音频数据样本110相关联的音频场景142,漂移检测器128将漂移数据144存储为模型更新数据 148,而如果漂移检测器128确定SEC模型112不对应于与音频数据样本110相关联的音频场景142,则漂移检测器128将未知数据146存储为模型更新数据148。 [0130] 方法1600还可包括基于模型更新数据来更新SEC模型。例如,图1的模型更新器152(或图6的执行与模型更新器152相对应的指令660的(诸)处理器606)可如参照图2所描述地、如参照图3所描述地或如参照这两者所描述地基于模型更新数据148来更新SEC模型 112。 [0131] 在特定方面,方法1600包括:在存储模型更新数据之后,确定是否已累积了阈值数量的模型更新数据。例如,模型更新器152可确定图1的模型更新数据148是否包括足够的数据(例如,与特定SEC模型或特定声音类别相关联的阈值数量的模型更新数据148)以发起SEC模型112的更新训练。方法1600还可包括:基于确定已累积了阈值数量的模型更新数据,使用累积的模型更新数据来发起声音事件分类模型的自动更新。例如,模型更新器152可在没有来自用户的输入的情况下发起模型更新。在特定实现中,自动更新微调SEC模型112以生成经更新SEC模型154。例如,在自动更新之前,SEC模型112被训练以识别特定声音类别的多个变体,并且该自动更新修改SEC模型112以使得SEC模型112能够将该特定声音类别的附加变体识别为对应于该特定声音类别。 [0132] 由于训练发生的方式,SEC模型通常是封闭集。即,SEC模型能识别的声音类别的数目和类型在训练期间是固定的,并且是有限的。在训练之后,SEC模型通常具有输入和输出之间的静态关系。输入和输出之间的这种静态关系意味着在训练期间习得的映射在将来(例如,在评估新数据时)是有效的,并且输入和输出之间的关系不会改变。然而,针对每个声音类别收集训练样本的完备集是困难的,并且正确地注释所有可用训练数据以训练全面且复杂的SEC模型是困难的。 [0133] 相比之下,在使用期间,SEC模型会面临开集问题。例如,在使用期间,SEC模型可能被提供与已知声音事件和未知声音事件两者相关联的数据样本。附加地,声音或声音特征在SEC模型被训练以识别的每个声音类别中的分布可随时间推移而改变,或者可能无法在可用训练数据中得到全面表示。例如,对于交通声音,基于位置、时间、繁忙或非繁忙路口等的声音差异可能无法在针对交通声音类别的训练数据中被显式地捕获。由于这些和其他原因,在用于训练SEC模型的训练数据和该SEC模型在使用期间被提供的数据集之间可能存在差异。此类差异(例如,数据集移位或漂移)取决于各种因素,诸如位置、时间、正在捕获声音信号的设备等。数据集移位可导致来自SEC模型的不良预测结果。通过适配SED模型以在几乎没有或没有监督的情况下检测此类移位数据,所公开的系统和方法克服了这些和其他问题。附加地,在一些方面,SEC模型可以被更新以识别新声音类别,而不会遗忘先前训练的声音类别。 [0134] 在特定方面,当系统正在推断模式中操作时不执行对SEC模型的训练。相反,在推断模式中的操作期间,使用以一个或多个先前训练的SEC模型的形式的现有知识来分析检出声音。不止一个SEC模型可以被用于分析声音。例如,在推断模式中的操作期间可以使用SEC模型的集合。可以基于对触发条件的检测来从可用SEC模型集合中选择特定SEC。为了解说,每当某个触发(或某些触发)被激活时,特定SEC模型将被用作活跃SEC模型,其也可被称为“源SEC模型”。(诸)触发可基于位置、声音、相机信息、其他传感器数据、用户输入等等。例如,特定SEC模型可被训练以识别与拥挤区域(诸如主题公园、户外购物中心、公共广场等)相关的声音事件。在该示例中,当全球定位数据指示捕获声音的设备处于这些位置中的任一处时,该特定SEC模型可被用作活跃SEC模型。在该示例中,触发基于捕获声音的设备的位置,并且活跃SEC模型在该设备被检测到处于该位置时被选择和加载(例如,作为先前活跃SEC模型的补充或替代)。 [0135] 与所描述的实现相结合地,一种设备包括用于向声音事件分类模型提供音频数据样本的装置。例如,向声音事件分类模型提供音频数据样本的装置包括设备100、指令660、处理器604、(诸)处理器606、SEC引擎120、特征提取器108、(诸)话筒104、CODEC 624、配置成向声音事件分类模型提供音频数据样本的一个或多个其他电路或组件、或其任何组合。 [0136] 该设备还包括用于基于声音分类模型的输出来确定音频数据样本的声音类别是否被声音事件分类模型识别出的装置。例如,用于确定音频数据样本的声音类别是否被声音事件分类模型识别出的装置包括设备100、指令660、处理器604、(诸)处理器606、SEC引擎 120、配置成确定音频数据样本的声音类别是否被声音事件分类模型识别出的一个或多个其他电路或组件、或其任何组合。 [0137] 该设备还包括用于响应于确定声音类别未被识别出而确定声音事件分类模型是否对应于与音频数据样本相关联的音频场景的装置。例如,用于确定声音事件分类模型是否对应于与音频数据样本相关联的音频场景的装置包括设备100、指令660、处理器604、(诸)处理器606、漂移检测器128、场景检测器140、配置成确定声音事件分类模型是否对应于与音频数据样本相关联的音频场景的一个或多个其他电路或组件、或其任何组合。 [0138] 该设备还包括用于响应于确定声音事件分类模型对应于与音频数据样本相关联的音频场景,存储基于音频数据样本的模型更新数据的装置。例如,用于存储模型更新数据的装置包括远程计算设备618、设备100、指令660、处理器604、(诸)处理器606、漂移检测器 128、存储器608、配置成存储模型更新数据的一个或多个其他电路或组件、或其任何组合。 [0139] 在一些实现中,该设备包括用于基于选择准则来从多个声音事件分类模型当中选择声音事件分类模型的装置。例如,用于选择声音事件分类模型的装置包括设备100、指令 660、处理器604、(诸)处理器606、SEC引擎120、配置成选择声音事件分类模型的一个或多个电路或组件、或其任何组合。 [0140] 在一些实现中,该设备包括用于基于模型更新数据来更新声音事件分类模型的装置。例如,用于基于模型更新数据来更新声音事件分类模型的装置包括远程计算设备618、设备100、指令660、处理器604、(诸)处理器606、模型更新器152、模型检查器320、配置成更新声音事件分类模型的一个或多个其他电路或组件、或其任何组合。 [0141] 技术人员将进一步领会,结合本文所公开的实现所描述的各种解说性逻辑框、配置、模块、电路、和算法步骤可被实现为电子硬件、由处理器执行的计算机软件、或两者的组合。各种解说性组件、框、配置、模块、电路、和步骤已经在上文以其功能性的形式作了通用描述。此类功能性是被实现为硬件还是处理器可执行指令取决于具体应用和施加于整体系统的设计约束。技术人员可针对每种特定应用以不同方式来实现所描述的功能性,此类实现决策将不被解读为致使脱离本公开的范围。 [0142] 结合本文中所公开的实现所描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在随机存取存储器 (RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、压缩盘只读存储器(CD‑ROM)、或本领域中所知的任何其他形式的非瞬态存储介质中。示例性存储介质耦合至处理器,以使该处理器可从/向该存储介质读写信息。在替换方案中,存储介质可被整合到处理器。处理器和存储介质可驻留在专用集成电路(ASIC)中。ASIC可驻留在计算设备或用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在计算设备或用户终端中。 [0143] 本公开的特定方面在以下第一组相互关联的条款中作了描述: [0144] 根据条款1,一种设备包括一个或多个处理器,该一个或多个处理器被配置成向声音事件分类模型提供音频数据样本。该一个或多个处理器被进一步配置成基于该声音事件分类模型的响应于这些音频数据样本的输出来确定该音频数据样本的声音类别是否被该声音事件分类模型识别出。该一个或多个处理器还被配置成基于确定该声音类别未被识别出而确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景。该一个或多个处理器被进一步配置成基于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景来存储基于这些音频数据样本的模型更新数据。 [0145] 条款2包括条款1的设备,并进一步包括话筒,该话筒耦合到该一个或多个处理器并且被配置成捕获与这些音频数据样本相对应的音频数据。 [0146] 条款3包括条款1或条款2的设备,并进一步包括存储器,该存储器耦合到该一个或多个处理器并且被配置成存储多个声音事件分类模型,其中该一个或多个处理器被配置成从该多个声音事件分类模型当中选择该声音事件分类模型。 [0147] 条款4包括条款3的设备,并进一步包括一个或多个传感器,该一个或多个传感器被配置成生成与这些音频数据样本相关联的传感器数据,其中该一个或多个处理器被配置成基于该传感器数据来选择该声音事件分类模型。 [0148] 条款5包括条款4的设备,其中该一个或多个传感器包括相机和定位传感器。 [0149] 条款6包括条款3至5中任一者的设备,并进一步包括一个或多个输入设备,该一个或多个输入设备被配置成接收标识该音频场景的输入,其中该一个或多个处理器被配置成基于该音频场景来选择该声音事件分类模型。 [0150] 条款7包括条款3至6中任一者的设备,其中该一个或多个处理器被配置成基于这些音频数据样本何时被接收到来选择该声音事件分类模型。 [0151] 条款8包括条款3至8中任一者的设备,其中该存储器进一步存储指示一个或多个设备设置的设置数据,并且其中该一个或多个处理器被配置成基于该设置数据来选择该声音事件分类模型。 [0152] 条款9包括条款1至8中任一者的设备,其中该一个或多个处理器被进一步配置成基于确定该声音类别被识别出而生成指示与这些音频数据样本相关联的该声音类别的输出。 [0153] 条款10包括条款1至9中任一者的设备,其中该一个或多个处理器被进一步配置成:基于确定该声音事件分类模型不对应于与这些音频数据样本相关联的该音频场景,将与这些音频数据样本相对应的音频数据存储为用于新声音事件分类模型的训练数据。 [0154] 条款11包括条款1至10中任一者的设备,其中该声音事件分类模型被进一步配置成生成与该输出相关联的置信度量,并且其中该一个或多个处理器被配置成基于该置信度量来确定该声音类别是否被该声音事件分类模型识别出。 [0155] 条款12包括条款1至11中任一者的设备,其中该一个或多个处理器被进一步配置成基于该模型更新数据来更新该声音事件分类模型。 [0156] 条款13包括条款1至12中任一者的设备,并进一步包括一个或多个输入设备,该一个或多个输入设备被配置成接收标识该音频场景的输入,其中该一个或多个处理器被配置成基于该输入来确定该声音事件分类模型是否对应于该音频场景。 [0157] 条款14包括条款1至13中任一者的设备,并进一步包括一个或多个传感器,该一个或多个传感器被配置成生成与这些音频数据样本相关联的传感器数据,其中该一个或多个处理器被配置成基于该传感器数据来确定该声音事件分类模型是否对应于该音频场景。 [0158] 条款15包括条款14的设备,其中该一个或多个传感器包括相机和定位传感器。 [0159] 条款16包括条款14或条款15的设备,其中该一个或多个处理器被进一步配置成基于与这些音频数据样本相关联的时间戳来确定该声音事件分类模型是否对应于该音频场景。 [0160] 条款17包括条款1至16中任一者的设备,其中,该一个或多个处理器被集成在移动计算设备内。 [0161] 条款18包括条款1至16中任一者的设备,其中,该一个或多个处理器被集成在交通工具内。 [0162] 条款19包括条款1至16中任一者的设备,其中,该一个或多个处理器被集成在可穿戴设备内。 [0163] 条款20包括条款1至16中任一者的设备,其中,该一个或多个处理器被集成在增强现实头戴式设备、混合现实头戴式设备、或虚拟现实头戴式设备内。 [0164] 条款21包括条款1至20中任一者的设备,其中,该一个或多个处理器被包括在集成电路中。 [0165] 条款22包括条款1至21中任一者的设备,其中该声音事件分类模型被训练以识别特定声音类别,并且该模型更新数据包括漂移数据,该漂移数据表示该特定声音类别内该声音事件分类模型未被训练以识别为对应于该特定声音类别的声音特性变化。 [0166] 本公开的特定方面在以下第二组相互关联的条款中作了描述: [0167] 根据条款23,一种方法包括由一个或多个处理器提供音频数据样本作为声音事件分类模型的输入。该方法还包括由该一个或多个处理器基于该声音事件分类模型的响应于这些音频数据样本的输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出。该方法进一步包括:基于确定该声音类别未被识别出,由该一个或多个处理器确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景。该方法还包括:基于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景,由该一个或多个处理器存储基于这些音频数据样本的模型更新数据。 [0168] 条款24包括条款23的方法,并进一步包括从存储在耦合到该一个或多个处理器的存储器处的多个声音事件分类模型当中选择该声音事件分类模型。 [0169] 条款25包括条款24的方法,其中该声音事件分类模型是基于用户输入、设置数据、位置数据、图像数据、视频数据、与这些音频数据样本相关联的时间戳、或其组合而被选择的。 [0170] 条款26包括条款23至25中任一者的方法,其中关于该声音事件分类模型是否对应于该音频场景的确定基于由该声音事件分类模型生成的置信度量、用户输入、设置数据、位置数据、图像数据、视频数据、与这些音频数据样本相关联的时间戳、或其组合。 [0171] 条款27包括条款23至26中任一者的方法,并进一步包括捕获与这些音频数据样本相对应的音频数据。 [0172] 条款28包括条款23至27中任一者的方法,并进一步包括从多个可用的声音事件分类模型当中选择该声音事件分类模型。 [0173] 条款29包括条款23至27中任一者的方法,并进一步包括接收与这些音频数据样本相关联的传感器数据,以及基于该传感器数据来从多个可用的声音事件分类模型当中选择该声音事件分类模型。 [0174] 条款30包括条款23至27中任一者的方法,并进一步包括接收标识该音频场景的输入,以及基于该音频场景来从多个可用的声音事件分类模型当中选择该声音事件分类模型。 [0175] 条款31包括条款23至27中任一者的方法,并进一步包括基于这些音频数据样本何时被接收到来从多个可用的声音事件分类模型当中选择该声音事件分类模型。 [0176] 条款32包括条款23至27中任一者的方法,并进一步包括基于该设置数据来从多个可用的声音事件分类模型当中选择该声音事件分类模型。 [0177] 条款33包括条款23至32中任一者的方法,并进一步包括基于确定该声音类别被识别出而生成指示与这些音频数据样本相关联的该声音类别的输出。 [0178] 条款34包括条款23至33中任一者的方法,并进一步包括:基于确定该声音事件分类模型不对应于与这些音频数据样本相关联的该音频场景,将与这些音频数据样本相对应的音频数据存储为用于新声音事件分类模型的训练数据。 [0179] 条款35包括条款23至34中任一者的方法,其中该声音事件分类模型的该输出包括置信度量,并且该方法进一步包括基于该置信度量来确定该声音类别是否被该声音事件分类模型识别出。 [0180] 条款36包括条款23至35中任一者的方法,并进一步包括基于该模型更新数据来更新该声音事件分类模型。 [0181] 条款37包括条款23至36中任一者的方法,并进一步包括接收标识该音频场景的输入,其中关于该声音事件分类模型是否对应于该音频场景的确定基于该输入。 [0182] 条款38包括条款23至37中任一者的方法,并进一步包括接收与这些音频数据样本相关联的传感器数据,其中关于该声音事件分类模型是否对应于该音频场景的确定基于该传感器数据。 [0183] 条款39包括条款23至38中任一者的方法,其中关于该声音事件分类模型是否对应于该音频场景的确定基于与这些音频数据样本相关联的时间戳。 [0184] 条款40包括条款23至39中任一者的方法,并进一步包括:在存储该模型更新数据之后,确定是否已累积了阈值数量的模型更新数据,以及基于确定已累积了该阈值数量的模型更新数据,使用累积的模型更新数据来发起该声音事件分类模型的自动更新。 [0185] 条款41包括条款23至40中任一者的方法,其中,在该自动更新之前,该声音事件分类模型被训练以识别特定声音类别的多个变体,并且其中该自动更新修改该声音事件分类模型以使得该声音事件分类模型能够将该特定声音类别的附加变体识别为对应于该特定声音类别。 [0186] 本公开的特定方面在以下第三组相互关联的条款中作了描述: [0187] 根据条款42,一种设备包括用于向声音事件分类模型提供音频数据样本的装置。 该设备还包括用于基于该声音分类模型的输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出的装置。该设备进一步包括用于响应于确定该声音类别未被识别出而确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景的装置。该设备还包括用于响应于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景来存储基于这些音频数据样本的模型更新数据的装置。 [0188] 条款43包括条款42的设备,并进一步包括用于基于选择准则来从多个声音事件分类模型当中选择该声音事件分类模型的装置。 [0189] 条款44包括条款42或条款43的设备,并进一步包括用于基于该模型更新数据来更新该声音事件分类模型的装置。 [0190] 条款45包括条款42至44中任一者的设备,并进一步包括用于捕获与这些音频数据样本相对应的音频数据的装置。 [0191] 条款46包括条款42至45中任一者的设备,并进一步包括用于存储多个声音事件分类模型的装置和用于从该多个声音事件分类模型当中选择该声音事件分类模型的装置。 [0192] 条款47包括条款46的设备,并进一步包括用于接收标识该音频场景的输入的装置,其中该声音事件分类模型是基于标识该音频场景的该输入而被选择的。 [0193] 条款48包括条款46的设备,并进一步包括用于确定这些音频数据样本何时被接收到的装置,其中该声音事件分类模型是基于这些音频数据样本何时被接收到而被选择的。 [0194] 条款48包括条款46的设备,并进一步包括用于存储指示一个或多个设备设置的设置数据的装置,其中该声音事件分类模型是基于该设置数据而被选择的。 [0195] 条款50包括条款42至49中任一者的设备,并进一步包括用于基于确定该声音类别被识别出而生成指示与这些音频数据样本相关联的该声音类别的输出的装置。 [0196] 条款51包括条款42至50中任一者的设备,并进一步包括:用于基于确定该声音事件分类模型不对应于与这些音频数据样本相关联的该音频场景来将与这些音频数据样本相对应的音频数据存储为用于新声音事件分类模型的训练数据的装置。 [0197] 条款52包括条款42至51中任一者的设备,其中该声音事件分类模型被进一步配置成生成与该输出相关联的置信度量,并且其中关于该声音类别是否被该声音事件分类模型识别出的确定基于该置信度量。 [0198] 条款53包括条款42至52中任一者的设备,并进一步包括用于基于该模型更新数据来更新该声音事件分类模型的装置。 [0199] 条款54包括条款42至53中任一者的设备,并进一步包括用于接收标识该音频场景的输入的装置,其中关于该声音事件分类模型是否对应于该音频场景的确定基于该输入。 [0200] 条款55包括条款42至54中任一者的设备,并进一步包括用于生成与这些音频数据样本相关联的传感器数据的装置,其中关于该声音事件分类模型是否对应于该音频场景的确定基于该传感器数据。 [0201] 条款56包括条款42至55中任一者的设备,其中关于该声音事件分类模型是否对应于该音频场景的确定基于与这些音频数据样本相关联的时间戳。 [0202] 条款57包括条款42至56中任一者的设备,其中用于向声音事件分类模型提供音频数据样本的装置、用于接收该音频数据分类模型的输出的装置、用于确定这些音频数据样本的该声音类别是否被该声音事件分类模型识别出的装置、用于确定该声音事件分类模型是否对应于与这些音频数据样本相关联的该音频场景的装置和用于存储基于这些音频数据样本的该模型更新数据的装置被集成在移动计算设备内。 [0203] 条款58包括条款42至56中任一者的设备,其中用于向声音事件分类模型提供音频数据样本的装置、用于接收该音频数据分类模型的输出的装置、用于确定这些音频数据样本的该声音类别是否被该声音事件分类模型识别出的装置、用于确定该声音事件分类模型是否对应于与这些音频数据样本相关联的该音频场景的装置和用于存储基于这些音频数据样本的该模型更新数据的装置被集成在交通工具内。 [0204] 条款59包括条款42至56中任一者的设备,其中用于向声音事件分类模型提供音频数据样本的装置、用于接收该音频数据分类模型的输出的装置、用于确定这些音频数据样本的该声音类别是否被该声音事件分类模型识别出的装置、用于确定该声音事件分类模型是否对应于与这些音频数据样本相关联的该音频场景的装置和用于存储基于这些音频数据样本的该模型更新数据的装置被集成在可穿戴设备内。 [0205] 条款60包括条款42至56中任一者的设备,其中用于向声音事件分类模型提供音频数据样本的装置、用于接收该音频数据分类模型的输出的装置、用于确定这些音频数据样本的该声音类别是否被该声音事件分类模型识别出的装置、用于确定该声音事件分类模型是否对应于与这些音频数据样本相关联的该音频场景的装置和用于存储基于这些音频数据样本的该模型更新数据的装置被集成在增强现实头戴式设备、混合现实头戴式设备或虚拟现实头戴式设备内。 [0206] 条款61包括条款42至60中任一者的设备,其中用于向声音事件分类模型提供音频数据样本的装置、用于接收该音频数据分类模型的输出的装置、用于确定这些音频数据样本的该声音类别是否被该声音事件分类模型识别出的装置、用于确定该声音事件分类模型是否对应于与这些音频数据样本相关联的该音频场景的装置和用于存储基于这些音频数据样本的该模型更新数据的装置被包括在集成电路中。 [0207] 本公开的特定方面在以下第四组相互关联的条款中作了描述: [0208] 根据条款62,一种存储指令的非瞬态计算机可读存储介质,这些指令在由处理器执行时使该处理器提供音频数据样本作为声音事件分类模型的输入。这些指令还能由处理器执行以基于该声音事件分类模型的响应于这些音频数据样本的输出来确定这些音频数据样本的声音类别是否被该声音事件分类模型识别出。这些指令能进一步由处理器执行以基于确定该声音类别未被识别出而确定该声音事件分类模型是否对应于与这些音频数据样本相关联的音频场景。这些指令能进一步由处理器执行以基于确定该声音事件分类模型对应于与这些音频数据样本相关联的该音频场景,存储基于这些音频数据样本的模型更新数据。 [0209] 条款63包括条款62的非瞬态计算机可读介质,其中这些指令进一步使该处理器基于该模型更新数据来更新该声音事件分类模型。 [0210] 条款64包括条款62或条款63的非瞬态计算机可读介质,其中这些指令进一步使该处理器从存储在存储器中的多个声音事件分类模型当中选择该声音事件分类模型。 [0211] 条款65包括条款64的非瞬态计算机可读介质,其中这些指令使该处理器基于传感器数据来选择该声音事件分类模型。 [0212] 条款66包括条款64的非瞬态计算机可读介质,其中这些指令使该处理器基于标识与这些音频数据样本相关联的音频场景的输入来选择该声音事件分类模型。 [0213] 条款67包括条款64的非瞬态计算机可读介质,其中这些指令使该处理器基于这些音频数据样本何时被接收到来选择该声音事件分类模型。 [0214] 条款68包括条款64的非瞬态计算机可读介质,其中这些指令使该处理器基于设置数据来选择该声音事件分类模型。 [0215] 条款69包括条款62至68中任一者的非瞬态计算机可读介质,其中这些指令使该处理器基于确定该声音类别被识别出而生成指示与这些音频数据样本相关联的该声音类别的输出。 [0216] 条款70包括条款62至69中任一者的非瞬态计算机可读介质,其中这些指令使该处理器基于确定该声音事件分类模型不对应于与这些音频数据样本相关联的该音频场景,将与这些音频数据样本相对应的音频数据存储为用于新声音事件分类模型的训练数据。 [0217] 条款71包括条款62至70中任一者的非瞬态计算机可读介质,其中这些指令使该处理器生成与该输出相关联的置信度量,并且其中关于该声音类别是否被该声音事件分类模型识别出的确定基于该置信度量。 [0218] 条款72包括条款62至71中任一者的非瞬态计算机可读介质,其中这些指令使该处理器基于该模型更新数据来更新该声音事件分类模型。 [0219] 条款73包括条款62至72中任一者的非瞬态计算机可读介质,其中关于该声音事件分类模型是否对应于该音频场景的确定基于指示该音频场景的用户输入。 [0220] 条款74包括条款62至73中任一者的非瞬态计算机可读介质,其中关于该声音事件分类模型是否对应于该音频场景的确定基于传感器数据。 [0221] 条款75包括条款62至74中任一者的非瞬态计算机可读介质,其中关于该声音事件分类模型是否对应于该音频场景的确定基于与这些音频数据样本相关联的时间戳。 [0222] 提供对所公开各方面的先前描述是为使本领域技术人员皆能够制作或使用所公开各方面。对这些方面的各种修改对于本领域技术人员而言将是显而易见的,并且本文中定义的原理可被应用于其他方面而不会脱离本公开的范围。由此,本公开并非旨在限定于本文中示出的各方面,而是应被授予可能与如由所附权利要求所定义的原理和新颖性特征一致的最广义的范围。

相关技术
声音事件相关技术
适应声音相关技术
F·萨基发明人的其他相关专利技术