首页 / 基于自监督学习的视听语音识别方法、设备和存储介质

基于自监督学习的视听语音识别方法、设备和存储介质有效专利 发明

技术领域

[0001] 本申请涉及数据处理技术领域,尤其涉及语音识别方法。

相关背景技术

[0002] 在理想的无噪声条件下,单模态的音频语音识别系统能够取得不错的识别效果。然而,在真实世界的自然环境下,噪声的存在往往不可避免,这对识别的准确性构成了显著的挑战。
[0003] 当前,领先的语音识别技术主要采用基于有监督学习的训练方式,这一方法依赖于配对的语音和文本数据。而全球近7000种语言中的大多数都难以获得这些配对数据。现有技术中,通过融合视觉信息的双模态视听语音识别技术为解决此问题提供了新的路径,但是,视频质量的不佳或说话者面部部分遮挡都可能削弱视觉信息的有效性,并且对于资源稀缺的语言,由于现有技术对大量标注数据的依赖,导致很难达到语音识别的要求,而且现有技术仍存在由于各种噪声导致的语音识别精度过低的技术问题。

具体实施方式

[0029] 下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0030] 实施方式一、一种基于自监督学习的视听语音识别方法,所述方法包括:步骤1:将获取到的音视频数据集分离为音频文件和视频帧图像文件,对所述视频帧文件进行预处理,获取图像数据;
步骤2:对于所述音频文件,提取出MFCC特征;根据所述图像数据,得到图像特征;
步骤3:使用自监督学习方法和随机掩蔽策略分别训练音频和视觉编码器;
步骤4:将音频特征 和图像特征 送入到训练后的音频和视觉编码器,得到音频特征编码,标记为 ,图像特征编码,标记为 ,采用基于注意力机制的融合策略将二者融合,得到融合特征X;
步骤5:将融合特征X送入到基于Conformer的解码器,解码器解析融合特征X,输出最终的语音识别结果。
[0031] 本实施方式中,使用自监督学习方法分别训练音频和视觉编码器,利用随机掩蔽的策略,随机掩盖输入序列的某些部分,然后让模型预测被掩盖的部分。
[0032] 对于解码,将融合特征X送入到基于Conformer的解码器,解码器解析融合特征X,输出最终的语音识别结果,这一步骤关键在于利用Conformer解码器的强大能力来转换多模态融合后的复杂特征,生成准确的文本输出,实现视听语音识别的目标。
[0033] 本实施方式将视觉信息与音频信息结合起来进行语音识别,降低识别的错误率,并加入自监督预训练,通过对基于自监督模型的视听语音识别技术研究,旨在降低识别的错误率、减少视听语音识别系统的复杂性和资源的耗费。
[0034] 实施方式二,本实施方式是对实施方式一所述的一种基于自监督学习的视听语音识别方法的进一步限定,本实施方式中,对步骤1中,所述对所述视频文件进行预处理,获取图像数据,做了进一步限定,具体包括:步骤1中,所述对所述视频文件进行预处理,获取图像数据,具体包括:对所述视频文件提取视频帧,检测视频帧图像的嘴部,并将其转化为灰度图,得到图像数据。
[0035] 本实施方式专注于视频帧图像的嘴部区域,动态的嘴部区域能够提供关于说话内容的重要线索,特别是在音频信号收到干扰或质量不高时。口型和语音之间的同步性有助于提高语音识别系统的准确性。将视频帧图像转换为灰度图可以减少数据处理的复杂度,因为灰度图仅包含亮度信息,不包含颜色信息。这样的转换减轻了计算负担,加快了图像处理速度,使系统能够更快地分析视频帧并提取必要的视觉特征,这对于实时或近实时的语音识别系统尤为重要。
[0036] 对于获取到的音视频数据集LRS2,可以使用FFmpeg工具将mp4文件分离为音频文件和视频文件,并对视频文件提取视频帧,使用人脸特征点检测模型检测视频帧图像的嘴部,并将其转化为灰度图,裁剪为224×224大小的图片,得到图像数据。
[0037] 实施方式三,本实施方式是对实施方式二所述的一种基于自监督学习的视听语音识别方法的进一步限定,本实施方式中,对步骤2,做了进一步限定,具体包括:步骤2,具体包括:
对于所述音频文件,提取出MFCC特征,得到音频特征;
对于所述图像数据,采用基于二维卷积核构成的卷积网络进行卷积处理,得到图像特征。
[0038] 本实施方式限定了音频文件和图像数据所要提取的特征数据,这些数据可以有效结合实现最终的语音识别。对于音频文件,可以将其经过预加重、分帧、加窗等处理操作后,提取出MFCC特征,标记为音频特征 ;对于图像数据,采用基于二维卷积核构成的卷积网络进行卷积处理,得到图像特征,标记为 。
[0039] 实施方式四,本实施方式是对实施方式三所述的一种基于自监督学习的视听语音识别方法的进一步限定,本实施方式中,对所述采用基于二维卷积核构成的卷积神经网络进行卷积处理,得到图像特征,做了进一步限定,具体包括:所述采用基于二维卷积核构成的卷积神经网络进行卷积处理,得到图像特征,具体包括:
进行卷积操作:
[0040] 其中, 为图像序列, ,T为序列的长度,每帧图像 的维度为, 是通道数, =1,H和W分别是帧的高度和宽度, 的维度为
,W为卷积核的权重,f为激活函数RELU,b是一个偏置项,是一个常数项,用于调整神经元的激活值, ,即 ,激活函数会将输入
值中所有负数置为0,而所有非负数保持不变;
采用最大化池化处理函数:
,
为池化层处理后的特征图;
获取空间注意力权重,调整特征图,具体为:
,
,
其中,为空间注意力权重, 为调整后的特征图, 为输入特征;
加入时间注意力机制,具体为:
查询向量 ,键向量 ,
时间注意力权重的计算公式为: ,其中, 为时间步t的时间
注意力权重;
使用时间注意力权重加权每一帧的特征,具体为:
, 为考虑时间注意力后的特征;
通过对所有时间步的加权特征 进行汇总,得到视频的综合特征表示为:
[0041] 其中, 为融合了空间和时间注意力机制的图像特征。
[0042] 本实施方式中,对于图像特征的提取,在原来的卷积神经网络的基础上加入了空间注意力机制和时间注意力机制。在原卷积神经网络中先加入空间注意力,再加时间注意力,提高了网络对视频中关键部分的感知能力。
[0043] 本实施方式的池化操作,采用最大化池化处理函数,能够降低特征图的空间维度。通过对输入特征 进行平均池化和最大化池化操作来提取不同的空间特征。再将这两种池化结果通过 操作合并,最后,这个空间注意力图 与原始特征 相乘,得到加权后的特征,生成空间注意力图。从而,对于有方言或言语障碍的说话者,通过结合不同池化策略提取的丰富空间特征,能够更好地捕捉口型和面部表情的细微差异,进而改进这些非标准语音的识别准确性;还可以提高模型对情境的适应性,在不同的环境下,例如从安静的室内到嘈杂的室外环境,语音识别系统需要适应不同的背景噪声或视觉环境。通过动态调整对平均池化和最大池化特征的依赖程度,系统可以根据当前情景的特点自适应地调整其关注点,例如在视觉条件差时更多地依赖音频信号。
[0044] 进而上述方法可以捕捉更广泛的上下文信息,帮助系统更准确地理解和预测说话内容,理解用户意图;区分同音词、消除歧义,从而提高识别准确性;在对话或连续语音中,某些句子的含义很大程度上依赖于先前的对话内容,捕捉更广泛的上下文信息使得语音识别系统能够理解这些复杂的语境和对话流程,进而正确识别当前的语音信号。
[0045] 采用本实施方式的设置,网络能够有选择性地关注图像中的重要空间和时间区域,提高网络对图像中关键部分的感知能力,让模型学习到更加有用的特征。在图像数据中,并非所有区域都等同重要,某些区域可能包含了对当前任务更为关键的信息。空间注意力机制使得模型能够专注于图像中的特定区域,通过学习赋予不同空间位置不同的权重,网络可以更加集中地处理那些包含关键特征的区域。时间注意力机制能让模型关注图像中的特定时间点或时间段,在视频帧序列中,某些帧可能比其他帧更具信息量,对理解整个视频内容至关重要。时间注意力通过分配不同的权重给序列中不同的时间点,使得模型能够优先处理和学习这些关键时间点的特征,忽略那些相对不重要的帧。
[0046] 通过结合这两种注意力机制,网络能够在特征提取的过程中时同时考虑空间和时间维度的重要性,优先分配计算资源给那些关键的空间区域和时间点,从而提高对这些区域的特征提取和表示能力。
[0047] 实施方式五,本实施方式是对实施方式四所述的一种基于自监督学习的视听语音识别方法的进一步限定,本实施方式中,对所述卷积处理的损失函数,做了进一步限定,具体包括:所述卷积处理的损失函数为:
[0048] 其中, 表示观察样本o的真实标签在类别c上的指示,如果o属于类别c,则值为1,否则,值为0; 是模型基于图像特征 的预测输出;公式中,第一项是针对所有类别的交叉熵损失,第二项是所有模型权重的L2正则化项,λ是正则化系数。
[0049] 本实施方式中,为防止模型在特定区域过度集中注意力,导致过拟合,在模型参数中加入了正则化技术,损失函数结合了交叉熵损失函数和L2正则化项。这是因为在某些情况下,关键信息不一定总是出现在视频帧的同一区域中,通过防止模型过度集中注意力于特定区域,可以使模型更加灵活地适应这些动态变化,提高对异常情况的识别能力;通过防止模型过度集中于特定区域的信息,模型的预测或决策可以更容易地被追溯到数据中的多个相关信息,模型决策的透明度和可解释性有所提高,这对于需要高度可解释性的应用场景(如医疗诊断等)尤为重要。
[0050] 本实施方式提高模型的泛化能力,直接导致在未见过的测试数据上有更好的表现,即提高了语音识别的准确性。
[0051] 实施方式六,本实施方式是对实施方式一所述的一种基于自监督学习的视听语音识别方法的进一步限定,本实施方式中,对步骤3,做了进一步限定,具体包括:步骤3,包括:
对于音频特征 和图像特征 ,根据掩蔽比例对时间步进行掩蔽,具体为:
[0052] 其中, 和 分别是随机选定的需要被掩码的音频和图像索引合集;最小化预测值和真实值的差异,具体为:
,
[0053] 其中, 和 分别表示除了被掩码的部分外的音频和图像特征序列, 和分别是音频和图像的损失函数,用于评估模型在预测掩码部分的性能。
[0054] 本实施方式可以让模型进行自监督训练,进而提高模型的泛化能力;增强模型在复杂环境下的鲁棒性;在一定程度上减少对昂贵标注资源的依赖;提高对遮挡和不完整信息的处理能力;促进模型学习如何有效地融合来自不同源的信息,提升其对多模态特征的理解和利用能力。
[0055] 实施方式七,本实施方式是对实施方式一所述的一种基于自监督学习的视听语音识别方法的进一步限定,本实施方式中,对步骤4,做了进一步限定,具体包括:步骤4,包括:
对音频特征和图像特征进行编码,具体为:
,
[0056] 其中,EA为音频特征编码,Ev为图像特征编码;将音频特征编码和图像特征编码进行拼接,具体为: ;
将拼接后的特征编码输入多头自注意力机制,具体为: ,
其中,每个头对应的注意力为:
[0057] 其中,Q,K,V分别是查询Query、键Key和值Value矩阵, 是键向量的维度;每个头的输出被重新组合并通过一个线性层进行处理,得到最终的MHSA输出;
通过一个前馈网络进一步处理MHSA的输出,得到最终的融合特征:

[0058] 本实施方式中,使用Conformer和多头自注意力机制的组合,不仅提升了特征表示的能力,还增强了模型对音视频时空信息的捕获能力,有利于提高识别的准确性和鲁棒性。
[0059] 实施方式八,本实施方式是对如上文所述的一种基于自监督学习的视听语音识别方法的实施例1,具体包括:(1)数据预处理:在获取到用户发音时视频数据集LRS2后,使用FFmpeg工具将mp4文件分离为音频文件和视频文件,并提取视频帧,使用人脸特征点检测模型检测视觉流数据中的嘴部,并将其转化为灰度图,裁剪为224×224大小的图片,得到音频序列和图像序列 ,T为序列的长度。
[0060] (2)特征提取:对于音频文件,将其预加重、分帧、加窗、快速傅里叶变换、Mel滤波器、对数运算、离散余弦变换等步骤,提取出MFCC特征,标记音频特征为 ;对于图像特征,采用基于二维卷积核构成的卷积网络进行卷积和特征提取处理,得到图像特征,标记为 。
[0061] (3)自监督训练:使用自监督学习方法独立训练音频和视觉编码器,利用随机掩蔽的策略,随机掩盖输入序列的某些部分,然后让模型预测被掩盖的部分。
[0062] (4)多模态融合:将音频特征 和图像特征 送入到训练后的音频和视觉编码器,得到音频特征编码,标记为 ,图像特征编码,标记为 ,采用基于注意力机制的融合策略将二者融合,得到融合特征X。
[0063] (5)解码:将融合特征X送入到基于Conformer的解码器,解码器解析融合特征X,输出最终的语音识别结果,这一步骤关键在于利用Conformer解码器的强大能力来转换多模态融合后的复杂特征,生成准确的文本输出,实现视听语音识别的目标。
[0064] 具体地:步骤(2)中,对于图像数据特征的提取,所述方法在原来的卷积神经网络的基础上,加入了空间注意力机制和时间注意力机制,并且为防止模型在特定区域过度集中注意力,导致过拟合,还在模型参数中加入了正则化技术。包括以下内容:
先进行卷积操作:
[0065] 为图像序列, ,T为序列的长度,每帧图像 的维度为,这里 是通道数,因为图像是灰度图, =1,H和W分别是帧的高度和宽度,的维度为 ,公式中的W为卷积核的权重,f为激活函数RELU。
[0066] 池化操作,采用最大化池化处理函数,能够降低特征图的空间维度:,
为池化层处理后的特征图。
[0067] 空间注意力权重计算,调整特征图:,
,
为空间注意力权重, 为调整后的特征图。通过对输入特征 进行平均池化和最大化池化操作来提取不同的空间特征。再将这两种池化结果通过 操作合并,最后,这个空间注意力图 与原始特征 相乘,得到加权后的特征,生成空间注意力图。这种方法可以捕捉更广泛的上下文信息。
[0068] 加入时间注意力机制:查询向量Q: , 为经过空间注意力调整后的特征图。使用所有时间
步的特征图的平均值来表示整个图像序列,从而捕捉图像的全局上下文信息。
[0069] 键向量: ,为保持简单性,直接使用每一时间步调整后的特征图 本身。
[0070] 基于这些定义,时间注意力权重的计算公式细化为:,其中 为时间步t的时间注意力权重,通过计算查询向量Q
与每个键向量 的点积并通过softmax函数归一化得到。
[0071] 使用时间注意力权重加权每一帧的特征:, 为考虑时间注意力后的特征。
[0072] 通过对所有时间步的加权特征 进行汇总,得到图像的综合特征表示为:, 为融合了空间和时间注意力机制的图像特征。
[0073] 损失函数结合了交叉熵损失函数和L2正则化项,损失函数为:,其中, 表示观察o(一个数
据点或样本)的真实标签在类别c上的指示。如果o属于类别c,则值为1;否则,值为0。
是模型基于图像特征 的预测输出。第一项是针对所有类别的交叉熵损失,第二项是所有模型权重的L2正则化项,λ是正则化系数。
[0074] 使用这样的设置,网络能够有选择性地关注图像中的重要空间和时间区域,提高网络对图像中关键部分的感知能力,让模型学习到更加有用的特征。
[0075] 步骤(3)中,利用随机掩蔽的策略,采用类似BERT的预训练方法。
[0076] 在前面的步骤中,得到了图像特征 和音频特征序列 ,对于音频特征序列,选择掩蔽比例pa=15%,大约有pa×Ta个时间步将被掩蔽;
对于图像特征 ,采取类似的策略,pv=15%,大约有pv×Tv个时间步将被掩蔽。掩码操作为:
, ,其中 和 分别是随机选定的需要
被掩码的音频和图像索引合集。
[0077] 最小化预测值和真实值的差异,对于音频和图像数据,表示为:, , 和 分别
表示除了被掩码的部分外的音频和图像特征序列, 和 分别是音频和图像的损失函数,用于评估模型在预测掩码部分的性能。
[0078] 步骤(4)中,通过Conformer和注意力机制来对两特征编码并融合,首先对音频特征序列和图像特征序列编码,,
[0079] 得到音频特征编码EA和图像特征编码Ev。将两特征拼接: ,其中拼接公式表示为:然后将拼接后的特征编码送入多头自注意力机制:
,其中每个头对应的注意力计算表示为:
,其中Q,K,V分别是查询(Query)、键(Key)和值
(Value)矩阵, 是键向量的维度,用于缩放点积的结果,以避免过大的值使softmax函数的梯度过小。每个头的输出,会被重新组合并通过一个线性层进行处理,得到最终的MHSA输出。
[0080] 最后,通过一个前馈网络进一步处理MHSA的输出,得到最终的融合特征:。使用Conformer和多头自注意力机制的组合,不仅提升了特征表示的能
力,还增强了模型对音视频时空信息的捕获能力,有利于提高识别的准确性和鲁棒性。
[0081] 实施方式九,本实施方式是对如上文所述的一种基于自监督学习的视听语音识别方法的实施例2,具体包括:如图2所示,为本实施例的模型结构图,包括预处理模块、特征提取模块、自监督训练模块、融合模块、解码模块。
[0082] 图1为本实施例的流程示意图。在获取到数据集之后,使用FFmpeg工具将mp4文件分离,对于音频数据,提取其MFCC特征。具体操作为:首先通过公式: ,将数字语音信号s(n)通过一个高通滤波器,加强高频信息,因为一般高频能量比低频小,α的取值为0.95。然后给语音分帧,每一帧代表一小段时间t的语音数据。帧由N个采样点组成。帧长(T),语音数据采样频率(F)和帧的采样点(N)之间的关系为: 。将音频信号分成短时帧,每帧20毫秒,声音的特性在这个较短的时间内通常是稳定的。然后对音频加窗,对每一帧应用汉明窗函数,窗函数有助于减少频谱泄露,保证每帧的信号都是平滑的。汉明窗的公式为: ,其中N为窗口长度,0≤n≤N‑1。对分帧加窗后的各帧信号进行N点傅里叶变换,得到各帧的频谱。N为每帧的采样点,取值256。这个过程也叫STFT,具体公式如下: 。其中 为信号x的第i个帧。接下来创建一组梅尔滤波器,由于人耳对不同频率的敏感程度不同,且成非线性关系,因此将频谱按人耳敏感程度分为多个Mel滤波器组,在Mel刻度范围内,各个滤波器的中心频率是相等间隔的线性分布,但在频率范围不是相等间隔的,这个是由于频率和Mel频率转化内的公式形成的,公式如下:
, ,滤波器组得到的系数是相关性很高的,因此
使用离散余弦变换来去相关并降维,保留得到的倒频谱系数的第2‑13个,剩下的抛弃。
[0083] 对于视频数据,分离后提取视频帧,将视频帧标记为 ,T是序列的长度使用人脸特征点检测模型检测嘴部,然后将其转化为灰度图,并裁剪为224×224大小的图片。图像特征的提取,如图3所示,在原来的卷积神经网络中加入了空间注意力机制和时间注意力机制,具体操作为:首先进行卷积操作,所用公式为: ,每帧图像 的维度为
,这里 是通道数,因为图像是灰度图, =1,H和W分别是帧的高度和宽度,的维度为 ,公式中的W为卷积核的权重,f为激活函数RELU。然后进行池化操作,采用最大化池化处理函数,这样能够降低特征图的空间维度: , 为池化层处理后的特征图。
[0084] 然后加入空间注意力机制,空间注意力权重计算,调整特征图:, ,其中 为空间注意力权
重,为调整后的特征图。通过对输入特征 进行平均池化和最大化池化操作来提取不同的空间特征。再将这两种池化结果通过 操作合并,最后,这个空间注意力图 与原始特征 相乘,得到加权后的特征,生成空间注意力图。这种方法可以捕捉更广泛的上下文信息。
[0085] 接着加入时间注意力机制,查询向量Q: ,为经过空间注意力调整后的特征图。使用所有时间步的特征图的平均值来表示整个图像序列,从而捕捉图像的全局上下文信息。键向量: ,为保持简单性,直接使用每一时间步调整后的特征图 本身。基于这些定义,时间注意力权重的计算公式细化为: ,其中 为时间步
t的时间注意力权重,通过计算查询向量Q与每个键向量 的点积并通过softmax函数归一化得到。使用时间注意力权重加权每一帧的特征: , 为考虑时间注意力后的特征。通过对所有时间步的加权特征 进行汇总,得到图像的综合特征表示为: ,为融合了空间和时间注意力机制的图像特征。为防止模型在特定区域过度集中注意力,导致过拟合,还在模型参数中加入了正则化技术。损失函数结合了交叉熵损失函数和L2正则化项,损失函数为: ,其中, 表示观
察o(一个数据点或样本)的真实标签在类别c上的指示。如果o属于类别c,则值为1;否则,值为0。 是模型基于图像特征 的预测输出。第一项是针对所有类别的交叉熵损失,第二项是所有模型权重的L2正则化项,λ是正则化系数。
[0086] 使用这样的设置,网络能够有选择性地关注图像中的重要空间和时间区域,提高网络对图像中关键部分的感知能力,让模型学习到更加有用的特征。
[0087] 步骤(3)中,利用随机掩蔽的策略,采用类似BERT的预训练方法。在前面的步骤中,得到了图像特征 和音频特征序列 ,对于音频特征序列,选择掩蔽比例pa=15%,大约有pa×Ta个时间步将被掩蔽;对于图像特征 ,采取类似的策略,pv=15%,大约有pv×Tv个时间步将被掩蔽。掩码操作为: , ,其中 和 分别是随机选定的需要被掩码的音频和图像索引合集。最小化预测值和真实值的差异,对于音频和图像数据,表示为: , , 和
分别表示除了被掩码的部分外的音频和图像特征序列, 和 分别是音频和图像的损失函数,用于评估模型在预测掩码部分的性能。
[0088] 步骤(4)中,通过Conformer和注意力机制来对两特征编码并融合,首先对音频特征序列和图像特征序列编码, , ,得到音频特征编码EA和图像特征编码Ev。将两特征拼接: ,然后将拼接后的编
码送入多头自注意力机制: ,其中每个头对应的注意力计算表示为:
,其中Q,K,V分别是查询(Query)、键(Key)和值(Value)
矩阵, 是键向量的维度,用于缩放点积的结果,以避免过大的值使softmax函数的梯度过小。每个头的输出,会被重新组合并通过一个线性层进行处理,得到最终的MHSA输出 。
最后,通过一个前馈网络进一步处理MHSA的输出,得到最终的融合特征: 。
使用Conformer和多头自注意力机制的组合,不仅提升了特征表示的能力,还增强了模型对音视频时空信息的捕获能力,有利于提高识别的准确性和鲁棒性。
[0089] 步骤(5)中采用堆叠的Conformer块作为解码器,对融合特征进行解码。使用一个额外的softmax层,用于在每个时间步骤上预测字符的概率分布。在每个解码的步骤中,选择概率最高的标记并将其附加到输出序列中。
[0090] 最后得到的结果使用WER来评估,将系统输出的文本与参考文本进行单词级别的对其,并比较它们之间的差异,找出插入、删除和替换的错误并计算数量。WER以百分比的形式表示,公式为: ,其中,S表示替换的错误数;D表示删除的错误数;I表示插入的错误数;N表示参考文本中的总单词数。得到的WER值越低表示系统的识别性越好。

当前第1页 第1页 第2页 第3页
相关技术
学习视听相关技术
方法设备相关技术
车娜发明人的其他相关专利技术