首页 / 语音增强方法、语音增强装置以及计算机存储介质

语音增强方法、语音增强装置以及计算机存储介质实质审查 发明

技术领域

[0001] 本申请涉及语音处理领域,特别是涉及一种语音增强方法、语音增强装置以及计算机存储介质。

相关背景技术

[0002] 在日常生活中,经常会遇到在各种各样的噪声或背景声干扰下进行语音通信的情况,这会严重影响到用户的听觉体验,甚至导致用户根本听不清语音。因此,语音信号需要进行语音增强以提高目标语音的语义表达,使得目标语音从被噪声等污染的语音中提取出来。
[0003] 语音增强涉及的应用领域十分广泛,包括语音通话、电话会议、场景录音、助听器设备和语音识别设备等。
[0004] 在一应用场景中,在使用波束形成算法对输入的多通道语音信号进行增强时,通过抑制不需要的语音信号成分从而提高目标语音的信噪比。然而,在进行声源进行波束形成时,通常需要通过估计声源角度从而确定目标角度,并基于目标角度进行波束形成,当声源角度估计不准,或者目标在运动时候,将会引起角度估计的偏差,导致波束效果下降,从而造成语音增强效果不好。

具体实施方式

[0028] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029] 本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
[0030] 本申请提供的语音增强方法主要应用于一种语音增强装置,其中,本申请的语音增强装置可以为服务器,也可以为由服务器和终端设备相互配合的系统。相应地,语音增强装置包括的各个部分,例如各个单元、子单元、模块、子模块可以全部设置于服务器中,也可以分别设置于服务器和终端设备中。
[0031] 进一步地,上述服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块,例如用来提供分布式服务器的软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。在一些可能的实现方式中,本申请实施例的语音增强方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
[0032] 本申请提供的语音增强方法主要应用于使用多麦克风采集设备对语音进行采集并得到目标语音的语音增强中。在语音增强中需要对输入的语音信号进行滤波和加权,从而抑制不需要的噪音信号,提高所需的目标语音信号的信噪比。
[0033] 现有技术中通常需要考虑哪些方向上的语音信号为需要增强的信号,因此需要在对声源角度估计之后对声源进行波束形成,从而实现语音增强。然而由于环境的复杂性,声源角度估计可能会出现不准确的情况,从而导致语音增强的效果变弱。
[0034] 基于此,本申请提供了一种语音增强方法,具体实施方法如下所述。
[0035] 参阅图1至图2,图1是本申请提供的语音增强方法第一实施例的流程示意图;图2是本申请提供的语音增强装置中应用语音增强方法的流程示意图。
[0036] 步骤11:获取当前帧的待增强语音。
[0037] 具体地,待增强语音包括多个语音通道同步采集的语音信号,由采集设备中不同的麦克风通道采集,可以通过语音接收器获取到待增强语音或通过语音播放器播放的待增强语音。其中,语音接收器包括有线麦克风、无线麦克风、电话听筒等语音接收器。语音播放器包括:智能设备播放器、电话播放器等语音播放器。其中,第m个通道信号可以记作:
[0038] ym(n)
[0039] 由于语音增强的应用环境复杂多变,因此多个语音信号可能存在于当前场景中录音设备的不同角度位置,从而导致采集的语音混响较大。参阅图3,图3是本申请提供的语音增强场景一实施例的示意图。多个语音在采集设备的多个角度位置发出,且与采集设备的距离可能不一样,因此会导致采集设备采集的语音信号存在较大的噪音,即信噪比较低,在对采集的原始语音信号进行语音增强的过程中很难直接划定声源的角度位置。
[0040] 具体地,语音增强装置将获取到的当前帧的待增强语音由时域信号转换为频域信号。转换方法可以为对待增强语音进行加窗、分帧以及傅里叶变换等操作,将待增强语音转换为频域信号,记为ym(f,t)。假设共有M个麦克风通道,则M个麦克风通道组成的待增强语音的频域信号记作:
[0041] yf,t=[y1(f,t),y2(f,t),...yM(f,t)]T
[0042] 具体地,参阅图4,图4是本申请提供的应用语音增强方法的语音增强装置的整体模块结构示意图。语音增强装置中包括三个模块:波束权重估计模块、波束形成模块以及后滤波器权重估计模块。M个麦克风通道的待增强语音:Mic_1、Mic_2...Mic_M在通过波束权重估计模块计算得到增强权重后,使用增强权重在波束形成模块生成初步增强语音,并通过后滤波器权重估计模块计算得到滤波权重后,对初步增强语音进行过滤得到最终的增强语音。
[0043] 步骤12:基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵。
[0044] 具体地,由于语音增强装置应用的实际环境中存在随时间变化的噪声与干扰,因此在基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵之前,语音增强装置先基于待增强语音与上一帧之间的‑1环境变化设置遗忘因子λ 。遗忘因子的实际取值可以根据用户需求自行设定,在此不做限定。
[0045] 在本申请一实施例中,语音增强装置使用MVDR波束形成方法进行波束形成。其中,待增强语音的观测信号协方差矩阵与待增强语音上一帧的观测信号协方差矩阵之间的关系可以如以下公式所示:
[0046]
[0047] 其中,Yf,t为待增强语音第t帧的观测信号协方差矩阵,Yf,t‑1为待增强语音第t‑1帧即上一帧的观测信号协方差矩阵,yf,t为待增强语音, 为待增强语音的共轭转置矩阵。
[0048] 上述公式表征了观测信号协方差矩阵相邻帧之间的迭代更新关系,为了获取待增强语音的观测信号协方差矩阵的逆矩阵,需要对上述公式中的每帧观测信号进行矩阵求逆计算,从而导致计算量过大。因此,本实施例中语音增强装置采用以下的公式获取待增强语音的观测信号协方差矩阵的逆矩阵:
[0049]
[0050] 其中, 为待增强语音的观测信号协方差矩阵的逆矩阵, 为待增强语音上一帧的观测信号协方差矩阵的逆矩阵。以上公式表示了每相邻两帧之间观测信号协方差矩阵的逆矩阵之间的关系,即当获取到待增强语音对应的初始帧的观测信号协方差矩阵的逆矩阵,即将待增强语音对应的初始帧的观测信号协方差矩阵的逆矩阵代入到t为0的以上公式中,可以计算得到第一帧的观测信号协方差矩阵的逆矩阵,进而再将第一帧的信号协方差矩阵的逆矩阵代入到t为1的以上公式中,计算得到第二帧的观测信号协方差矩阵的逆矩阵。
[0051] 以此类推,语音增强装置可以利用各帧信号矩阵以及各帧矩阵的共轭转置矩阵、初始帧的观测信号协方差矩阵的逆矩阵得到所有帧的观测信号协方差矩阵的逆矩阵。因此可以得到当前帧的待增强语音的观测信号协方差矩阵的逆矩阵。
[0052] 通过上述迭代获取待增强语音的观测信号协方差矩阵的逆矩阵的方法,仅需获取每帧语音信号的矩阵以及各帧矩阵的共轭转置矩阵以及初始帧的观测信号协方差矩阵的逆矩阵后,基于上述公式进行计算即可得到当前帧的待增强语音的观测信号协方差矩阵的逆矩阵。
[0053] 语音增强装置无需依次针对每一帧语音的观测信号矩阵进求逆运算,从而减少了语音增强过程中的计算量和算法复杂度,提高了语音增强效率。
[0054] 具体地,语音增强装置将遗忘因子作为更新权重引入到上述获取待增强语音的观测信号协方差矩阵的逆矩阵的公式中可得:
[0055]
[0056] 通过遗忘因子的设置以及引入到观测信号协方差矩阵的逆矩阵的更新中,语音增强装置可以得到更加准确的当前帧的待增强语音的观测信号协方差矩阵的逆矩阵。
[0057] 具体地,在基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量之前,语音增强装置使用观测信号估计的方法对待增强语音对应的整体语音信号协方差矩阵进行估计。其中,估计方法可以包括VAD、MASK估计方法等,在此不做限定。
[0058] 在本申请一实施例中,语音增强装置使用MASK方法获取待增强语音的语音掩码,并使用语音掩码对待增强语音进行估计求和处理估计待增强语音对应的整体语音信号协方差矩阵,如以下公式所示:
[0059]
[0060] 其中, 为待增强语音对应的整体语音信号协方差矩阵, 为待增强语音的语音掩码。
[0061] 步骤13:基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量。
[0062] 具体地,语音增强装置通过语音信号协方差矩阵对待增强语音的信号导向矢量即最大特征向量进行估计,从而可以作为波束形成算法中用于估计最大概率声源方向的向量。最大特征向量为语音信号协方差矩阵中最大特征值对应的向量。
[0063] 在本申请一实施例中,语音增强装置可以使用如图5所示的方法获取待增强语音的语音信号协方差矩阵中的最大特征向量,参阅图5,图5为本申请提供的语音增强方法第二实施例的流程示意图。
[0064] 步骤51:基于整体语音信号协方差矩阵得到待增强语音的语音信号协方差矩阵。
[0065] 具体地,语音增强装置将当前帧的时间代入到整体语音信号协方差矩阵中得到待增强语音的语音信号协方差矩阵
[0066] 步骤52:获取待增强语音上一帧的语音信号协方差矩阵中的最大特征向量。
[0067] 具体地,语音增强装置可以通过迭代的方式使用上一帧的语音信号协方差矩阵中最大特征值对应的特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量。
[0068] 步骤53:使用待增强语音上一帧的语音信号协方差矩阵中的最大特征向量与待增强语音的语音信号协方差矩阵相乘得到中间特征向量。
[0069] 具体地,语音增强装置通过幂迭代的方法,求得待增强语音的语音信号协方差矩阵中的最大特征向量即中间特征向量。如以下公式所示:
[0070]
[0071] 其中, 为上一帧的语音信号协方差矩阵中最大特征值对应的特征向量。
[0072] 步骤54:对中间特征向量进行归一化处理得到待增强语音的语音信号协方差矩阵中的最大特征向量。
[0073] 具体地,语音增强装置通过对中间特征向量进行归一化处理得到最大特征向量以及最大特征值对应的特征值:
[0074]
[0075] 其中,e1=[1,0,...,0],e1为归一化向量, 表示最大特征向量对应的特征值。
[0076] 通过上述方式,语音增强装置采用幂迭代的方法对语音信号协方差矩阵进行特征分解,直接得到其中的最大特征向量,而无需对语音信号协方差矩阵进行逐个分解,得到每个特征向量以及特征向量对应的特征值,并从中选取最大特征值对应的特征向量,减少了语音增强算法的计算量以及算法复杂度,提高了语音增强的计算效率。
[0077] 步骤14:基于待增强语音的观测信号协方差矩阵的逆矩阵和待增强语音的语音信号协方差矩阵中的最大特征向量得到待增强语音的增强权重。
[0078] 具体地,在语音增强装置得到最大特征向量后,可以选取波束形成准则计算波束形成的增强权重。其中,波束形成准则包括GEV、MVDR等。本申请实施例中以MVDR准则为例进行描述。
[0079] MVDR的波束形成准则可以表示为:
[0080]
[0081]
[0082] 以拉格朗日乘子法求解上述波束形成中的最优化问题可得增强权重为:
[0083]
[0084] 其中,wf表示增强权重,语音增强将步骤12得到的待增强语音的观测信号协方差矩阵的逆矩阵 和步骤13得到的待增强语音的语音信号协方差矩阵中的最大特征向量代入上述公式中可以得到当前帧的待增强语音的增强权重wf。
[0085] 步骤15:使用增强权重对待增强语音进行增强。
[0086] 具体地,语音增强装置使用增强权重对待增强语音每个通道进行增强,得到波束增强语音:
[0087]
[0088] 其中, 为经过波束增强后的语音。
[0089] 通过上述步骤,本实施例中的语音增强装置通过构建待增强语音上一帧的观测信号协方差矩阵的逆矩阵,并引入遗忘因子更新上一帧的观测信号协方差矩阵的逆矩阵从而得到待增强语音的观测信号协方差矩阵的逆矩阵,避免了对每一帧的观测信号矩阵进行求逆运算,而是基于上一帧的观测信号协方差矩阵的逆矩阵进行地推获取,大大减少了获取待增强语音的观测信号协方差矩阵的逆矩阵的计算量,提高了获取速率。通过获取到语音信号协方差矩阵中的最大特征向量作为声源向量的方式,避免受到声源角度以及阵列估计中出现的误差造成的影响,减少了语音增强的计算失误,从而提高了语音增强的效果。
[0090] 具体地,在语音增强装置对待增强语音进行波束增强后,得到的波束增强信号中仍然存在一定的噪声,因此为了抑制噪声,语音增强装置还会对波束增强信号进行后过滤处理得到最终的增强语音。
[0091] 具体地,后过滤的常见方法有Zelinski、mccowan、MMSE与STSA等,为了降低后滤波对语音的损伤,尽可能保留语音,在本申请一实施例中,语音增强装置使用如图6所示的方法计算过滤系数。参阅图6,图6为本申请提供的语音增强方法第三实施例的流程示意图。
[0092] 步骤61:计算待增强语音对应的通道中两两通道的频域相干函数。
[0093] 具体地,语音增强装置基于M个麦克风通道计算两两通道之间的频域相干函数,以y1麦克风通道和y2麦克风通道为例:
[0094]
[0095]
[0096] 通过上述公式,得到 个频域相干函数
[0097] 步骤62:基于频域相干函数得到增益权重。
[0098] 具体地,为了减少由于过抑制产生的音乐噪声,保留更多的语音细节部分,减少对语音的损伤,语音增强装置计算双通道倒谱相关系数用于平滑频域相干函数。其中,双通道倒频域相关系数:
[0099]
[0100] 其中,rc(q,t)为双通道在倒谱域的相关系数, 与 分别为倒谱域自相干与互相干系数。
[0101] 具体地,语音增强装置在倒频域对频域相干函数进行平滑处理,得到增益权重K1(f,t),具体步骤如下:
[0102] 语音增强装置将频域相干函数转换至倒频谱域:
[0103]
[0104] 其中,cΓ(q,t)为频域相干函数 的倒谱域形式,IDFT表示离散傅里叶逆变换处理。
[0105] 使用双通道倒频域相关系数在倒谱域对频域相干函数进行平滑处理:
[0106]
[0107] 最终的增益权重:
[0108]
[0109] 其中,DFT为快速傅立叶变换处理。
[0110] 步骤63:使用增益权重对增强后的语音进行滤波得到最终的增强语音。
[0111] 可选地,语音增强装置计算多个两两通道对应的增益权重的平均权重;使用平均权重对增强后的语音进行滤波得到最终的增强语音。
[0112] 其中,平均权重为
[0113] 具体地,语音增强装置最终后置滤波输出语音可以表示为:
[0114]
[0115] 转换为最终输出的增强信号:
[0116] y(bf+post)(n)。
[0117] 通过上述方式,语音增强装置使用通道之间的相关性计算两两通道之间的频域相干函数,继而得到最终的增益权重并对波束增强语音过滤的方式,可以进一步基于麦克风通道相关性压制波束形成结果中的噪声与混响成份,提高语音增强的效果。
[0118] 区别于现有技术的情况,本申请提供的语音增强方法包括:获取当前帧的待增强语音;基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵;基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量;基于待增强语音的观测信号协方差矩阵的逆矩阵和待增强语音的语音信号协方差矩阵中的最大特征向量得到待增强语音的增强权重;使用增强权重对待增强语音进行增强。通过上述方式,与常规的语音增强方法相比,本申请通过从待增强语音的语音信号协方差矩阵中获取语音的声源信息的方法,无需考虑声源角度与阵列等空间信息,从而避免了在估计声源角度与阵列过程中产生的误差对语音增强效果的影响,提高了语音增强的效果;且本申请基于待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量,降低了获取最大特征向量的算法复杂度。
[0119] 上述实施例的方法,可以利用一语音增强装置来实现,下面结合图7进行描述,图7是本申请提供的语音增强装置第一实施例的结构示意图。
[0120] 如图7所示,本申请实施例的语音增强装置70包括语音获取模块71、矩阵构建模块72、向量获取模块73、权重获取模块74、语音增强模块75。
[0121] 其中,语音获取模块71,用于获取当前帧的待增强语音。
[0122] 矩阵构建模块72,用于基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵。
[0123] 向量获取模块73,用于基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量。
[0124] 权重获取模块74,用于基于待增强语音的观测信号协方差矩阵的逆矩阵和待增强语音的语音信号协方差矩阵中的最大特征向量得到待增强语音的增强权重。
[0125] 语音增强模块75,用于使用增强权重对待增强语音进行增强。
[0126] 上述实施例的方法,可以利用一语音增强装置来实现,下面结合图8,图8是本申请提供的语音增强装置第二实施例的结构示意图,该语音增强装置80包括存储器81和处理器82,存储器81用于存储程序数据,处理器82用于执行程序数据以实现如下的方法:
[0127] 获取当前帧的待增强语音;基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵;基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量;基于待增强语音的观测信号协方差矩阵的逆矩阵和待增强语音的语音信号协方差矩阵中的最大特征向量得到待增强语音的增强权重;使用增强权重对待增强语音进行增强。
[0128] 参阅图9,图9是本申请提供的计算机可读存储介质一实施例的结构示意图,该计算机可读存储介质90存储有程序数据91,程序数据91在被处理器执行时,用于实现如下的方法:
[0129] 获取当前帧的待增强语音;基于待增强语音上一帧的观测信号协方差矩阵的逆矩阵以及遗忘因子获取待增强语音的观测信号协方差矩阵的逆矩阵;基于待增强语音的语音信号协方差矩阵以及待增强语音上一帧的语音信号协方差矩阵中的最大特征向量得到待增强语音的语音信号协方差矩阵中的最大特征向量;基于待增强语音的观测信号协方差矩阵的逆矩阵和待增强语音的语音信号协方差矩阵中的最大特征向量得到待增强语音的增强权重;使用增强权重对待增强语音进行增强。
[0130] 本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0131] 以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页 第1页 第2页 第3页