技术领域
本公开涉及音频信号增强方案和音频信号增强装置,所述音频信号 增强方案和音频信号增强装置在用户在环境噪声较大的环境下通过语音 传输系统来谈话时,能够防止接收到的语音难以辨别。具体地说,所述 音频信号增强方案和装置增强了接收到的语音,使得用户能够容易地听 到该接收到的语音。
相关背景技术
己知现有语音增强方法包括: 一种根据环境噪声的水平利用音频信 号特征并增强共振峰的技术,所述共振峰为接收到的语音的多个频谱峰 值且影响元音的识别(例如参见专利文件1);和一种根据接收到的语音 和环境噪声的SNR来增强该接收到的语音的技术(例如专利文件2)。 [专利文件1]日本专利特许第4018571号 [专利文件2]日本专利申请特开第2000-349893号 然而,当根据上述传统技术(专利文件1或2)对接收到的语音进 行增强时,打破了低频范围与高频范围之间的平衡,且增强后的声音变 得低沉(低频分量过于显著)或尖锐(高频分量过于显著)。因此,传统 技术留下的问题在于它们的增强是以语音质量的降低为代价的,且不足 以使接收到的语音变得清晰。
具体实施方式
下面参考附图对描述了用于实现本发明的最佳模式的实施方式进行 说明。
[第一实施方式]
图1是例示了本公开的第一实施方式的结构的例示图。附图标记1 和2指示频率分析单元;附图标记3指示SNR计算单元;附图标记4指 示第一频率范围增强量计算单元;附图标记5指示第二频率范围增强量 计算单元;附图标记6指示语音频谱处理单元;以及附图标记7指示合 成单元。
接下来根据音频信号处理来说明图1中所例示的结构。稍后描述各
结构部件的详细操作。
首先,频率分析单元1输入环境噪声并输出环境噪声的频谱。 频率分析单元2输入接收到的语音并输出所述接收到的语音的频谱。 SNR计算单元3输入来自于频率分析单元1的所述环境噪声的频谱
和来自于频率分析单元2的所述接收到的语音的频谱,并且计算并输出
SNR。
第一频率范围增强量计算单元4接收由SNR计算单元输出的SNR 和频率范围划分信息,所述频率范围划分信息指示出预先获得的有助于 改善所述接收到的语音的主观可理解度的频率范围和预先获得的有助于 改善所述接收到的语音的主观清晰度的频率范围。然后,所述第一频率 范围增强量计算单元4计算对有助于改善所述接收到的语音的主观可理解度的频率范围施加的增强量,并输出其作为第一频率范围增强量。
第二频率范围增强量计算单元5输入第一频率范围增强量,并且计 算对有助于改善所述接收到的语音的主观清晰度的频率范围施加的增强 量,并输出其作为第二频率范围增强量。
语音频谱处理单元6输入所述频率范围划分信息、第一频率范围增 强量以及第二频率范围增强量,并输出经增强的语音的频谱。
合成单元7输入由语音频谱处理单元6输出的经增强的语音的频谱, 并输出经增强的语音。
根据上述处理流程,执行了增强所述接收到的语音的处理。
下文中描述了各结构部件的详细处理操作。
频率分析单元1和2
频率分析单元1利用环境噪声作为输入信号,并利用诸如傅里叶变 换方法的时一频转换处理来计算所述环境噪声的频谱。频率分析单元2 利用接收到的语音作为输入信号,并且利用诸如傅里叶变换方法的时一 频转换处理来计算所述接收到的语音的频谱。
SNR计算单元3
SNR计算单元3通过下列等式,利用输入的所述环境噪声的频谱(各 频率的环境噪声分量(N))和输入的所述语音的频谱(各频率的接收到 的语音的分量(S))来计算SNR。
SNR(i)=S(i)-N(i),
其中/是频率指示(其指示了在时一频转换中使用的频率范围(例如 频率分量)的编号);
SNR(i)是第i个频率分量的SNR (dB);
S(i)是在第i个频率分量中的接收到的语音分量的大小(dB);以及
iV(0是在第i个频率分量中的环境噪声分量的大小(dB)。 注意,在所述SNR计算中,可引入主观的声音大小相对于各频率变 化的效应。
具体地说,通过将计算出的SNR乘以代表特定频率的主观大小的系 数来修正该计算出的SNR。所述代表特定频率的主观大小的系数是使用诸如等音量曲线的现有信息来计算的。
第一频率范围增强量计算单元4
第一频率范围增强量计算单元4接收由上述SNR计算单元输出的 SNR和频率范围划分信息,并根据下述处理来计算第一频率范围增强量, 所述频率范围划分信息指示出预先获得的有助于改善所述接收到的语音 的主观可理解度的频率范围和预先获得的有助于改善所述接收到的语音 的主观清晰度的频率范围。
(1) 计算第一频率范围的平均SNR。
[等式l]
1 le
LSNR=-J] S卿)
le-ls+lg
LSNR:第一频率范围的平均SNR (dB) i: 频率指示(frequency index) SNR(i):第i个频率分量的SNR (dB)
Is:第一频率范围的下限频率指示 le:第一频率范围的上限频率指示
使用频率范围划分信息(位于低频率范围与高频率范围之间的边界 频率指示Ib )和输入信号的频率范围宽度来如下计算"ls"和"le"。
Is =所述输入信号的频率范围宽度的下限频率指示 le=Ib
(2) 第一频率范围的平均SNR被应用于增强量曲线图,由此获得 第一频率范围增强量。
第一频率范围的增强量曲线图如图6所示。 LE:第一频率范围增强量(dB) LSNR:第一频率范围的平均SNR (dB) LEMAX:第一频率范围增强量的上限(dB) LEMIN:第一频率范围增强量的下限(dB)
LSNR MAX:获得第一频率范围增强量的下限时第一频率范围的平 均SNR (dB)
LSNR MIN:获得第一频率范围增强量的上限时的第一频率范围的
9平均SNR (dB)
曲线图中各参数的可能范围如下。
LEMAX: 0至50dB,上限,被提供使得即使第一频率范围的平均 SNR等于或小于预定值,第一频率范围的增强也不会超出所述最大水平。
LEMIN: 0至10dB,下限,被提供使得即使第一频率范围的平均 SNR等于或大于预定值,第一频率范围的增强也不会低于该最小水平。
注意LE MAX必须大于LE MIN ( LE MINLSNRMAX: 0至50dB,第一频率范围的最大平均SNR,该第一频 率范围的最大平均SNR表明在第一频率范围内,语音强于近端噪声,所 以,认为将所述第一频率范围的增强量设置为最小水平是适当的。
LSNRMIN: -50?lj50dB,第一频率范围的最小平均SNR,由于第 一频率范围的最小平均SNR表明在第一频率范围内,语音弱于近端噪声, 所以认为将第一频率范围增强量设置为最大水平是适当的。
注意LSNR MAX必须大于LSNR MIN( LSNR MIN〈LSNR MAX )。
第二频率范围增强量计算单元5
所述第二频率范围增强量计算单元5输入第一频率范围增强量,并 利用图7中所例示的曲线图按照下述方式计算第二频率范围增强量。 [等式2]
Ut^鹿丄亚M^-旭M!N"TT7 TTTTV丽、
HE(dB)-HE MIN+-* (LE-LE MIN)
LEMAX-LEMIN
HE:第二频率范围增强量(dB)
LE:第一频率范围增强量(dB)
HE MAX:第二频率范围的增强量的上限(dB)
HE MIN:第二频率范围的增强量的下限(dB)
LE MAX:获得第二频率范围增强量的上限时的第一频率范围增强
量(dB)
LE MIN:获得第二频率范围增强量的下限时的第一频率范围增强 量(dB)
曲线图中各参数的可能范围如下。
LEMAX: 0至50dB,上限,被提供使得即使第一频率范围的平均SNR等于或小于预定值,第一频率范围的增强也不会超出所述最大水平。
LEMIN: 0至10dB,下限,被提供使得即使第一频率范围的平均 SNR等于或大于预定值,第一频率范围的增强也不会低于所述最小水平。
注意LEMAX必须大于LE MIN (LE MINHE MAX: 0到50dB,第二频率范围增强量的上限值,所述上限值 在基于第一频率范围增强量来确定第二频率范围增强量时被使用,并被 提供使得即使第一频率范围增强量等于或大于预定值,第二频率范围的 增强也不会超出所述最大水平。
HE MIN: 0到50dB,第二频率范围增强量的下限值,所述下限值 在基于第一频率范围增强量来确定第二频率范围增强量时被使用,并被 提供以使得即使第一频率范围的增强量等于或小于预定值,第二频率范 围的增强也不会低于所述最小水平。
注意HE MAX必须大于HE MIN ( HE MIN语音频谱处理单元6
语音频谱处理单元6输入频率分析单元2输出的语音频谱、第一频 率范围增强量、第二频率范围增强量以及频率范围划分信息,并且根据 下述处理来计算所述语音频谱的增强量,并执行增强处理。
接下来描述的是语音频谱处理单元6执行的对各频率分量的增强量 的计算的具体示例。
《语音频谱处理单元6执行的对各频率分量的增强量的计算的具体 示例1》
使用图9所例示的曲线图来计算各频率分量的增强量。 [等式3]
'LE "lie
EMP(i)叫LE+~^~ * (i-lle) lleHE i 2 his EMP(i):各频率分量的增强量(dB)
i:频率指示
11LE:第一频率范围增强量(dB)
HE:第二频率范围增强量(dB)
lis:第一频率范围的下限频率指示 lie:第一频率范围的上限频率指示 his:第二频率范围的下限频率指示 hie:第二频率范围的上限频率指示
使用频率范围划分信息(第一频率范围与第二频率范围之间的边界
频率指示/6)和输入信号的频率范围宽度,来按下述方式计算"lls"、"lle"、 "hls,,及"hle"。
lis =输入信号的频率范围宽度的下限频率指示 lle=Ib-\|/
Ws=Ib+;
hle-输入信号的频率范围宽度的上限频率指示 v|/, 。•正值((l至0.5之间的值)x indmax)
indmax:频率指示的最大值
1|/和;是用于确定频率范围宽度的数值,用于防止在频率范围的边界 处出现增强量的中断。
《语音频谱处理单元执行的对各频率分量的增强量的计算的具体示
例2》
使用图10中所例示的曲线图来计算各频率分量的增强量。
[等式4]
'LE i S 12e
EMP(i)= j LE+(i-12e) * HE 12eEMPMAX 12e〈iSh2eDEMP(i)2EMPMAX
EMP(i):各频率分量的增强量(dB)
频率^
曰W
LE:第一频率范围增强量(dB) HE:第二频率范围增强量(dB) EMPMAX:增强量的上限(dB) 12a:第一频率范围的下限频率指示12e:第一频率范围的上限频率指示
h2s:第二频率范围的下限频率指示,h2s=12e
h2e:第二频率范围的上限频率指示
使用频率范围划分信息(第一频率范围与第二频率范围之间的边界 频率指示/6)和输入信号的频率范围宽度来按下述方式计算"h2s"、"h2e"、
"12s"及"12e"。
12s =输入信号的频率范围宽度的下限频率指示 h2e=I6
h2e-输入信号的频率范围宽度的上限频率指示 接下来描述语音频谱处理单元6执行的针对各频率分量的频谱处理 的具体示例。
《语音频谱处理单元执行的针对各频率分量的频谱处理的具体示
例》
首先,利用各频率分量的增强量EMP(i),语音频谱处理单元6计算 待被施加于各频率分量的频谱的系数emp coef(i)。 formula see original document page 13接下来,将各频率分量的频谱的实部和虚部乘以相应的系数 empcoef(i),由此对各频率分量的频谱进行处理。
formula see original document page 13EMP(i):各频率分量的增强量(dB)
i:频率指示
SPEre(i):各频率分量的频谱的实部 SPEim(i):各频率分量的频谱的虚部 ESPEre(i):各频率分量的增强频谱的实部ESPEim(i):各频率分量的增强频谱的虚部 empcoef(i):各频率分量的频谱的放大因数 合成单元7
合成单元7输入由语音频谱处理单元6输出的增强的语音的频谱, 并使用诸如傅里叶逆变换方法的频-时转换处理来将增强的语音的频谱转 化为时域波形。这样,合成单元7生成并输出增强的语音。
因此,根据本实施方式,通过各结构部件的处理操作,能够在由于 环境噪声使得接收的语音难以听到的情况下生成在主观可理解度和主观 清晰度上都具有足够质量的增强语音。
[第二实施方式]
图2为示出了本公开的第二实施方式的结构的例示图,其中与第一 实施方式共有的部件被给予相同的附图标记。附图标记1和2指示频率 分析单元;附图标记3指示SNR计算单元;附图标记4指示第一频率范 围增强量计算单元;附图标记5'指示第二频率范围增强量计算单元;附 图标记6指示语音频谱处理单元;附图标记7指示合成单元;以及附图
标记8指示语音清晰度计算单元。
接下来根据音频信号处理来说明图2中所例示的结构。稍后描述各 结构部件的详细操作。
首先,频率分析单元1输入环境噪声并输出该环境噪声的频谱。 频率分析单元2输入接收到的语音并输出该接收到的语音的频谱。 语音清晰度计算单元8输入从频率分析单元2输出的该接收到的语 音的频谱和频率范围划分信息,然后输出指示语音的清晰度的信息,所 述频率范围划分信息指示出预先获得的有助于改善接收语音的主观可理 解度的频率范围和预先获得的有助于改善接收语音的主观清晰度的频率 范围。
SNR计算单元3输入来自于频率分析单元1的环境噪声的频谱和来 自于频率分析单元2的接收到的语音的频谱,并且计算并输出SNR。
第一频率范围增强量计算单元4输入SNR计算单元输出的SNR和 频率范围划分信息,然后计算施加给有助于改善接收到的语音的主观可理解度的频率范围的增强量,并输出其作为第一频率范围增强量。
第二频率范围增强量计算单元5'输入第一频率范围增强量和语音清 晰度计算单元8输出的指出语音清晰度的信息,随后计算施加给有助于 改进所述接收到的信号的主观清晰度的频率范围的增强量,并输出其作 为第二频率范围的增强量。
语音频谱处理单元6输入频率范围划分信息、第一频率范围增强量 以及第二频率范围增强量,然后输出增强的语音的频谱。
合成单元7输入语音频谱处理单元6输出的增强的语音的频谱,随 后输出增强的语音。
根据上述处理流程,执行了增强接收到的语音的处理。
下文描述与第一实施方式不同的结构部件的详细处理操作。
语音清晰度计算单元8
语音清晰度计算单元8输入接收到的语音的频谱和频率范围划分信 息,并根据下述过程来生成并输出指示语音清晰度的信息。 [等式7] C=H-L
h3e
H-艺S(i)
i=h3s I3e
L=£s(i)
H3s
C:语音清晰度(dB)
H:接收的语音的第二频率范围的功率(dB)
L:接收的语音的第一频率范围的功率(dB) i:频率指示
S(i):第i频率分量中接收的语音分量的大小(dB) 13S:第一频率范围的下限频率指示 13e:第一频率范围的上限频率指示 h3s:第二频率范围的下限频率指示
h3e:第二频率范围的上限频率指示
利用频率范围划分信息(第一频率范围与第二频率范围之间的边界频率指示/6)和输入信号的频率范围宽度来按下述方式计算"h3s"、"h3e"、
"13s,,及"13e"。 h3s=Ib
h3e二输入信号的频率范围宽度的上限频率指示
13s =输入信号的频率范围宽度的下限频率指示 13e=Ib-1
注意,在清晰度的计算中,可引入声音主观大小相对于各频率变化 的效应。
具体地说,在计算H和L时,通过将S(i)乘以表示特定频率的主观 大小的系数,来进行修正。所述表示特定频率的主观大小的系数是使用 诸如等音量曲线的现有信息来计算的。
第二频率范围增强量计算单元5'
第二频率范围增强量计算单元5'输入第一频率范围增强量和指示语 音清晰度的信息,随后利用图7所示曲线图按照下述方法来计算第二频 率范围增强量。
按照与第一实施方式的第二频率范围增强量计算单元5所执行的计 算类似的方式来计算第二频率范围增强量HE。
利用图8所例示的曲线图来对计算出的HE进行修正。 [等式8]
C画丽+謹匿-,匿* 應
LE MAX-LE MIN
HE'=HE*
修正的HE'被重新指定为第二频率范围增强量HE。 HE:第二频率范围增强量(dB)
HE':利用语音清晰度获得的修正的第二频率范围增强量(dB) COEF:用于修正第二频率范围增强量的系数 COEFMAX:用于修正第二频率范围增强量的系数的上限 COEFMIN:用于修正第二频率范围增强量的系数的下限 CMAX:语音的清晰度(dB),在该语音清晰度下,获得用于修正 第二频率范围增强量的系数的下限
16CMIN:语音的清晰度(dB),在该语音清晰度下,获得用于修正
第二频率范围增强量的系数的上限 表中各参数的可能范围如下。
COEFMAX: 0到1,上限,被提供使得即使语音的清晰度等于或 小于预定值,用于修正第二频率范围增强量HE的系数也不超过所述最大 水平。
COEFMIN: O至Ul,下限,被提供使得即使语音的清晰度等于或大 于预定值,用于修正第二频率范围增强量HE的系数也不会低于所述最小 水平。
?主意COEF MAX必须大于COEF MIN ( COEF MIN < COEF MAX )。 CMAX: -50至50(18,用于确定用于修正第二频率范围增强量的系 数的语音清晰度的上限值。
CMIN: -90至0犯,用于确定用于修正第二频率范围增强量的系 数的语音清晰度的下限值。
注意CMAX必须大于CMIN (CMIN图3是示出了本公开的第三实施方式的结构的例示图,其中与第一 实施方式共有的部件被给予相同的附图标记。附图标记1指示频率分析 单元;附图标记9指示语音频谱估计单元;附图标记IO指示噪声频谱估 计单元;附图标记11指示NNR计算单元;附图标记3指示SNR计算单 元;附图标记4指示第一频率范围增强量计算单元;附图标记5指示第二频率范围增强量计算单元;附图标记6'指示语音频谱处理单元;以及 附图标记7指示合成单元。
接下来根据音频信号处理来说明图3所例示的结构。稍后描述各结
构部件的详细操作。
首先,频率分析单元l输入环境噪声,随后输出该环境噪声的频谱。
语音频谱估计单元9输入接收到的语音,随后生成并输出从中去除 了叠加在所接收到的语音上的背景噪声的该接收到的语音的频谱。
噪声频谱估计单元IO输入接收到的语音,随后生成并输出叠加在该 接收到的语音上的背景噪声的频谱。
NNR计算单元11输入由频率分析单元1输出的环境噪声的频谱和 从噪声频谱估计单元IO输出的接收到的语音的背景噪声的频谱,随后计 算并输出NNR,所述NNR为环境噪声与叠加在语音上的背景噪声的比 值。
SNR计算单元3输入由频率分析单元1输出的环境噪声的频谱和由 语音频谱估计单元9输出的已移除背景噪声的语音的频谱,随后计算并 输出SNR。
第一频率范围增强量计算单元4输入SNR计算单元输出的SNR和 频率范围划分信息,所述频率范围划分信息指示出预先获得的有助于改 善接收到的语音的主观可理解度的频率范围和预先获得的有助于改善接 收到的语音的主观清晰度的频率范围。然后,第一频率范围增强量计算 单元4计算施加给所述有助于改善接收到的语音的主观可理解度的频率 范围的增强量,并输出其作为第一频率范围增强量。
第二频率范围增强量计算单元5输入第一频率范围增强量,随后计 算施加给所述有助于改善接收到的语音的主观清晰度的频率范围的增强 量,并输出其作为第二频率范围增强量。
语音频谱处理单元6'输入频率范围划分信息、第一频率范围增强量、 第二频率范围增强量、NNR及语音的频谱,随后输出经增强的语音的频 谱。
合成单元7输入语音频谱处理单元6'输出的经增强的语音的频谱,随后输出经增强语音。
根据上述处理流程,执行了增强接收到的语音的处理。 下文描述与第一实施方式和第二实施方式不同的结构部件的详细处
理操作。
语音频谱估计单元9和噪声频谱估计单元10
语音频谱估计单元9和噪声频谱估计单元10接收所述接收到的语 音,并分别计算接收到的语音的频谱和叠加在该接收到的语音上的背景 噪声的频谱。
具体地说,所述计算可利用公知的噪声抑制技术来执行(参考日本 专利申请特开第2005-165021号)。
例如,对其上叠加有噪声的输入音频信号进行分析,并计算该音频 信号的频谱振幅(振幅谱)。利用计算出的频谱振幅来估计语音的频谱。 在这里,语音的频谱在其上叠加有噪声的输入音频信号的多个分量中, 对应于无噪声分量(即,代表纯净音频信号的信息)。
噪声的频谱也是以类似方式来估计的。
NNR计算单元11
NNR计算单元11输入环境噪声的频谱和接收到的语音的背景噪声
的频谱,随后利用下述等式来计算NNR并输出该NNR,所述NNR为环
境噪声与叠加在语音上的背景噪声的比值。 NNR(i)=N(i)-N'(i)
其中i为频率指示;
NNR(i)为第i频率分量的NNR (dB); N(i)为第i频率分量的功率频谱(dB);以及
N'(i)为第i频率分量的接收到的语音的背景噪声的功率频谱(dB)。
上述的频率指示指代在利用傅里叶变换的频谱计算中使用的频率范 围(例如频率分量)的编号。
注意,在NNR计算中,可引入声音的主观大小相对于各频率变化的 效应。
具体地说,通过将计算出的NNR(i)乘以表示特定频率的主观大小的系数来修正该计算出的NNR(i)。所述表示特定频率的主观大小的系数是
利用诸如等音量曲线的现有信息来计算的。 语音频谱处理单元6'
语音频谱处理单元6'输入频率分析单元2输出的语音的频谱、第一 频率范围增强量、第二频率范围增强量、NNR及频率范围划分信息,随 后根据下述处理来计算该语音的频谱的增强量并执行增强处理。
接下来描述语音频谱处理单元6'执行的对各频率分量的增强量的计 算的具体示例。
首先,所述语音频谱处理单元6'按照与语音频谱处理单元6相同的 方式计算各频率分量的增强量EMP(i)。
接下来,使用所述NNR对各频率分量的增强量进行修正。
以如下这种方式执行对增强量的修正,即在接收到的语音被增强后,
作为环境噪声与接收到的语音的背景噪声的比值的NNR不低于阈值。 当EMP NNR(i)《TH NNR时,MOD EMP(i) = EMP(i)
当EMP NNR(i) > TH NNR时,MOD EMP(i) = NNR(i) — TH NNR
其中EMP(i)是各频率分量的增强量(dB);
MODEMP(i)是各频率分量的修正的增强量(dB);
NNR(i)是各频率分量的NNR (dB);以及
THNNR是NNR的下限(dB)。
所述等式中各参数的可能范围如下。
THNNR:巧0至50dB, NNR的下限,被提供以防止叠加在接收 到的语音上的噪声由于增强而变得刺耳。
接下来,语音频谱处理单元6'利用各频率分量的修正的增强量 MOD EMP(i)来计算待被应用于各频率分量的频谱的系数emp coef(i)。
[等式9]
MOD EMP(i)
emp cQef(i)=10 20
接下来,各频率分量的频谱的实部与虚部都被乘以相应的系数 empcoef(i),由此对各频率分量的频谱进行处理。
[等式10]ESPE re(i)-SPE re(i) * emp coef(i) ESPE im(i)-SPE im(i) * emp coef(i)
EMP(i)
emp coef(i)=10 20
MODEMP(i):各频率分量的修正的增强量(dB)
i:频率指示
SPEre(i):各频率分量的频谱的实部 SPEim(i):各频率分量的频谱的虚部 ESPEre(i):各频率分量的经增强的频谱的实部 ESPEim(i):各频率分量的经增强的频谱的虚部 empcoef(i):各频率分量的频谱的放大因数
在第三实施方式中,NNR计算单元11被添加到第一实施方式的结 构中以计算NNR,所述NNR为环境噪声与叠加在所述语音上的背景噪 声的比值。因此,语音频谱处理单元6'可在考虑NNR的情况下计算第二 频率范围增强量。结果是,能够对增强量进行控制,以便所述语音的背 景噪声不会在增强后变得过度。 [第四实施方式]
图4是示出了本公开第四实施方式的结构的例示图,其中与第一实 施方式共有的部件被赋予相同的附图标记。附图标记1指示频率分析单 元;附图标记9指示语音频谱估计单元;附图标记10指示噪声频谱估计 单元;附图标记11指示NNR计算单元;附图标记8指示语音清晰度计 算单元;附图标记3指示SNR计算单元;附图标记4指示第一频率范围 增强量计算单元;附图标记5'指示第二频率范围增强量计算单元;附图 标记6'指示语音频谱处理单元;以及附图标记7指示合成单元。
接下来根据音频信号处理来说明图4所例示的结构。稍后描述各结 构部件的详细操作。
首先,频率分析单元1输入环境噪声,随后输出该环境噪声的频谱。
语音频谱估计单元9输入接收到的语音,随后生成并输出从中去除 了叠加在接收到的语音上的背景噪声的所述接收到的语音的频谱。
噪声频谱估计单元IO输入接收到的语音,随后生成并输出叠加在所接收到的语音上的背景噪声的频谱。
NNR计算单元11输入由频率分析单元1输出的环境噪声和噪声频 谱估计单元IO输出的所述接收到的语音的背景噪声的频谱,随后计算并
输出NNR,所述NNR为所述环境噪声与叠加在所述语音上的背景噪声 的比值。
语音清晰度计算单元8输入由频率分析单元2输出的所述接收到的 语音的频谱和频率范围划分信息,然后输出指示语音清晰度的信息,所 述频率范围划分信息指示出预先获得的有助于改善接收到的语音的主观 可理解度的频率范围和预先获得的有助于改善接收到的语音的主观清晰 度的频率范围。
SNR计算单元3输入由频率分析单元1输出的环境噪声和由语音频 谱估计单元9输出的已移除背景噪声的语音的频谱,随后计算并输出 SNR。
第一频率范围增强量计算单元4输入由SNR计算单元输出的SNR 和频率范围划分信息,所述频率范围划分信息指示出预先获得的有助于 改善接收到的语音的主观可理解度的频率范围和预先获得的有助于改善 接收到的语音的主观清晰度的频率范围。然后,第一频率范围增强量计 算单元4计算施加给有助于改善接收到的语音的主观可理解度的频率范 围的增强量,并输出其作为第一频率范围增强量。
第二频率范围增强量计算单元5'输入第一频率范围增强量和指示所
述语音的清晰度的信息,随后计算施加给有助于改善接收到的语音的主 观清晰度的频率范围的增强量,并输出其作为第二频率范围增强量。
语音频谱处理单元6'输入频率范围划分信息、第一频率范围增强量、 第二频率范围增强量、NNR及所述语音的频谱,随后输出经增强的语音 的频谱。
合成单元7输入语音频谱处理单元6'输出的经增强的语音的频谱, 随后输出经增强的语音。
根据上述处理流程,执行了增强所接收到的语音的处理。 本实施方式的结构是通过对根据第一实施方式的结构部件修改而来
22的第二实施方式和第三实施方式中的结构部件进行合并来实现的。本实 施方式中各结构部件的处理操作如第一至第三实施方式中所述的那样。 [第五实施方式]
第五实施方式是将用于计算频率范围划分信息的结构添加到第四实 施方式的语音增强装置上的实施例,所述频率范围划分信息指示出有助 于改善接收到的语音的主观可理解度的频率范围和有助于改善接收到的 语音的主观清晰度的频率范围。附加的结构部件是:被配置为输入接收
到的语音、计算并输出基音频率(pitch frequency)的基音频率计算单元 12;和被配置为输入基音频率和指示语音清晰度的信息,随后生成频率 范围划分信息的频率范围划分信息计算单元13。
除了在语音增强装置中生成频率范围划分信息之外,本实施方式的 语音增强处理与第四实施方式的相同。
下面详细描述第五实施方式中附加的结构部件。
基音频率计算单元12输入接收到的语音并根据下述等式来计算基 音频率。
[等式ll]
x:输入信号
M:计算相关系数的区间长度(采样)
a:计算相关系数的信号的初始位置 pitch:基音频率(Hz)
c.orr(a):偏移位置为a时的相关系数
a max:对应于最大相关系数的a
i:信号的频率指示(采样) freq:采样频率(Hz)
频率范围划分信息计算单元13输入基音频率和指示语音清晰度的
J]x(i-a)x(i)信息,随后根据以下方法之一来生成频率范围划分信息。
《频率范围划分信息计算单元13执行的计算频率范围划分信息的 具体示例l》
在具体示例1中,按照下述顺序计算频率范围划分信息。
(a) 计算接收到的语音的基音频率。
(b) 计算频率范围划分信息。
下面详细描述计算方法。
通过下述等式来计算第一频率范围与第二频率范围之间的边界频率 指示Ib。为Is和Ps提供基准值。接收到的语音的基音频率越高,则增强该
接收到的语音的第二频率范围时被增强的语音越可能变得尖锐。因此, 当接收到的语音的基音频率变得高于其基准值时,将较大值指派给Ib 。
这样,接收到的语音的基音频率越高,第二频率范围的下限频率指示也 被提升得越高。于是,第二频率范围的宽度变窄,由此可防止在执行增 强时,被增强的语音变得尖锐。 L气+a(p-Ps)
Is :第一频率范围与第二频率范围之间的边界频率指示的基准值 Ib:第一频率范围与第二频率范围之间的边界频率指示 p:接收到的语音的基音频率
Ps:接收到的语音的基音频率的基准值(50至500Hz) a:正值
参数Ps和a应在下述范围内。
Ps: 50至500Hz,正常话音的基音
a: 0至1,基音频率对基于正常话音的基音与接收到的语音的基音 之间的偏差来确定Ib的贡献率。
《频率范围划分信息计算单元13执行的计算频率范围划分信息的 具体示例2》
在具体示例2中,根据以下顺序计算频率范围划分信息。
(a) 计算接收到的语音的功率频谱。
(b) 计算频率范围划分信息。
24接下来详细描述计算方法。
通过下述等式计算第一频率范围与第二频率范围之间的边界频率指 示Ib。为Is和P,提供基准值。接收到的语音的功率频谱的斜率越小,则增
强该接收到的语音的第二频率范围时被增强的语音越可能变得尖锐。因 此,当接收到的语音的功率频谱的斜率变得小于其基准值时,将较大值 指派给Ib。这样,接收到的语音的功率频谱的斜率越小,第二频率范围
的下限频率指示被提升得越高。结果是,第二频率范围的宽度变窄,由 此可防止在执行增强时,被增强的语音变得尖锐。
ib=is+P(q~qs)
Is :第一频率范围与第二频率范围之间的边界频率指示的基准值
Ib:第一频率范围与第二频率范围之间的边界频率指示
q:接收到的语音的功率频谱的斜率
qs:接收到的语音的功率频谱的斜率的基准值
p:负值
参数q,和P应在下述范围内。
qs: 50至500Hz ,正常话音基音的范围
卩:-100至0,接收到的语音的功率频谱的斜率对于基于正常话音的功
率频谱斜率与接收到的语音的功率频谱斜率之间的偏差来确定Ib的贡献率。
《频率范围划分信息计算单元13执行的计算频率范围划分信息的 具体示例3》
在本具体示例3中,根据下述顺序计算频率范围划分信息。
(a) 计算接收到的语音的基音频率。
(b) 计算接收到的语音的功率频谱。
(c) 计算频率范围划分信息。 接下来详细描述计算方法。
通过下述等式计算第一频率范围与第二频率范围之间的边界频率指 示Ib。为I。 P;及qs提供基准值。接收到的语音的基音频率越高且该接收 到的语音的功率频谱的斜率越小,则增强接收到的语音的第二频率范围 时被增强的语音越可能变得尖锐。因此,当接收到的语音的基音频率变得高于基音频率的基准值且接收到的语音的功率频谱的斜率变得小于功 率频谱斜率的基准值时,将较大的值指派给Ib。这样,接收到的语音的
基音频率越高且该接收到的语音的功率频谱的斜率越小,则第二频率范 围的下限频率指示被提升得越高。结果是,第二频率范围的宽度变窄, 由此可防止在执行增强时被增强的语音变得尖锐。 Ib-Is+ct(p-ps)+P(q-qs)
Is:第一频率范围与第二频率范围之间的边界频率指示的基准值 Ib:第一频率范围与第二频率范围之间的边界频率指示 p:接收到的语音的基音频率
ps:接收到的语音的基音频率的基准值(基音频率基准值) a:正值
q:接收到的语音的功率频谱的斜率
qs:接收到的语音的功率频谱的斜率的基准值(功率频谱斜率基准值) 负值
上述参数的可能范围与它们在本实施方式中的具体示例1和具体示 例2中的范围相同。
以下述方式计算上述具体示例1至3中所述的"功率频谱的斜率"。
(1) 使用频谱通过下述等式来计算功率频谱。 PSP(i)=101ogl0(SP re(i) *SP re(i) + SP im(i) *SP im(i)) PSP(i):功率频谱
i:频率指示 SPre(i):频谱的实部 SPim(i):频谱的虚部
(2) 计算功率频谱的斜率 各频率指示的功率频谱被表示为(I,PSP(i)),并且通过使用最小二乘
法、应用线性函数来计算功率频谱的斜率。
上述第五实施方式被描述为其中将第五实施方式专有的结构部件添 加到第四实施方式的结构中的示例。然而,通过将第五实施方式专有的 结构部件添加到第一至第三实施方式中任意实施方式的结构中,也能够按照类似方式、从接收到的语音中生成频率范围划分信息。
这样,除了由第一至第四实施方式实现的效果,第五实施方式还能 够根据语音来控制第一频率范围和第二频率范围,所述控制是通过促使
频率范围划分信息计算单元13使用接收到的语音来计算频率范围划分信 息实现的。因此,能够实现根据语音的适当语音增强控制。
注意在第一至第四实施方式中使用的频率范围划分信息可以以统计 的方式获得,作为有助于改善接收到的语音主观可理解度的频率范围及 有助于改善接收到的语音主观清晰度的频率范围。这样,获得的结果可 被作为频率范围划分信息使用。
此外,可提供第一频率范围增强单元和第二频率范围增强单元,以 便仅在所述频率范围划分信息预先指定的频率范围内执行语音增强。在 这种情况下,所述频率范围划分信息的输入路径不是必需的,且可实现 与上述第一至第四实施方式同样的效果。
总之,根据本实施方式的一个方面,在由于环境噪声使得接收的语 音难以听清的情况下,生成在主观可理度和主观清晰度上均具有足够质 量的增强语音,因此解决了传统语音增强技术存在的问题一低沉的语音 (即,作为语音增强的结果,有助于改善接收到的语音的主观清晰度的 频率范围的大小与有助于改善接收到的语音的主观可理解度的频率范围 的大小相比过小,因此,增强的语音缺乏清晰度)和尖锐的语音(例如, 作为语音增强的结果,有助于改善接收到的语音的主观清晰度的频率范 围的大小与有助于改善接收到的语音的主观可理解度的频率范围的大小 相比过大,因此,增强的语音的清晰度过度)。因此,能够生成易于收听 的增强的语音。
在本文中使用的所有示例和条件语言都旨在辅助读者理解本公开和 发明人为推动现有技术所贡献的原理的教导目的,并且应该被释义为不 限于这些具体陈述的示例和条件,本说明书中的这些示例的组织结构不 涉及本公开的优点或缺点的展示。虽然已详细描述本公开的实施方式, 但应理解在不偏离本公开的精神和范围的情况下,可对本公开进行各种 改变、替换及变型。
27