首页 / 用于音频编解码中的响度和锐度补偿的方法和设备

用于音频编解码中的响度和锐度补偿的方法和设备失效专利 发明

技术领域

[0001] 本发明总体上涉及音频编解码,更具体地,涉及执行或支持对音频编码中的响度和锐度限制的补偿的带宽扩展方案。

相关背景技术

[0002] 心理声学领域指的是对声音的感知的研究。这包括:人类如何听、他们的心理响应、以及音乐和声音对人类神经系统的心理影响。具体地,对于现代通信系统的开发,在新的数字音频技术的开发和现有技术的改进中,听觉系统如何处理音频激励的知识很重要。作为多媒体和广播服务中的基本组件的音频编解码器基于关于人类听觉系统的特性的知识来以低的比特率压缩音频信息,进行有效的传输和存储。另外,已经开发了用以模拟对音频质量的主观评估的客观的质量测量方案,其也很大程度上基于心理声学知识。
[0003] 几乎所有现代音频编解码[1-5]都利用下述概念:仅编码和传送音频信号的部分信号频率分量,以及在解码器中重构音频信号的剩余频率。通常,仅传送信号的低频带(LB),随后借助所称的带宽扩展(BWE)来重构信号的高频带(HB)。在典型的BWE方案中,通过平移或翻转来自相邻频带的可用频率分量(通常是可用的LB)来扩展信号的频率内容。然而,由于重构信号中可以感知的某些伪音,以这种方式重构的信号不具有与原始音频信号的HB精确匹配的HB。为了最小化这些伪音的影响,在BWE方案中,通常将重构HB的增益保持为低于原始HB的增益,其导致重构信号具有修改的心理声学特性。其中最受影响的特性是对响度的感知和对锐度的感知。响度与信号强度或语音信号的声压有关。锐度与语音信号的频率上的能量分布有关,并且随着高频分量的相对增加而增大。当信号是带宽受限信号或应用了传统BWE方案时,感知的重构信号的响度和锐度与原始信号相比有所降低,这导致主观质量下降。
[0004] 因此,需要能够提高感知的接收/解码信号的响度和锐度的方法和设备。

具体实施方式

[0033] 本公开涉及通信系统(例如利用带宽扩展方案的系统)中的语音编码/解码,以及用于改善这种系统中的感知质量(特别是用于改善感知响度和锐度)的方法和设备。将从本发明的实施例受益的具体编解码器的示例是AMR-WB(自适应多速率宽带)编解码器。然而,利用带宽扩展的其他编解码器也将从本发明或其实施例受益。
[0034] 本公开的目的是提供用于调整语音信号以改善信号(例如重构信号)的感知响度和锐度的方法和设备。已经认识到:可以仅对信号的选定部分进行调整或预滤波,使得整个信号的感知质量得到改善。通过考虑人耳的固有响应,可以针对人耳通常最敏感的那些频率来增强语音信号。因此,将使得聆听者仿佛感觉到整个重组或重构的语音信号具有改善的响度和锐度。
[0035] 参考图1,将描述本发明的改善语音信号的感知响度和锐度的方法的实施例,该语音信号与限定在预定带宽内的自然语音信号对应。在该实施例中,根据本发明的方法不限于具体的节点或网络设备。
[0036] 最初,提供语音信号S10。可以通过任何传统装置提供语音信号。随后,将语音信号至少划分成S20分别基于该预定带宽的第一带宽部分和第二带宽部分的第一信号部分和第二信号部分。通常,这通过将预定频带分成低频带部分(LB)和高频带部分(HB)来实现。然而,也可以执行其他带宽划分。针对本发明的一个具体示例,预定带宽与0-8.0kHz的频率间隔对应,其中0-6.4kHz的频率表征低频带,而6.4到8.0kHz的频率表征高频带。然而,也可以是其他频率间隔。随后,调整S30第一信号部分,以至少加强第一带宽部分内的预定频率或频率间隔。针对具体示例,该预定频率由内耳响应的中心频率(如3.2kHz)表征,或者是从3.2-6.4kHz的整个频率范围。最后,基于第一信号部分来重构S40第二信号部分或其表征,以及随后将调整后的第一信号部分与重构的第二信号部分进行组合S50以提供具有整体提高的感知响度和锐度的重构语音信号。
[0037] 作为示例,划分后的语音信号的第一部分的调整以下述方式执行:第一信号部分的能量的至少一部分被分配给第一带宽部分内的选定频率,同时第一信号部分的能量的另一部分被分配给第一带宽部分的高频间隔或区域。以这种方式,随后重构的信号的整体感知响度和锐度与基于语音信号的未滤波或未调整的低频带而重构的语音信号相比将得到改善。
[0038] 通过以针对BWE方案造成的任何损失而补偿重构信号的整体响度和锐度的方式对语音信号的可用低频带(LB)进行预滤波,可以获得改善的BWE。对重构的高频带(HB)通常不执行预滤波,因为这将增加引入的伪信号的量。术语“预滤波”用于指下述事实:在重构或重组信号之前,执行所公开的滤波或调整。因此,优选地,该滤波或调整仅应用于部分信号,但是感觉到对整个重组或重构信号的影响或改善。
[0039] 调整步骤S30通常基于对低频带进行预滤波,并且重构步骤S40可以基于BWE或低通滤波。
[0040] 在下面的描述中,功能步骤将被描述为分布或共享在网络中的两个节点上,如通信系统或网络中的相应的发射器和接收器节点中的编码器和解码器。因此,调整步骤S30或对划分的或选定的第一信号部分的滤波可以在传送第一信号部分或第一信号部分的表征之前或之后执行,下面将描述其细节。
[0041] 参考图2,描述了一个方法实施例,其中在第一网络节点的解码器或接收器设备中执行对语音信号的第一信号部分(例如低频带的第一信号部分)的滤波或调整。因此,整个过程的各个步骤中的一些步骤将在编码器或发射器设备中执行,而一些将在解码器或接收器设备中执行。在该具体实施例中,以已知方式编码语音信号。因此,优选地,在编码器中执行提供语音信号的步骤S10和将语音信号至少划分成分别基于语音信号的预定带宽的第一带宽部分和第二带宽部分的第一信号部分和第二信号部分的步骤S20。于是,在网络的第二节点的接收器或解码器设备中传送S24和接收S25划分的或选定的第一信号部分或其表征。随后,解码器调整S30接收的第一信号部分或其表征,以加强第一带宽部分内的预定频率或频率间隔。根据已知措施,基于接收的第一信号部分重构S40语音信号的第二信号部分或高频带。最后,调整后的第一信号部分和重构的第二信号部分进行组合S50以提供具有整体改善的感知响度和锐度的重构语音信号。
[0042] 参考图3,示出了提供的语音信号的各个部分及它们在所描述的方法的执行期间的处理。因此,在图3a中,由信号提供器10以合适的形式提供用于音频语音处理的语音信号。随后由信号划分器20将该信号划分成基于其低频带LB的第一信号部分和基于其高频带HB的第二信号部分。接着,由发射器24传送第一信号部分LB。随后,在接收器25处接收传送的第一信号部分LB。由重构器40(例如优选地使用BWE)基于接收的第一信号部分LB来重构第二信号部分HB或其表征,适配器30对第一信号部分进行调整或滤波,以提供滤波后或调整后的第一信号部分LBf。最后,由组合器50对这两个部分LBf和HB进行组合,以形成改善的重构或重组语音信号。
[0043] 参考图4,将描述一个方法实施例,其中在编码器或发射器设备中执行对语音信号的第一信号部分(例如低频带)的滤波或调整。在该实施例中,解码器设备也需要进行调整以能够开发本发明的全部益处,这将在下面进行描述。
[0044] 因此,在编码器或发射器节点或设备中,执行以下步骤:提供S10语音信号;以及将语音信号至少划分成S20第一信号部分和第二信号部分,该第一信号部分和第二语音信号部分分别基于语音信号的预定带宽的第一带宽部分和第二带宽部分。随后,编码器设备调整S30提供的第一信号部分以加强第一带宽部分内的预定频率或频率间隔。接着,将调整后的第一信号部分或其表征传送给S34网络中的节点(如接收器或解码器设备),并且在网络中的该节点处接收S35。另外,编码器提供关于使用了哪种编解码器的可选信息或者为了解码器能够至少基于接收的调整后的第一信号部分(如低频带)重构S40第二信号部分或高频带所必需的任何其他信息。通常,该辅助信息可在两个节点之间的会话协商期间获得,或者是预先已知的,其中编解码器和其他会话参数是经一致同意的。然而,对于某些情况,需要提供附加的辅助信息以帮助第二信号部分的重构。最后,解码器能够组合S50接收的调整后的第一信号部分LBf和重构的第二信号部分HB,以提供具有改善的整体感知响度和锐度的重构语音信号。这在图5中进一步示出。
[0045] 参考图5,示出了提供的语音信号的各个部分及它们在所描述的方法的执行期间的处理。因此,在图5中,信号提供器10提供语音信号,该信号随后被信号划分器20划分成基于其低频带LB的第一信号部分和基于其高频带HB的第二信号部分。接着,由适配器30对第一信号部分LB进行调整或滤波,以提供滤波后或调整后的第一信号部分LBf。接着由发射器34传送滤波后或调整后的第一信号部分LBf。随后,在接收器35处接收传送的调整后的第一信号部分LBf。与该信号一起提供使得能够进行第二信号部分HB的重构的信息,或者在会话初始化或编解码器协商期间已经提供该信息。由重构器40(例如,优选地使用BWE或低通滤波)基于接收的调整后的第一信号部分LBf重构第二信号部分HB或其表征。最后,由组合器50对这两个部分LBf和HB进行组合,以形成改善的重构或重组语音信号。
[0046] 参考图6,将描述系统100和设备(如编码器设备1/解码器设备2、发射器/接收器、支持整个方法的第一/第二节点)的实施例。另外,对第一信号部分进行调整或滤波的功能可以作为单独功能来提供,如滤波器设备30,其可以在编码器设备1或解码器设备2、或者系统100中的其他节点中实现,如虚线框30所指示的那样。
[0047] 参考图6,根据本发明的系统100的实施例包括信号提供器10,用于提供限定在预定带宽内的语音信号。该信号可以提供自系统中的另一节点,或者实际借助麦克风或其他音频设备在编码器设备1登记/生成,或者在系统中的某个其他设备中登记/生成。此外,系统100包括划分器20,用于将语音信号至少划分成两个信号部分,所述两个信号部分基于预定带宽内的两个带宽部分。通常,两个信号部分与信号的低频带LB和高频带HB对应,但是可以执行某种其他划分。另外,系统100包括适配器30,用于对第一信号部分或LB进行滤波或调整,以至少加强第一带宽部分内的预定频率或频率间隔。最后,系统100包括:重构器40,用于重构信号的第二信号部分或HB;以及组合器50,用于组合调整后的第一信号部分和重构的第二信号部分,以提供具有改善的感知质量(如响度和锐度)的重构语音信号。而且,参考图6,系统100包括通信系统中的两个节点,例如具有编码器设备1的第一节点和具有解码器设备2的第二节点,下文将描述其实施例。
[0048] 根据编码器1的实施例,编码器设备1包括:语音信号提供器10,用于提供语音信号;以及信号划分器20,用于将语音信号划分成第一信号部分和第二信号部分。另外,编码器设备1包括第一信号部分适配器30,用于根据本公开中前面描述的方法调整第一信号部分。此外,编码器1包括信号发射器34,适于至少传送调整后的第一信号部分的表征,以及可选地还传送辅助在系统100的解码器设备2中重构第二信号部分的信息。
[0049] 根据解码器2的实施例,解码器设备2适于与前面描述的编码器设备1协作。因此,解码器2包括信号接收器35,用于接收调整后的第一信号部分的表征以及任何另外的信息,由上面描述的编码器1提供该调整后的第一信号部分。另外,解码器2包括重构器40,用于基于接收的调整后的第一信号部分来重构语音信号的第二信号部分。最后,解码器
2包括组合器50,用于组合接收的调整后的第一信号部分和重构的第二信号部分,以提供具有改善的感知响度和锐度的重构语音信号。
[0050] 根据编码器1的另一实施例,编码器设备1仅包括:语音信号提供器10,用于提供语音信号;信号划分器20,用于将语音信号划分成第一信号部分和第二信号部分;以及最后包括单元24,用于向通信网络中的第二节点传送第一信号部分或至少其表征。
[0051] 根据解码器2的另一实施例,解码器设备2包括信号接收器35,用于从上面描述的编码器设备1接收第一信号部分。另外,解码器2包括:第一信号部分适配器30,用于对接收的第一信号部分进行调整或滤波;重构器40,用于基于接收的第一信号部分重构第二信号部分;以及组合器50,用于组合调整后的第一信号部分和重构的第二信号部分,以提供具有改善的感知响度和锐度的重构信号。
[0052] 下文跟着一些示例,说明可以如何执行对第一信号部分的调整或滤波,以提供期望的对第一带宽部分内的预定频率或频率间隔的加强。这些仅是示例,本领域普通技术人员显然清楚:实际的数学表达式可以修改或不同地表达,同时保持对感知响度和锐度的相同的整体影响。
[0053] 可以利用下面类型的滤波器实现对中间LB频率(对于具体实施例,通常是约3.2kHz)的加强:
[0054] H(z)=α·z-2+β·z-1-γ+β·z+1+α·z+2 (1)
[0055] 其中,优选系数α=0.1,β=0和γ=0.85。
[0056] 备选的滤波器实现如下,其影响LB信号的倾斜度(tilt):
[0057] H(z)=α·z-1-β+α·z+1 (2)
[0058] 其中,优选系数α=0.06和β=0.66
[0059] 或
[0060] H(z)=1-μ·z-1 (3)
[0061] 其中,优选系数μ=0.2。
[0062] 根据本发明的实施例,如果信号的HB已经通过BWE方案重构或进行了低通滤波,则激活预滤波模块来对信号的LB部分进行预滤波。在该上下文中,术语“预滤波”指的是下述事实:在重构语音信号之前执行滤波。由此,仅部分信号被滤波,但是该滤波对整个重构信号的感知质量有影响。本发明的实施例的预滤波的目的在于加强LB的中间频率或高频。
[0063] 如前面提到的,考虑包括频率分量0-6.4kHz的典型LB和包括频率分量6.4-8kHz的重构HB。在该场景下,预滤波将加强以3.2kHz为中心的频率,或整个范围3.2-6.4kHz。通常关于正常听力测试主体的外-中耳响应(参见图7)来确定该加强频率。然而,也可以应用其他标准来选择加强频率或频率范围。例如,可以基于消费者(残疾人或正常人)的实际听力分布来调适该调整。
[0064] 在图8中介绍了对本发明的效果的说明。在该示例中,实线示出了原始语音信号。点虚线与已经应用了传统BWE方案和低通滤波的重构信号对应。最后,虚线与根据本发明的重构信号对应。与原始信号相比,虚线和点虚线示意的信号在大于6kHz的区域中都具有低的能量。除此之外,由于3-4kHz区域中的频率加强,将感觉到虚线示意的信号比点虚线示意的信号更响亮也更尖。换言之,通过放大信号的LB而非HB,可以重构在高频具有很多能量的锐度和响度。这有效避免了伪信号的增加。
[0065] 为了理解上面的预滤波如何影响对响度和锐度的感觉或感知(因此改善感知质量),观察它们相应的心理声学模型是有利的。通过 定义关键频带k的特定响度,于是可以如[6]一样定义响度和锐度:
[0066]
[0067]
[0068] 求和是在信号的带宽的所有关键频带上进行,函数f(k)对于低频带等于1,而对于最后一些关键频带将增大。该特定响度定义如下:
[0069]
[0070] 其中归一化因子E*可以与寂静阈值的倒数或者外-中耳频率响应(参见图7)有关。激励E可以通过下述方式计算:将信号波形转换到频域,随后将频率窗口分组到关键频带。
[0071] 根据方程(4)、(6)和图7,有可能得到下述结论:即使总信号强度保持不变,通过将可用信号能量分配给3.2kHz区域,可以提高对响度的感觉。
[0072] 根据方程(5),可以得到下述结论:通过在LB中将能量从低频分配给高频-在求和中较高的频带具有较高的权重,由于增大了k和f(k),所以可以提高对锐度的感觉。
[0073] 发明人已经根据完善建立的MUSHRA方案[7]执行了广泛的听力测试,,所得的结果在图9示出。白色的柱是参考信号,灰色的柱是本发明的结果,而黑色的柱是现有技术结果。根据该图可以看出,与现有技术相比,根据本发明对信号的调整产生了更接近参考信号的信号,因此与现有技术相比提供了改善的聆听体验。
[0074] 此外,图10示出了根据本发明的编码器和解码器的功能的示例。
[0075] 上面描述的步骤、功能、过程和/或块可以使用任何传统技术在硬件中实现,所述传统技术例如是分立电路或集成电路技术,包括通用电路和专用电路。
[0076] 可选地,此处描述的步骤、功能、过程和/或块中的至少一些可以在供合适的处理设备执行的软件中实现,所述处理设备例如是微处理器、数字信号处理器(DSP)、和/或任何合适的可编程逻辑器件,如现场可编程门阵列(FPGA)器件。
[0077] 还应该理解,重用网络节点的通用处理能力是可能的。例如,这可以通过对现有软件重新编程或者通过添加新的软件组件来实现。
[0078] 软件可以实线为计算机程序产品,其通常携带在计算机可读介质上。因此,可以将软件装载进计算机的操作存储器,以由计算机的处理器执行。计算机/处理器不一定要专用于仅执行上面描述的步骤、功能、过程和/或块,而是可以执行其他软件任务。
[0079] 在下文中,将参考图11描述计算机实现的示例。计算机200包括处理器2010、操作存储器220、以及输入/输出单元230。在该具体示例中,上面描述的步骤、功能、过程和/或块中的至少一些在软件225中实现,软件225被装载进操作存储器220供处理器210执行。处理器210和存储器220经由系统总线彼此互连,以能够完成常规软件执行。I/O单元230可以经由I/O总线互连到处理器210和/或存储器220,以支持相关数据的输入和/或输出,所述相关数据例如是输入参数和/或得到的输出参数。
[0080] 所提出的用于部分响度和锐度补偿的方案改善了感知质量,同时保持比特率要求和复杂度约束不变。该概念可应用于几乎任何现代音频编解码器或BWE方案。该滤波加强了信号的LB部分的中间频率或高频,以提高对整个重构信号的响度和锐度的感受。换言之,对信号的部分滤波提供了整个信号的改善的感知质量。
[0081] 参考文献
[0082] [1]3GPP TS 26.190,“Adaptive Multi-Rate-Wideband(AMR-WB)speech codec;Transcoding functions”,2008
[0083] [2]3GPP TS 26.290“Extended Adaptive Multi-Rate-Wideband (AMR-WB+)speech codec;Transcoding functions”,2005
[0084] [3]3GPP TS 26.404“Enhanced aacPlus encoder SBR part”,2007[0085] [4]ITU-T Rec.G.729.1,“G.729-based embedded variable bit-rate coder:An8-32 kbit/s scalable wideband coder bitstream interoperable with G.729”,2006[0086] [5]ITU-T Rec.G.718,“Frame error robust narrowband and wideband embedded variable bit-rate coding of speech and audio from 8-32kbit/s”,2008[0087] [6]H.Fastl and E.Zwicker,“Psychoacoustics:Facts and Models,”Chapter
8.7.1and 9.2,Springer,2007
[0088] [7]G.Stoll and F.Kozamernik,“EBU listening tests on Internet audio codecs”,EBU Technical Review,June 2000.

当前第1页 第1页 第2页 第3页
相关技术
响度锐度相关技术
方法设备相关技术
沃洛佳·格兰恰诺夫发明人的其他相关专利技术