技术领域
[0001] 本申请涉及用于在空间音频捕获内的空间音频滤波的装置和方法。
相关背景技术
[0002] 在许多现代数字设备(诸如移动设备和相机)中使用麦克风阵列进行空间音频捕获,在许多情况下与视频捕获一起使用。可以用耳机或扬声器播放空间音频捕获,以向用户提供由麦克风阵列捕获的音频场景的体验。
[0003] 参数化空间音频捕获方法能够实现采用不同麦克风配置和布置的空间音频捕获,因此,可用于诸如移动电话的消费类设备。参数化空间音频捕获方法基于用于利用来自多个麦克风的可用信息分析设备周围的空间音频场的信号处理解决方案。通常,这些方法在感知上分析麦克风音频信号以确定频带中的相关信息。该信息包括例如主要声源(或音频源或音频对象)的方向以及声源能量与总频带能量的关系。基于该确定的信息,可以例如使用耳机或扬声器再现空间音频。最终,用户或听众可以因此体验环境音频,就好像他们出现在捕获设备正在录制的音频场景中一样。
[0004] 音频分析和合成性能越好,用户或听众所体验的结果就越真实。
具体实施方式
[0056] 如本文关于以下实施例进一步详细讨论的概念与音频场景的捕获有关。例如,以下实施例可以在被配置为确定对象/源相关的音频信号的捕获设备侧内实现。例如,在一些实施例中,两个源方向估计及其关于感兴趣扇区/区域的相关直接与环境能量比可被用于确定滤波器增益/衰减以对对象/源相关的音频信号“滤波”。该空间滤波可以用于代替(或者甚至补充)传统的波束成形以生成对象音频信号。在以下的实施例中讨论了滤波器增益参数,尽管这些相同的方法可以用于生成滤波器衰减参数。
[0057] 此外,还可以在通过“变焦”或“聚焦”来处理所捕获的音频的播放设备内实现以下实施例。此外,空间滤波可以被实现为空间音频信号合成操作的可选部分。
[0058] 在以下描述中,术语声源用于描述在声场(或音频场景)内的(人工或真实)定义的元素。术语声源也可以被定义为音频对象或音频源,并且这些术语在理解本文所描述的示例的实现方面是可互换的。
[0059] 本文的实施例涉及参数化音频捕获装置和方法,诸如空间音频捕获(SPAC)技术。对于每个时频瓦片(tile),该装置被配置为估计主要声源的方向以及声源的直接分量和环境分量的相对能量,其被表示为直接与总能量比。
[0060] 以下示例适合于具有(诸如在典型的移动设备中发现的)挑战性麦克风布置或配置的设备,其中,移动设备的尺寸通常包括相对于其他尺寸的至少一个短(或薄)尺寸。在本文所示的示例中,所捕获的空间音频信号是空间合成器的合适输入,以便生成空间音频信号,诸如用于耳机收听的双耳格式音频信号,或用于扬声器收听的多声道信号格式音频信号。
[0061] 在一些实施例中,这些示例可以通过产生与沉浸式语音和音频服务(IVAS)兼容的音频信号和元数据来被实现为用于IVAS标准编解码器的空间捕获前端的一部分。
[0062] 音频场景(空间音频环境)可以是复杂的,并且包括若干具有不同频谱特性的同时音频源或声源。此外,强烈的背景噪声可使得难以确定声源的方向。这可在对(由所捕获的音频信号表示的)音频场进行滤波时引起问题,这意味着音频场内的期望从可听声场中滤除(或衰减)的声音元素也由于不够准确或可靠的空间音频分析而泄漏到处理后的输出。
[0063] 此外,同时声源、回声、周围声音环境等现实生活音频记录情况通常使得以良好的音频质量放大和/或衰减期望的声音方向具有挑战性。通常,在空间音频捕获方法中,每个频带只有单个方向估计被确定并被传递给滤波器。因此,难以或实际上不可能区分并因此放大/衰减与在相同频带内存在的两个同时声音方向相关联的音频信号分量。由于两个同时音频源中的至少一个音频源的方向仍然未知,因此,其中目标是放大仅从指定方向到达的音频信号分量(声音)并衰减其他方向的音频信号分量(声音)的所谓音频变焦或音频聚焦算法可以进一步出现问题。“未知的”(一个或多个)声源方向可能位于或靠近变焦方向,但在没有正确的DOA估计的情况下不能被放大。对应地,其他方向的有效衰减需要两个声源的DOA估计,否则,该算法可能会基于位于远离变焦方向的另一个方向处的另一个声源的单个DOA估计而意外地也衰减在变焦方向或其附近的另一个声源。
[0064] 如本文所描述的实施例旨在通过针对每个频带实施改进的(多个)两个方向估计方法来改进声源可按用户所请求地被放大和/或衰减的方式。估计方法提供了有关音频环境和声源方向的附加信息以用于滤波。换句话说,提供(多个)两个方向估计及其每个子带的直接与环境能量比,实现更有效的空间滤波。所增加的效率是基于组合与(所有)两个DOA估计值及其能量比率相对应的所计算的滤波增益。这反而增加并加强了感知的音频变焦效果,使得音频变焦能够在声源数量和位置方面更复杂的声音环境中使用。
[0065] 由于经改进的滤波增益/衰减的推导,实施例进一步旨在改进感知的音频质量。改进源自在形成用于当前时间帧的滤波增益时能够考虑至少一个先前帧的DOA估计(例如,来自最后40帧的DOA估计)和(所有)两个方向的能量比率。
[0066] 因此,实施例旨在防止“干扰的”滤波器从应该被过滤或衰减的方向泄漏到输出中。因此,当在捕获中存在若干声源时,这增强了感知的音频变焦效果,并防止混淆用户体验。此外,在复杂环境中,目标(焦点)方向可以相对于其他声音方向被有效地放大,再次增强变焦效果体验。
[0067] 因此,本文所描述的实施例与采用两个或更多个麦克风的参数化空间音频捕获有关。此外,基于来自两个或更多个麦克风的音频信号,在每个时频瓦片中估计至少两个方向参数和能量比率参数。
[0068] 在这些实施例中,在估计第二方向时考虑第一估计方向的影响,以便实现多声源方向检测准确性的改进。在一些实施例中,这可以导致合成空间音频的感知质量的提高。
[0069] 因此,可以使用例如在EP3791605中描述的类似的技术,但以本文所描述的方式实施。
[0070] 在实践中,本文所描述的实施例产生被感知为在空间上更稳定和更准确的声源的估计(相对于它们的正确或实际位置)。
[0071] 关于图1,示出了适合于实现本文所描述的实施例的装置的示意图。
[0072] 在该示例中,示出了包括麦克风阵列101的装置。麦克风阵列101包括被配置为捕获音频信号的多个(两个或更多个)麦克风。在麦克风阵列内的麦克风可以是任何合适的麦克风类型、布置或配置。由麦克风阵列101生成的麦克风音频信号102可以被传递到空间分析器103。
[0073] 该装置可以包括空间分析器103,该空间分析器103被配置为接收或以其他方式获得麦克风音频信号102,并且被配置为对麦克风音频信号进行空间分析,以便针对每个时频块确定至少两个主要声音或音频源。
[0074] 在一些实施例中,空间分析器可以是移动设备或计算机的CPU。空间分析器103被配置为生成包括音频信号以及所分析的空间信息的元数据的数据流104。
[0075] 取决于使用情况,数据流可以被存储或压缩,并被传输到另一个位置。
[0076] 此外,该装置包括空间合成器105。空间合成器105被配置为获取包括音频信号和元数据的数据流。在一些实施例中,空间合成器105在与空间分析器103相同的装置内实现(如图1所示),但在一些实施例中也可以在不同的装置或设备内实现。
[0077] 空间合成器105可以在CPU或类似的处理器内实现。空间合成器105被配置为基于来自数据流104的音频信号和相关联的元数据产生输出音频信号106。
[0078] 此外,取决于使用情况,输出信号106可以是任何合适的输出格式。例如,在一些实施例中,输出格式是双耳耳机信号(其中,呈现输出音频信号的输出设备是一组耳机/耳塞或类似物)或者多声道扬声器音频信号(其中,输出设备是一组扬声器)。
[0079] 输出设备107(如上所述,其可以例如是耳机或扬声器)可以被配置为接收输出音频信号106,并向收听者或用户呈现该输出。
[0080] 图1所示的示例装置的这些操作可以由图2所示的流程图来显示。因此,示例装置的操作总结如下。
[0081] 获得麦克风音频信号,如图2中的步骤201所示。
[0082] 对麦克风音频信号进行空间分析,以生成空间音频信号和元数据,该元数据包括针对每个时频瓦片的用于第一和第二音频源的方向和能量比率,如图2中的步骤203所示。
[0083] 将空间合成应用于空间音频信号以生成合适的输出音频信号,如图2中的步骤205所示。
[0084] 向输出设备输出所输出的音频信号,如图2中的步骤207所示。
[0085] 在一些实施例中,空间分析可以与IVAS编解码器结合使用。在该示例中,空间分析输出是与IVAS兼容的MASA(元数据辅助空间音频)格式,其可被直接馈送到IVAS编码器。IVAS编码器生成IVAS数据流。在接收端处,IVAS解码器能够直接产生期望的输出音频格式。
换句话说,在这种实施例中,不存在单独的空间合成块。
[0086] 参考图3,更详细地示出了图1中的附图标记103所示的空间分析器。
[0087] 在一些实施例中,空间分析器103包括流(传输)音频信号生成器307。流音频信号生成器307被配置为接收麦克风音频信号102,并生成(一个或多个)流音频信号308以被传递到多路复用器309。基于任何合适的方法,从输入麦克风音频信号中生成音频流信号。例如,在一些实施例中,可以从麦克风音频信号102中选择一个或两个麦克风信号。可替代地,在一些实施例中,麦克风音频信号102可以被下采样和/或压缩以生成流音频信号308。
[0088] 在以下示例中,在频域中执行空间分析,然而应当理解,在一些实施例中,也可以使用麦克风音频信号的时域采样版本在时域中实施分析。
[0089] 在一些实施例中,空间分析器103包括时频变换器301。时频变换器301被配置为接收麦克风音频信号102,并将它们转换到频域。在一些实施例中,在变换之前,时域麦克风音频信号可以被表示为si(t),其中,t是时间索引,i是麦克风通道索引。可以通过任何合适的时频变换来实现向频域的变换,诸如STFT(短时傅里叶变换)或QMF(正交镜像滤波器)。所得到的时频域麦克风信号302被表示为Si(b,n),其中,i是麦克风通道索引,b是频率仓(bin)索引,n是时间帧索引。b的值在0,...,B–1范围内,其中,B是在每个时间索引n处的仓索引的数量。
[0090] 频率仓可以进一步被组合成子带k=0,...,K–1。每个子带由一个或多个频率仓组成。每个子带k具有最低仓bk,low和最高仓bk,high。子带的宽度通常基于人类听觉的特性来选择,例如,可以使用等效矩形带宽(ERB)或Bark刻度(scale)。
[0091] 在一些实施例中,空间分析器103包括第一方向分析器303。第一方向分析器303被配置为接收时频域麦克风音频信号302,并针对每个时频瓦片生成用于第一声源的第一方向314和第一比率316的估计。
[0092] 第一方向分析器303被配置为基于任何合适的方法(诸如SPAC(如在US9313599中更详细地描述的))生成第一方向的估计。
[0093] 在一些实施例中,例如,通过搜索用于子带k的使两个(麦克风音频信号)通道之间的相关性最大化的时移τk来估计用于时间帧索引的最主要方向。Si(b,n)可以被移位τ个样本,如下:
[0094]
[0095] 然后,找到用于每个子带k的延迟τk,它使两个麦克风通道之间的相关性最大化:
[0096]
[0097] 在上面的公式中,在麦克风1和2之间搜索“最佳”延迟。Re指示结果的实部,*是信号的复共轭。基于麦克风之间的距离来定义延迟搜索范围参数Dmax。换句话说,考虑到麦克风之间的距离和声速,仅在物理上可能的范围内搜索τk的值。
[0098] 第一方向的角度则可以被定义为
[0099]
[0100] 如图所示,角度的符号仍然存在不确定性。
[0101] 在上面定义了麦克风1和2之间的方向分析。然后,也可以在其他麦克风对之间重复类似的过程,以解决模糊性(和/或获得参考另一个轴的方向)。换句话说,可以利用来自其他分析对的信息来消除 中的符号模糊性。
[0102] 例如,在麦克风阵列包括三个麦克风的情况下,第一麦克风、第二麦克风和第三麦克风被布置成第一麦克风对(第一麦克风和第三麦克风)在第一轴上被分开一定距离以及第二麦克风对(第一麦克风和第二麦克风)在第二轴上被分开一定距离的配置(在该示例中,第一轴垂直于第二轴)。此外,在该示例中,三个麦克风可以位于相同的第三轴上,第三轴被定义为垂直于第一轴和第二轴(并且垂直于在其上打印该图的纸面)。分析第二麦克风对之间的延迟,并得出两个替代角度α和‑α。然后,分析第二麦克风对之间的延迟,并可用于确定哪个替代角度是正确的。在一些实施例中,该分析所需的信息是声音首先到达麦克风1还是麦克风3。如果声音到达麦克风3,则角度α是正确的。如果不是,则选择‑α。
[0103] 此外,基于若干麦克风对之间的推断,第一空间分析器可以确定或估计正确的方向角
[0104] 在存在有限的麦克风配置或布置的一些实施例中,例如只有两个麦克风,不能解决方向上的模糊性。在这种实施例中,空间分析器被配置为定义所有源总是在设备前面。当有超过两个麦克风时,情况也是如此,但是,它们的位置不允许例如前后分析。
[0105] 尽管本文未公开,但在垂直轴上的多对麦克风可以确定仰角和方位角估计。
[0106] 第一方向分析器303还可以使用例如归一化后的相关值c(k,n)来确定或估计与角度θ1(k,n)相对应的能量比率r1(k,n),例如:
[0107]
[0108] r1(k,n)的值介于‑1至1之间,并通常被进一步限制在0至1之间。
[0109] 在一些实施例中,第一方向分析器303被配置为生成经修改的时频麦克风音频信号304。经修改的时频麦克风音频信号304是从麦克风信号中去除第一声源分量的信号。
[0110] 因此,例如关于第一麦克风对(麦克风1和麦克风2)。对于子带k,提供最高相关性的延迟是τk。对于每个子带k,第二麦克风信号被移位τk个样本以获得移位后的第二麦克风信号
[0111] 声源分量的估计可以被确定为这些时间对齐的信号的平均值:
[0112]
[0113] 在一些实施例中,可以使用任何其他合适的方法来确定声源分量。
[0114] 已经(例如在上面的示例公式中)确定了声源分量的估计C(b,n),然后,可以将其从麦克风音频信号中去除。另一方面,其他同时声源不是同相的,这致使它们被衰减。现在,可以从(移位后和未经移位的)麦克风信号中减去C(b,n):
[0115]
[0116]
[0117] 此外,经移位修改后的麦克风音频信号 被向后移位τk个样本以获得:
[0118]
[0119] 然后,这些经修改后的信号 和 可以被传递到第二方向分析器305。
[0120] 在一些实施例中,空间分析器103包括第二方向分析器305。第二方向分析器305被配置为接收时频麦克风音频信号302估计、经修改的时频麦克风音频信号304估计、第一方向314估计和第一比率316估计,并生成第二方向324估计和第二比率326估计。
[0121] 第二方向参数值的估计可以采用与第一方向估计相同的子带结构,并遵循如先前针对第一方向估计所描述的类似操作。
[0122] 因此,可以估计第二方向参数θ2(k,n)和r′2(k,n)。在这种实施例中,使用经修改的时频麦克风音频信号304 和 而不是时频麦克风音频信号302 S1(b,n)和S2(b,n)来确定方向估计。
[0123] 此外,在一些实施例中,能量比率r′2(k,n)是受限的,因为第一比率和第二比率的总和应当不超过1。
[0124] 在一些实施例中,第二比率受到以下限制:
[0125] r2(k,n)=(1‑r1(k,n))r′2(k,n)
[0126] 或者
[0127] r2(k,n)=min(r′2(k,n),1‑r1(k,n))
[0128] 其中,函数min选择所提供的替代物中的较小的一个。已发现两种替代选项均能提供良好的质量比率值。
[0129] 注意,在上述示例中,由于存在若干麦克风对,因此,必须针对每一对单独计算经修改的信号,即,在考虑麦克风对1和3或麦克风对1和2时, 不是相同的信号。
[0130] 第一方向估计314、第一比率估计316、第二方向估计324、第二比率估计326被传递到多路复用器(mux)309,该多路复用器309被配置为通过组合这些估计和流音频信号308来生成数据流104。
[0131] 关于图4,示出了概括图3中所示的空间分析器的示例操作的流程图。
[0132] 获得麦克风音频信号,如图4的步骤401所示。
[0133] 然后,从麦克风音频信号生成流音频信号,如图4的步骤402所示。
[0134] 此外,可以对麦克风音频信号进行时频域变换,如图4的步骤403所示。
[0135] 然后,可以确定第一方向参数估计和第一比率参数估计,如图4的步骤405所示。
[0136] 然后,可以修改时频域麦克风音频信号(以去除第一声源分量),如图4的步骤407所示。
[0137] 然后,分析经修改的时频域麦克风音频信号以确定第二方向参数估计和第二比率参数估计,如图4的步骤409所示。
[0138] 然后,第一方向参数估计、第一比率参数估计、第二方向参数估计和第二比率参数估计以及流音频信号被复用以生成数据流(其可以是MASA格式的数据流),如图4的步骤411所示。
[0139] 在以下示例中,描述了一种空间滤波方法和装置,其中,确定或计算并设置若干增益参数以调整滤波过程。这些增益可以被分为逐频带(band‑wise)增益、基于历史的(时间)增益和基于帧的平滑增益。
[0140] 在以下示例中,向每一子带的两个估计方向(DOA)提供直接与环境(DA)比率估计,这基本上表明对应的方向估计中有多大一部分被认为是“直接”信号部分以及有多少被认为是“环境”信号部分。在这些示例中,术语直接是指从声源直接到达的信号,而环境是指在环境中存在的回声和背景噪声。用于每个子带b的信号的直接分量和环境分量可以有范围[0,1],并被定义为:
[0141] dirEne(b)=ratio(b),
[0142] ambEne(b)=1‑ratio(b)。
[0143] 在一些实施例中,方法开始于在获得空间滤波区域(其也可以被定义为感兴趣焦点扇区或变焦扇区)的方向和范围后,检查这些子带是否两个方向估计中的任一个、没有一个或者两个都位于感兴趣扇区内。在以下示例中,空间滤波是正陷波滤波,其中,感兴趣扇区内的音频信号相对于感兴趣扇区外的音频信号被增大。然而,在一些实施例中,空间滤波是负陷波滤波,其中,感兴趣扇区内的音频信号相对于感兴趣扇区外的音频信号被减小。可以理解,这两者之间的区别将在于:扇区增益是大于扇区外增益(这会产生正空间陷波滤波器),还是扇区增益小于扇区外增益(这会产生负空间陷波滤波器)。
[0144] 关于图5,示出了这三个主要场景的简化图示。
[0145] 在该示例中,声音在扇区内被放大,并在扇区外被衰减,但是,该处理也显著受到方向估计的DA比率的影响。
[0146] 例如,DA比率估计可以被认为是用于实际的方向估计的权重。下表中的数字仅是示例,以展示它们对导出滤波增益G(b)的影响的基本原理。前两行展示两个声源中的任一个声源被估计为类似环境的声音的情况,这意味着它的方向估计不应被这样用于滤波。
[0147]比率1(b) 比率2(b) G(b)
<0.1 >0.9 ~g2(b)
>0.9 <0.1 ~g1(b)
~0.5 ~0.5 g1(b)*g2(b)
[0148] 因此,低的DA比率值可以指示对应的方向估计可能不是由真实声源引起的,因为在某些情况下,在捕获期间没有直接声源是活动的,或者只有一个声源。在一些实施例中,扇区边缘也可以具有其中所应用的子带增益被线性平滑以避免在扇区边缘处的突然增益变化的区域。
[0149] 因此,如图5所示,存在第一场景501,其中,两个声源都在扇区内,这将导致与每个方向估计对应的滤波增益g1(b)、g2(b)都大于1,并且因此,空间增益G(b)将产生大于1的值。
[0150] 示出了第二场景503,其中,一个声源在扇区内,与一个方向估计对应的滤波增益(第一g1(b))大于1,并且另一个(第二g2(b))小于1,因此,空间增益G(b)将产生接近1的值。
[0151] 另外示出了第三场景505,其中,两个声源都在扇区之外,这将产生与每个方向估计对应的滤波增益g1(b)、g2(b)小于1,因此,空间增益G(b)将产生小于1的值。
[0152] 在一些实施例中,在任何能量调整之前输入信号频谱X(b)的子带b的能量可以被估计为:
[0153] bandEne(b)=bandEne(b)*IIRFactor,
[0154] bandEne(b)=bandEne(b)+X(b)2,
[0155] 其中,IIRFactor<1.0定义前一时间帧能量的多大部分被包括以平滑时间帧之间的能量水平。在第一帧之前,在每个子带b处的能量可以被初始化为bandEne(b)=0。
[0156] 在一些实施例中,基于频带的方向估计d1和d2,对每个子频带b导出频带增益。方向估计可以位于焦点扇区内、焦点扇区外、或在靠近扇区边缘的区域(所谓的边缘地带)处。用于针对子带b的第一方向估计d1的直接能量分量可以被修改为:
[0157]
[0158] 其中,inGain和outGain是可调和/或用户定义的参数,用于控制在焦点扇区以内和以外的声源的聚焦效果强度,并且
[0159] interpGain1=angleDiff1/edgeWidth,
[0160] 其中,angleDiff1是所观察到的第一方向估计d1与扇形边缘之间的角度差,而edgeWidth是边缘地带的宽度,例如20度。此外,在一些实施例中,用于针对子带b的第一方向估计的环境信号部分可以被修改为:
[0161] ambEne1(b)=ambEne1(b)*outGain,
[0162] 之后,计算子带b的总能量调整:
[0163] totalEne1(b)=dirEne1(b)+ambEne1(b)。
[0164] 在能量调整后用于频带b的目标能量(其在第一帧之前被初始化为0)可以被定义为:
[0165] targetEne1(b)=targetEne1(b)*IIRFactor,
[0166] targetEne1(b)=targetEne1(b)+bandEne(b)*totalEne1(b),之后,与第一方向估计d1对应的用于子带b的实际的频带增益值被计算为:
[0167]
[0168] 为了考虑第二方向估计d2,与g1(b)值类似地计算g2(b)增益值,然后,将这些增益相乘以获得总频带增益:
[0169] g(b)=g1(b)*g2(b)。
[0170] 此外,在一些实施例中,针对两个方向估计d1和d2,计算用于每个子带的时间滤波增益,以随着时间来平滑滤波增益。这防止总滤波器增益中不自然的突然的泵起和陷落(pumps and notches)。在许多情况下,所估计的声源DA比率值可跨子带地变化,这就是为什么在整个滤波频率范围上对DA比率求平均提供了对当前时间帧f处的声音环境与环境有多相似的良好估计。对于第一方向估计,在每一帧处计算比率均值为:
[0171]
[0172] 其中,blow是要被滤波的最低频率子带,bhigh是要被过滤的最高频率子带。此外,跟踪在优选数量的先前帧(即历史长度,其可以是用户定义的和/或可调的参数)上的过去比率均值。然后,进一步在历史片段上对所计算的平均比率求平均以获得时间比率均值:
[0173]
[0174] 其中,frames是历史片段中的帧数量,例如60。对于第二方向估计d2,时间比率均值被进一步缩放为:
[0175]
[0176] 它比原始DA‑比率尺度更适合对权重滤波的目的。对于每个子带b和两个方向估计d1和d2,还使用布尔标志(其指示在当前帧f处的子带的方向估计是否在焦点扇区内)跟踪在焦点扇区内的过去的方向估计的量。
[0177]
[0178] 一旦历史片段被填充了这种标志,则对于d1在每个子带b处的“真”标志的数量N1T(b)被用于获得临时缩放变量
[0179]
[0180] 其中,tempGain是可调的和/或用户定义的参数,其典型值是[1.0,…,6.0]。可以看出,缩放变量随着“真”标志减少而减小,反之亦然。最后,用于d1的时间增益被计算为[0181]
[0182] 其中,bias是介于0至1之间的常数,用于控制在导出时间增益时对DA比率值赋予多少权重。通常,值可以被设置,例如,~0.4–0.6。
[0183] 过去在每个子带b处在扇区内的方向估计的数量N1T(b)也可以被用于提供所谓衰减状态以供以后使用,如下所示:
[0184]
[0185] 与用于d1的时间增益类似地计算用于方向估计d2的时间增益g2t(b),并且通过乘法获得实际的时间滤波增益
[0186] gt(b)=g1t(b)*g2t(b)。
[0187] 在一些实施例中,在单个时间帧内在所有子带上的方向估计可以根据在声音环境中存在的声源的数量和类型而显著变化。因此,为了防止在每一帧处的频谱包络中突然的泵起和陷落,需要额外的帧平滑增益来平滑频谱。首先,d1和d2的比率均值之和可以被计算为:
[0188]
[0189] 接下来,扇区内估计Nin在帧内的所有方向估计N上的比率被用于计算平滑因子:
[0190]
[0191] 然后将其应用于帧增益计算
[0192]
[0193] 其中,smoothGain是可调的增益参数,其典型值是[1.0,…,2.0]。较高的值提供更有效的滤波性能,但它们可能导致不想要的增益水平泵起,尤其当在捕获中存在大的背景噪声时。
[0194] 早前导出的衰减状态被用于计算用于每个子带的实际的滤波器平滑增益:
[0195]
[0196] 其中,gatt<1是可调的衰减增益。同样计算用于d2的平滑增益,并通过乘法获得总平滑增益:
[0197] gs(b)=g1s(b)*g2s(b)。
[0198] 一旦已计算了所有不同的增益类型:频带增益、时间增益和帧增益,就可以针对每个子带b确定或计算实际的输出滤波器增益:
[0199] G(b)=g(b)*gt(b)*gs(b),
[0200] 并且根据在后面的处理链中的可用净空来对输出进行压缩和限制。
[0201] 在图6中示出实现如本文所描述的实施例的优点的示例。具体地,图6示出了使用每一子带仅一个单个方向估计的已知空间滤波器601和根据一些实施例的空间滤波器方法603的以dB为单位的输出信号电平。在该示例中,音频焦点方向被直接设置为设备的前面,并且信号包括说话者一开始在设备前面说话,然后在信号的中间移动到设备的后面,最后再次回到设备的前面。此外,从位于捕获设备的左边的扬声器播放音乐。可以看出,与已知的方法相比,实施例将来自前方的语音平均放大约2‑3dB。
[0202] 此外,当与已知的空间滤波方法相比时,实施例还将来自设备后面的语音衰减超过2‑3dB,这意味着实施例总共将总聚焦效果增益增加了平均4‑6dB。这是清晰可听且明显的差异,在大多数情况下改善了感知的音频变焦体验。只要方向估计d1和d2可以从捕获中估计,则与只有估计d1相比,空间滤波器总是可以提高其性能。
[0203] 关于图7,示出了如本文所描述的实施例的操作的总结。
[0204] 第一个操作是计算或确定用于子带b的方向估计d1和d2,如图7的步骤701所示。
[0205] 然后,可以实施第一检查以确定d1是否在扇区内,如图7的步骤703所示。
[0206] 如果d1在扇区内,则可以进行进一步检查以确定d2是否在扇区内,如图7的步骤705所示。
[0207] 如果d1和d2都在扇区内,则根据d1和d2相关的估计两者的DA比率放大子带b,如图7的步骤707所示。
[0208] 如果d1不在扇区内,则可以进行进一步检查以确定d2是否在扇区内,如图7的步骤709所示。
[0209] 如果d1在扇区内但d2不在扇区内,或者d1不在扇区内但d2在扇区内,则可以根据扇区内估计的DA比率放大子带b,并且根据扇区外估计的DA比率衰减子带b,如图7的步骤711所示。
[0210] 如果d1和d2都在扇区之外,则根据d1和d2相关的估计两者的DA比率衰减子带b,如图7的步骤713所示。
[0211] 关于图8,示出了显示根据一些实施例的生成增益的流程图。
[0212] 因此,在一些实施例中,针对两个方向计算频带增益g(b),即和 如图8的步骤801所示。
[0213] 然后,在一些实施例中,将频带增益相乘,以生成组合频带增益g(b)=g1(b)*g2(b),如图8的步骤803所示。
[0214] 然后,针对每个子带和方向,生成时间增益g1t(b)、g2t(b),如图8的步骤805所示。
[0215] 然后,可以将时间增益相乘,以生成组合时间增益gt(b)=g1t(b)*g2t(b),如图8的步骤807所示。
[0216] 然后,可以针对每个子带和方向确定帧平滑增益g1s(b)、g2s(b),如图8的步骤809所示。
[0217] 然后,可以将帧平滑增益相乘,以生成组合帧平滑增益gs(b)=g1s(b)*g2s(b),如图8的步骤811所示。
[0218] 然后,可以针对子带b,通过将组合帧平滑增益、组合时间增益和组合频带增益相乘来生成用于子带的总滤波器增益G(b)=g(b)*gt(b)*gs(b),如图8的步骤813所示。
[0219] 关于图9,示出了如图1所示的示例空间合成器105。
[0220] 在一些实施例中,空间合成器105包括解复用器1201。在一些实施例中,解复用器(Demux)1201接收数据流104,并将数据流分成流音频信号1208和空间参数估计,诸如第一方向1214估计、第一比率1216估计、第二方向1224估计和第二比率1226估计。
[0221] 然后,这些被传递到空间处理器/合成器1203。
[0222] 空间合成器105包括空间处理器/合成器1203,并且被配置为接收这些估计和流音频信号,并渲染输出音频信号。空间处理/合成可以是任何合适的基于两个方向的合成,诸如在EP3791605中所描述的。
[0223] 图10和图11示出了实施例的端到端实现方式。关于图10,示出了捕获设备1101和播放设备1111,它们通过传输/存储通道1105进行通信。
[0224] 捕获设备1101被配置为如上所描述的,并且被配置为发送经滤波的音频1109。此外,可以从播放设备1111接收滤波器定向/范围信息1107。
[0225] 关于图11,示出了捕获设备1101,该捕获设备1101被配置为发送由播放设备1111接收的未经滤波的音频1119。播放设备包括空间滤波器1103,该空间滤波器1103被配置为应用如在本文所描述的实施例中讨论的空间滤波。
[0226] 关于图12,示出了可以用作计算机、编码器处理器、解码器处理器或本文所描述的任何功能块的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1600是移动设备、用户设备、平板计算机、计算机、音频播放装置等。
[0227] 在一些实施例中,设备1600包括至少一个处理器或中央处理单元1607。处理器1607可以被配置为执行各种程序代码,诸如本文所描述的方法。
[0228] 在一些实施例中,设备1600包括存储器1611。在一些实施例中,至少一个处理器1607被耦合到存储器1611。存储器1611可以是任何合适的存储装置。在一些实施例中,存储器1611包括用于存储可在处理器1607上实施的程序代码的程序代码部分。此外,在一些实施例中,存储器1611可以进一步包括用于存储数据的存储数据部分,例如根据本文所述的实施例已经处理的或将要处理的数据。被存储在程序代码部分内的所实施的程序代码和被存储在存储数据部分内的数据可以在需要时经由存储器‑处理器耦合由处理器1607检索。
[0229] 在一些实施例中,设备1600包括用户接口1605。在一些实施例中,用户接口1605可以耦合到处理器1607。在一些实施例中,处理器1607可以控制用户接口1605的操作,并从用户接口1605接收输入。在一些实施例中,用户接口1605可以使用户能够例如经由小键盘向设备1600输入命令。在一些实施例中,用户接口1605可以使用户能够从设备1600获得信息。例如,用户接口1605可以包括被配置为向用户显示来自设备1600的信息的显示器。在一些实施例中,用户接口1605可以包括能够使信息被输入到设备1600并且进一步向设备1600的用户显示信息的触摸屏或触摸界面。
[0230] 在一些实施例中,设备1600包括输入/输出端口1609。在一些实施例中,输入/输出端口1609包括收发器。在这种实施例中,收发器可以耦合到处理器1607,并且被配置为能够例如经由无线通信网络与其他装置或电子设备进行通信。在一些实施例中,收发器或任何合适的收发器或发射器和/或接收器装置可以被配置为经由有线或有线耦合与其他电子设备或装置通信。
[0231] 收发器可以通过任何合适的已知通信协议与另外的装置通信。例如,在一些实施例中,收发器可以使用合适的通用移动电信系统(UMTS)协议、无线局域网(WLAN)协议(诸如IEEE802.X)、合适的短距射频通信协议(诸如蓝牙)、或红外数据通信路径(IRDA)。
[0232] 收发器输入/输出端口1609可以被配置为发送/接收音频信号、比特流,并且在一些实施例中,通过使用执行合适的代码的处理器1607来执行如上所述的操作和方法。
[0233] 一般地,本发明的各种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,一些方面可在硬件中实现,而其他方面可在可由控制器、微处理器或其他计算设备执行的固件或软件中实现,尽管本发明不限于此。尽管本发明的各种方面可被图示和描述为框图、流程图或使用某些其他图形表示,但是很好理解的是,本文所描述的这些框、装置、系统、技术或方法可在(作为非限制性示例)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合中实现。
[0234] 本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件、或者通过硬件、或者通过软件和硬件的组合来实现。进一步地,在这方面,应当注意,图中的逻辑流程的任何框可以表示程序步骤、或互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。软件可以被存储在诸如存储器芯片、或在处理器内实现的存储器块、磁介质和光学介质的物理介质上。
[0235] 存储器可以是适合本地技术环境的任何类型,并且可以使用任何适当的数据存储技术(诸如基于半导体的存储器件、磁存储器件和系统、光学存储器件和系统、固定存储器和可移除存储器)来实现。数据处理器可以是适合本地技术环境的任何类型,并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一种或多种,作为非限制性示例。
[0236] 本发明的实施例可以在诸如集成电路模块的各种元件中实践。集成电路的设计大体上是高度自动化的过程。复杂而强大的软件工具可用于将逻辑级别设计转换为准备好在半导体衬底上蚀刻和形成的半导体电路设计。
[0237] 程序(例如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design提供的程序)使用完善的设计规则以及预存的设计模块库来自动在半导体芯片上布线导体并定位元件。一旦已经完成了半导体电路的设计,可以将标准化电子格式(例如,Opus、GDSII等)的最终设计发送到半导体制造设施或“fab”以进行制造。
[0238] 前面的描述已经通过示例性和非限制性示例的方式提供了对本发明的示例性实施例的完整且信息丰富的描述。然而,当结合附图和所附权利要求书阅读时,鉴于前面的描述,各种修改和改编对于相关领域的技术人员来说可变得显而易见。然而,本发明的教导的所有这些和类似的修改仍将落入如所附的权利要求所限定的本发明的范围内。