技术领域
[0003] 本公开总体上涉及人工现实系统,并且更具体地涉及基于人工现实系统的位置来更新由该人工现实系统呈现的音频。
相关背景技术
[0004] 可穿戴设备(例如,人工现实头戴式设备(headset))向用户呈现音频。例如,可穿戴设备包括一个或多个扬声器或耦接到一个或多个扬声器,其中该一个或多个扬声器向用户呈现音频。随着可穿戴设备的位置改变,包括音频系统的该位置的声学特性也会改变。位置之间的声学特性的这种改变会影响用户如何感知从可穿戴设备呈现的音频。
[0005] 此外,当音频在不同的位置呈现时,用户对音频具有不同的偏好。用户的偏好可以减轻或加重用户周围的局部区域的声学特性。例如,当用户进入一位置时,用户向可穿戴设备提供各种输入,以指定用于呈现音频的一个或多个音频参数。然而,当用户移动到不同位置时,用户向可穿戴设备提供附加输入,以为该不同位置定制一个或多个音频参数,这改变了可穿戴设备在不同位置时如何呈现音频。这种针对不同位置对音频参数的手动配置增加了与可穿戴设备的用户交互量,从而增加了定制音频呈现以考虑不同位置的不同特性的复杂性。
具体实施方式
[0019] 用户对由位于不同位置的可穿戴设备(例如,头戴式设备或一副音频眼镜)进行的音频呈现具有不同的偏好。例如,当可穿戴设备位于第一位置时,用户向可穿戴设备提供各种输入来改变一个或多个声学参数,以修改音频呈现。然而,当可穿戴设备移动到不同位置时,用户向可穿戴设备提供附加输入来改变一个或多个音频参数,以在可穿戴设备处于该不同位置时调整音频呈现。尽管这允许基于从用户接收到的输入针对不同位置而定制由可穿戴设备呈现的音频,但对位置特定的音频参数的手动配置增加了与可穿戴设备的用户交互量,从而导致用户在可穿戴设备处于不同位置时定制如何呈现音频、以及随着可穿戴设备的位置改变来更新音频呈现的相应复杂性。
[0020] 为了简化对基于可穿戴设备(例如,头戴式设备或一副音频眼镜)的位置的音频呈现的修改,可穿戴设备获取描述了可穿戴设备周围的局部区域的特征的数据。局部区域的特征包括局部区域的图像、从局部区域采集的音频、可穿戴设备在局部区域中的移动或定位、用户位于该局部区域时与可穿戴设备的交互或其它信息。可以从可穿戴设备的一个或多个部件或从耦接到可穿戴设备的一个或多个部件获取局部区域的这些特征。根据所获取的局部区域的特征,可穿戴设备确定该可穿戴设备的位置。在各种实施例中,该位置是标识了物理位置、以及该物理位置周围的上下文的语义位置。例如,位置标识“健身房”、“家”、“办公室”或“汽车”,从而允许位置指定包括可穿戴设备的局部区域的类型。基于所确定的位置,可穿戴设备检索与所确定的位置相对应的位置配置。位置配置包括一个或多个声学参数,该一个或多个声学参数指定了可穿戴设备现在修改音频以向用户呈现,因此可穿戴设备根据来自该位置配置的一个或多个声学参数来呈现音频。这允许可穿戴设备基于该可穿戴设备周围的局部区域的特征自动地确定该局部区域的声学参数,这使得可穿戴设备能够基于来自可穿戴设备周围的局部区域的特征来自动更新如何向用户呈现音频。
[0021] 本发明的各实施例可以包括人工现实系统,或可以结合人工现实系统来实现。人工现实是在呈现给用户之前已经以某种方式进行了调整的现实形式,该人工现实例如可以包括例如虚拟现实(virtual reality,VR)、增强现实(augmented reality,AR)、混合现实(mixed reality,MR)、混合现实(hybrid reality)、或它们的某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或与采集到的(例如,真实世界的)内容相结合的生成的内容。人工现实内容可以包括视频、音频、触觉反馈或它们的某种组合,以上中的任何一种都可以在单通道或多通道中被呈现(例如,给观看者带来三维效果的立体视频)。另外,在一些实施例中,人工现实还可以与应用、产品、附件、服务或它们的某种组合相关联,这些应用、产品、附件、服务或它们的某种组合用于在人工现实中创建内容,和/或以其它方式在人工现实中使用。提供人工现实内容的人工现实系统可以在各种平台上实现,这些平台包括连接到主计算机系统的可穿戴设备(例如,头戴式设备、音频眼镜)、独立可穿戴设备(例如,头戴式设备、音频眼镜)、移动设备或计算系统、或能够向一位或多位观看者提供人工现实内容的任何其它硬件平台。
[0022] 图1A是根据一个或多个实施例的被实现为眼镜设备的头戴式设备100的立体图。在一些实施例中,该眼镜设备是近眼显示器(near eye display,NED)。一般而言,头戴式设备100可以被佩戴在用户的面部上,使得使用显示组件和/或音频系统来呈现内容(例如,媒体内容)。然而,头戴式设备100还可以被使用以使得以不同的方式向用户呈现媒体内容。由头戴式设备100所呈现的媒体内容的示例包括一个或多个图像、视频、音频或它们的某种组合。头戴式设备100包括框架,并且可以包括显示组件、深度摄像头组件(depth camera assembly,DCA)、音频系统以及位置传感器190等其它部件,该显示组件包括一个或多个显示元件120。尽管图1A示出了头戴式设备100的各部件位于头戴式设备100上的示例位置,但是这些部件可以位于头戴式设备100上的其它位置、位于与头戴式设备100配对的外围设备上、或者它们的某种组合。类似地,头戴式设备100上可以存在比图1A中所示的部件更多的部件或更少的部件。
[0023] 框架110保持头戴式设备100的其它部件。框架110包括保持一个或多个显示元件120的前部件、以及附接到用户的头部的端部件(例如,镜腿)。框架110的前部件跨过用户鼻子的顶部。端部件的长度可以是可调整的(例如,可调整的镜腿长度)以适合不同的用户。端部件还可以包括卷曲在用户的耳朵后面的部分(例如,镜腿末端、耳承(ear piece))。
[0024] 一个或多个显示元件120向佩戴着头戴式设备100的用户提供光。如所示出的,针对用户的每只眼睛,头戴式设备包括一显示元件120。在一些实施例中,显示元件120生成图像光,该图像光被提供到头戴式设备100的适眼区(eyebox)。适眼区是用户在佩戴头戴式设备100时的眼睛所占据的空间中的位置。例如,显示元件120可以是波导显示器。波导显示器包括光源(例如,二维源、一个或多个线源、一个或多个点源等)和一个或多个波导。来自光源的光被内耦合到一个或多个波导中,该一个或多个波导以使得在头戴式设备100的适眼区中存在光瞳复制的方式输出光。光的内耦合和/或光从一个或多个波导的外耦合可以使用一个或多个衍射光栅来完成。在一些实施例中,波导显示器包括扫描元件(例如,波导、反射镜等),该扫描元件在来自光源的光被内耦合到一个或多个波导中时对该光进行扫描。注意,在一些实施例中,这两个显示元件120中的一者或两者是不透明的,并且不透射来自头戴式设备100周围的局部区域的光。该局部区域是头戴式设备100周围的区域。例如,该局部区域可以是佩戴着头戴式设备100的用户所处的房间,或者佩戴着头戴式设备100的用户可能位于户外并且该局部区域是户外区域。在这种背景下,头戴式设备100生成VR内容。替代地,在一些实施例中,这两个显示元件120中的一者或两者是至少部分透明的,使得来自局部区域的光可以与来自该一个或多个显示元件的光组合,以生成AR内容和/或MR内容。
[0025] 在一些实施例中,显示元件120不生成图像光,而是该显示元件120是将来自局部区域的光传输到适眼区的镜片。例如,这两个显示元件120中的一者或两者可以是没有矫正(非处方用)的镜片或处方用镜片(例如,单光镜片、双焦和三焦镜片或渐变镜片),以帮助矫正用户视力的缺陷。在一些实施例中,显示元件120可以是偏光的和/或着色的,以保护用户的眼睛免受太阳伤害。
[0026] 在一些实施例中,显示元件120可以包括附加的光学块(optics block)(未示出)。光学块可以包括一个或多个光学元件(例如,透镜、菲涅耳透镜等),该一个或多个光学元件将来自显示元件120的光引导到适眼区。光学块可以例如校正一些或全部图像内容中的像差、放大一些或全部图像或它们的某种组合。
[0027] DCA确定头戴式设备100周围的局部区域的一部分的深度信息。DCA包括一个或多个成像设备130和DCA控制器(图1A中未示出),并且还可以包括照明器140。在一些实施例中,照明器140利用光照射局部区域的一部分。该光例如可以是红外光(infrared,IR)中的结构光(例如,点状图案结构光、条形结构光等)、用于飞行时间(time‑of‑flight,ToF)的IR闪光等。在一些实施例中,一个或多个成像设备130采集局部区域中包括来自照明器140的光的部分的图像。如所示出的,图1A显示了单个照明器140和两个成像设备130。在替代实施例中,不具有照明器140且具有至少两个成像设备130。
[0028] DCA控制器使用采集到的图像和一种或多种深度确定技术,来计算局部区域的一部分的深度信息。深度确定技术例如可以是直接飞行时间(ToF)深度感测、间接ToF深度感测、结构光、被动式立体分析、主动式立体分析(使用通过来自照明器140的光而添加到场景中的纹理)、用于确定场景的深度的一些其它技术、或它们的某种组合。
[0029] 音频系统提供音频内容。音频系统包括转换器阵列、传感器阵列和音频控制器150。然而,在其它实施例中,音频系统可以包括不同的部件和/或附加的部件。类似地,在一些情况下,参考音频系统的多个部件而描述的功能可以以与本文所描述的方式不同的方式分布在该多个部件之中。例如,控制器的一些或全部功能可以由远程服务器执行。
[0030] 转换器阵列向用户呈现声音。转换器阵列包括多个转换器。转换器可以是扬声器160或组织转换器170(例如,骨传导转换器或软骨传导转换器)。尽管扬声器160被显示为在框架110的外部,但是扬声器160可以封在框架110中。在一些实施例中,头戴式设备100包括扬声器阵列而不是用于每只耳朵的单独的扬声器,该扬声器阵列包括集成到框架110中的多个扬声器,以改善所呈现的音频内容的方向性。组织转换器170耦接到用户的头部,并直接振动用户的组织(例如,骨或软骨)以产生声音。转换器的数量和/或位置可以与图1A中所示的数量和/或位置不同。
[0031] 传感器阵列检测头戴式设备100的局部区域内的声音。该传感器阵列包括多个声学传感器180。声学传感器180采集从局部区域(例如,房间)中的一个或多个声源发出的声音。每个声学传感器被配置为检测声音并将检测到的声音转换为电子格式(模拟格式或数字格式)。声学传感器180可以是声波传感器、传声器、声音转换器或适合于检测声音的类似传感器。
[0032] 在一些实施例中,一个或多个声学传感器180可以被放置在每只耳朵的耳道中(例如,充当双声道传声器)。在一些实施例中,声学传感器180可以被放置在头戴式设备100的外表面上、被放置在头戴式设备100的内表面上、与头戴式设备100分开(例如,作为某种其它设备的一部分)或它们的某种组合。声学传感器180的数量和/或位置可以与图1A中所示的数量和/或位置不同。例如,可以增加声学检测位置的数量,以增加收集到的音频信息的量以及该信息的灵敏度和/或准确性。声学检测位置可以被定向为使得传声器能够检测佩戴着头戴式设备100的用户周围的宽范围方向上的声音。
[0033] 音频控制器150对来自传感器阵列的、描述了由该传感器阵列检测到的声音的信息进行处理。音频控制器150可以包括处理器和计算机可读存储介质。音频控制器150可以被配置为生成波达方向(direction of arrival,DOA)估计结果、生成声学传递函数(例如,阵列传递函数和/或头部相关传递函数)、追踪声源的位置、在声源的方向上形成波束、对声源进行分类、生成用于扬声器160的声音滤波器、或它们的某种组合。如以下结合图3至图6进一步描述的,音频控制器150从位置传感器190和声学传感器180获取头戴式设备100周围的局部区域的特征。在一些实施例中,音频控制器还可以使用与头戴式设备100的用户交互来确定头戴式设备100的位置。在其它实施例中,音频控制器还可以接收来自一个或多个成像设备130的图像数据或视频数据。基于所获取的特征,音频控制器150确定头戴式设备100的位置,并检索所确定位置的位置配置。位置配置包括一个或多个声学参数,该一个或多个声学参数指定了音频控制器150在将音频呈现给用户之前对音频的修改。这允许音频控制器150基于头戴式设备100周围的局部区域的特征来动态地确定如何修改音频。
[0034] 位置传感器190响应于头戴式设备100的运动而生成一个或多个测量信号。位置传感器190可以位于头戴式设备100的框架110的一部分上。位置传感器190可以包括惯性测量单元(inertial measurement unit,IMU)。位置传感器190的示例包括:一个或多个加速度计、一个或多个陀螺仪、一个或多个磁力计、检测运动的另一合适类型的传感器、用于IMU的误差校正的一类传感器、或它们的某种组合。位置传感器190可以位于IMU的外部、IMU的内部或它们的某种组合。
[0035] 在一些实施例中,头戴式设备100可以针对头戴式设备100的定位以及局部区域的模型的更新而提供同步定位与地图构建(simultaneous localization and mapping,SLAM)。例如,头戴式设备100可以包括生成彩色图像数据的无源摄像头组件(passive camera assembly,PCA)。PCA可以包括采集局部区域中的一些或全部区域的图像的一个或多个RGB摄像头。在一些实施例中,DCA中的一些或全部成像设备130也可以用作PCA。由PCA采集的图像和由DCA确定的深度信息可以用于确定局部区域的参数、生成局部区域的模型、更新局部区域的模型、或它们的某种组合。此外,位置传感器190追踪头戴式设备100在房间内的定位(例如,位置和姿态)。下文结合图7对关于头戴式设备100的多个部件的附加细节进行了论述。
[0036] 图1B是根据一个或多个实施例的被实现为HMD的头戴式设备105的立体图。在描述AR系统和/或MR系统的实施例中,HMD正面的多个部分在可见波段(约380纳米(nm)至750nm)中至少部分透明,并且HMD中位于HMD正面与用户眼睛之间的多个部分至少部分透明(例如,部分透明的电子显示器)。HMD包括前部刚性体115和带175。头戴式设备105包括许多以上参照图1A描述的相同部件,但被修改为与HMD形状要素相结合。例如,HMD包括显示组件、DCA、音频系统和位置传感器190。图1B显示了照明器140、多个扬声器160、多个成像设备130、多个声学传感器180和位置传感器190。这些扬声器160可以位于各种位置,例如被耦接到带175(如图所示)、被耦接到前部刚性体115,或可以被配置为插入用户的耳道内。
[0037] 图2是根据一个或多个实施例的音频系统200的框图。图1A或图1B中的音频系统可以是音频系统200的实施例。音频系统200为用户生成一个或多个声学传递函数。然后,音频系统200可以使用该一个或多个声学传递函数来为用户生成音频内容。在图2的实施例中,音频系统200包括转换器阵列210、传感器阵列220和音频控制器230。音频系统200的一些实施例具有与此处所描述的部件不同的部件。类似地,在一些情况下,各功能可以以与此处所描述的方式不同的方式分布在各部件之中。
[0038] 转换器阵列210被配置为呈现音频内容。转换器阵列210包括多个转换器。转换器是提供音频内容的设备。转换器例如可以是扬声器(例如,扬声器160)、组织转换器(例如,组织转换器170)、提供音频内容的某种其它设备、或它们的某种组合。组织转换器可以被配置为用作骨传导转换器或软骨传导转换器。转换器阵列210可以经由以下方式来呈现音频内容:经由空气传导(例如,经由一个或多个扬声器)、经由骨传导(经由一个或多个骨传导转换器)、经由软骨传导音频系统(经由一个或多个软骨传导转换器)、或它们的某种组合。在一些实施例中,转换器阵列210可以包括覆盖频率范围的不同部分的一个或多个转换器。
例如,压电转换器可以用于覆盖频率范围的第一部分,并且动圈式转换器可以用于覆盖频率范围的第二部分。
[0039] 骨传导转换器通过使用户头部中的骨/组织振动来生成声压力波。骨传导转换器可以耦接到头戴式设备的一部分,并且可以被配置为位于连接到用户的颅骨的一部分的耳廓之后。骨传导转换器接收来自音频控制器230的振动指令,并且基于所接收到的指令使用户的颅骨的一部分振动。来自骨传导转换器的振动生成组织承受的声压力波,该声压力波绕过耳膜朝向用户的耳蜗传播。
[0040] 软骨传导转换器通过使用户耳朵的耳软骨的一个或多个部分振动来产生声压力波。软骨传导转换器可以耦接到头戴式设备的一部分,并且可以被配置为耦接到耳朵的耳廓软骨的一个或多个部分。例如,软骨传导转换器可以耦接到用户耳朵的耳廓的后部。软骨传导转换器可以位于外耳周围沿耳廓软骨的任何位置(例如,耳廓、耳屏、耳软骨的某个其它部分、或它们的某种组合)。使耳软骨的一个或多个部分振动可以产生:耳道外的空气传播的声压力波;组织传播的声压力波,该组织传播的声学压力波引起耳道的某些部分振动从而在耳道内产生空气传播的声压力波;或它们的某种组合。所产生的空气传播的声压力波沿着耳道向鼓膜传播。
[0041] 转换器阵列210根据来自音频控制器230的指令来生成音频内容。在一些实施例中,音频内容被空间化。空间化的音频内容是这样的音频内容:该音频内容看起来像是源自于特定的方向和/或目标区域(例如,局部区域中的对象和/或虚拟对象)。例如,空间化的音频内容可以使声音看起来像是源自于与音频系统200的用户隔着一房间的虚拟歌手。转换器阵列210可以耦接到可穿戴设备(例如,头戴式设备100或头戴式设备105)。在替代实施例中,转换器阵列210可以是与可穿戴设备分开(例如,耦接到外部控制台)的多个扬声器。
[0042] 传感器阵列220检测传感器阵列220周围的局部区域内的声音。传感器阵列220可以包括多个声学传感器,该多个声学传感器各自检测声波的气压变化、并将检测到的声音转换为电子格式(模拟格式或数字格式)。多个声学传感器可以被定位在头戴式设备(例如,头戴式设备100和/或头戴式设备105)上、用户上(例如,在用户的耳道中)、颈带上、或它们的某种组合。声学传感器例如可以是传声器、振动传感器、加速度计、或它们的任意组合。在一些实施例中,传感器阵列220被配置为使用多个声学传感器中的至少一些声学传感器来监测由转换器阵列210生成的音频内容。增加传感器的数量可以提高描述由转换器阵列210产生的声场和/或来自局部区域的声音的信息(例如,方向性)的准确性。
[0043] 音频控制器230控制音频系统200的运行。在图2的实施例中,音频控制器230包括数据存储库235、DOA估计模块240、传递函数模块250、追踪模块260、波束成形模块270和声音滤波器模块280。在一些实施例中,音频控制器230可以位于头戴式设备内部。音频控制器230的一些实施例具有与此处所描述的部件不同的部件。类似地,各功能可以以与此处所描述的方式不同的方式分布在各部件之中。例如,控制器的一些功能可以在头戴式设备外部执行。用户可以选择进入以允许音频控制器230将由头戴式设备采集到的数据传输到头戴式设备外部的系统,并且用户可以选择对访问任何此类数据进行控制的隐私设置。
[0044] 数据存储库235存储用于由音频系统200使用的数据。数据存储库235中的数据可以包括:在音频系统200的局部区域中录制的声音、音频内容、头部相关传递函数(head‑related transfer function,HRTF)、一个或多个传感器的传递函数、多个声学传感器中的一个或多个声学传感器的阵列传递函数(array transfer function,ATF)、声源位置、局部区域的虚拟模型、波达方向估计结果、声音滤波器、以及与音频系统200的使用相关的其他数据、或它们的任意组合。
[0045] 用户可以选择进入以允许数据存储库235记录由音频系统200采集的数据。在一些实施例中,音频系统200可以采用一直记录(always on recording),其中音频系统200记录由音频系统200所采集的所有声音,以便改善用户的体验。用户可以选择进入或选择退出,以允许或阻止音频系统200记录、存储或向其它实体发送所记录的数据。
[0046] 在各种实施例中,数据存储库235包括特征组合与位置之间的关联。如以下结合图3进一步描述的,位置是表示物理位置和描述了该物理位置的附加上下文境的语义位置。例如,位置是“家”,并且与由音频系统200所获取的数据的特征组合相关联。作为另一示例,位置是“健身房”,并且与音频系统200所获取的数据的另一特征组合相关联。因此,位置描述了音频系统200周围的局部区域。如以下结合图3进一步描述的,数据的特征包括来自位置传感器190的描述了音频系统200的移动的一个或多个信号、与音频系统200的用户交互、获取特征的时间(例如,一天和一天中的时刻)、由传感器阵列220从局部区域采集的音频、由转换器阵列210呈现的音频、来自成像设备130的图像、或描述了音频系统200周围的局部区域或与音频系统200的交互的其它信息。在一些实施例中,如以下结合图4进一步描述的,数据存储库235维护包括多个条目的数据库,每个条目包括位置和对应的特征组合。在一些实施例中,数据库与用户相关联,从而允许数据存储库235包括标识不同用户的位置和特征组合的不同数据库。
[0047] 另外,数据存储库235存储位置与位置配置之间的关联,其中与一位置相关联的位置配置包括一个或多个声学参数。位置配置中的声学参数标识当音频系统200处于与该位置配置相关联的位置时、向用户呈现音频时音频系统200对音频的一个或多个修改。包括在位置配置中的示例声学参数包括噪声消除参数、波束成形参数、频率响应、音频的增益量、音频的压缩比、音频的时间常数。在一些实施例中,数据存储库235包括以下数据库:该数据库包括多个条目,每个条目都具有位置和对应的位置配置,例如以下结合图5进一步描述的示例。该数据库可以与用户相关联,从而允许该数据库包括用户特定的位置配置。替代地,数据存储库235包括单个数据库,其中数据库中的条目包括位置、与该位置相对应的特征组合、以及与该位置相关联的位置配置。在各种实施例中,数据库可以与用户相关联,从而允许数据存储库235包括不同的数据库,这些不同的数据库具有位置、标识位置的特征组合、以及不同用户的位置配置之间的不同关系。
[0048] DOA估计模块240被配置为部分地基于来自传感器阵列220的信息,来定位局部区域中的声源。定位是确定声源相对于音频系统200的用户所处的位置的过程。DOA估计模块240执行DOA分析,以定位局部区域内的一个或多个声源。DOA分析可以包括分析每个声音在传感器阵列220处的强度、频谱和/或到达时间,以确定声音所源自的方向。在一些情况下,DOA分析可以包括用于分析音频系统200所处的周围声学环境的任何合适的算法。
[0049] 例如,DOA分析可以被设计为接收来自传感器阵列220的输入信号,并且将数字信号处理算法应用于这些输入信号以估计波达方向。这些算法可以包括例如延迟求和算法,在该延迟求和算法中,对输入信号进行采样,并且对所得到的采样信号的加权版本和延迟版本一起进行平均以确定DOA。也可以实现最小均方(least mean square,LMS)算法来创建自适应滤波器。然后,该自适应滤波器可以用于识别信号强度的差或例如到达时间的差。然后,这些差可以用于估计DOA。在另一实施例中,可以通过将输入信号转换到频域并且选择时频(time‑frequency,TF)域内的特定间隔(bin)进行处理来确定DOA。可以对每个所选择的TF间隔进行处理,以确定该间隔是否包括音频频谱中具有直接路径音频信号的部分。然后,可以对具有直接路径信号的一部分的那些间隔进行分析,以识别传感器阵列220接收到该直接路径音频信号的角度。然后,所确定的角度可以用于识别接收到的输入信号的DOA。还可以单独使用上文未列出的其它算法或将上文未列出的其它算法与上述算法组合使用来确定DOA。
[0050] 在一些实施例中,DOA估计模块240还可以确定与音频系统200在局部区域内的绝对位置相关的DOA。可以从外部系统(例如,头戴式设备的某个其它部件、人工现实控制台、地图构建服务器、位置传感器(例如,位置传感器190)等)接收传感器阵列220的位置。外部系统可以创建局部区域的虚拟模型,在该虚拟模型中绘制了音频系统200的局部区域和位置。接收到的位置信息可以包括音频系统200的一些部分或全部部分(例如,传感器阵列220)的地点和/或方位。DOA估计模块240可以基于接收到的位置信息来更新所估计的DOA。
[0051] 传递函数模块250被配置为生成一个或多个声学传递函数。一般而言,传递函数是针对每个可能的输入值给出对应的输出值的数学函数。传递函数模块250基于检测到的声音的参数,生成与音频系统相关联的一个或多个声学传递函数。声学传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其它类型的声学传递函数或它们的某种组合。ATF表征传声器如何接收来自空间中的点的声音。
[0052] ATF包括多个传递函数,这些传递函数表征声源与传感器阵列220中的多个声学传感器所接收的对应的声音之间的关系。因此,针对一声源,对于传感器阵列220中多个声学传感器中的每个声学传感器均存在对应的传递函数。并且该组传递函数被统称为ATF。因此,对于每个声源,均存在对应的ATF。注意,该声源例如可以是在局部区域中生成声音的某人或某物、用户、或转换器阵列210中的一个或多个转换器。由于人的生理结构(例如,耳朵形状、肩膀等)在声音向人耳传播时会影响该声音,因此相对于传感器阵列220的特定声源位置的ATF可能会因用户的不同而有所区别。因此,传感器阵列220的各ATF对于音频系统200的每个用户而言是个性化的。
[0053] 在一些实施例中,传递函数模块250确定音频系统200的用户的一个或多个HRTF。HRTF表征耳朵如何接收来自空间中的点的声音。由于人的生理结构(例如,耳朵形状、肩膀等)在声音向人耳传播时会影响该声音,因此相对于人的特定声源位置的HRTF对于这个人的每只耳朵而言是独特的(从而对于这个人而言是独特的)。在一些实施例中,传递函数模块250可以使用校准过程来确定用户的HRTF。在一些实施例中,传递函数模块250可以向远程系统提供关于用户的信息。用户可以调整隐私设置,以允许或阻止传递函数模块250向任何远程系统提供关于用户的信息。远程系统使用例如机器学习来确定为用户定制的一组HRTF,并且将定制的该组HRTF提供给音频系统200。
[0054] 追踪模块260被配置为追踪一个或多个声源的位置。追踪模块260可以将多个当前DOA估计结果进行比较,并且将这些当前DOA估计结果与先前DOA估计结果的存储历史进行比较。在一些实施例中,音频系统200可以按照周期性时间表(例如,每秒一次或每毫秒一次)来重新计算DOA估计结果。追踪模块可以将当前DOA估计结果与先前DOA估计结果进行比较,并且追踪模块260可以响应于声源的DOA估计结果的变化来确定声源发生了移动。在一些实施例中,追踪模块260可以基于从头戴式设备或某种其它外部源接收到的视觉信息来检测位置的改变。追踪模块260可以追踪一个或多个声源随时间的移动。追踪模块260可以存储声源的数量值以及每个声源在每个时间点的位置。追踪模块260可以响应于声源的数量值或位置的变化来确定声源发生了移动。追踪模块260可以计算定位方差(localization variance)的估计结果。定位方差可以用作每次确定移动变化的置信水平。
[0055] 波束成形模块270被配置为对一个或多个ATF进行处理,以选择性地突出来自某个区域内的声源的声音,同时削弱来自其它区域的声音。在对传感器阵列220检测到的声音进行分析时,波束成形模块270可以组合来自不同声学传感器的信息,以突出与局部区域的特定区相关联的声音,同时削弱来自该区之外的声音。波束成形模块270例如可以基于来自DOA估计模块240和追踪模块260的不同DOA估计结果,将与来自局部区域中特定声源的声音相关联的音频信号和与来自局部区域中的其它声源的声音相关联的音频信号隔离开。因此,波束成形模块270可以对局部区域中的离散声源进行选择性地分析。在一些实施例中,波束成形模块270可以增强来自声源的信号。例如,波束成形模块270可以应用声音滤波器,该声音滤波器消除如下信号:高于某些频率的信号、低于某些频率的信号或位于某些频率之间的信号。信号增强用于相对于以下声音来增强与给定的所识别的声源相关联的声音:传感器阵列220检测到的其它声音。
[0056] 声音滤波器模块280确定转换器阵列210的声音滤波器。在一些实施例中,声音滤波器使音频内容被空间化,使得音频内容看起来像是源自于目标区域的。声音滤波器模块280可以使用HRTF和/或声学参数来生成声音滤波器。声学参数描述局部区域的声学特性。
声学参数可以包括例如混响时间、混响水平、房间脉冲响应等。在一些实施例中,声音滤波器模块280计算这些声学参数中的一个或多个声学参数。在一些实施例中,声音滤波器模块
280从地图构建服务器(例如,如以下关于图7所描述的)请求声学参数。
[0057] 声音滤波器模块280向转换器阵列210提供声音滤波器。在一些实施例中,声音滤波器可以使得声音根据频率正向放大或负向放大。
[0058] 另外,音频系统200包括个性化模块290,该个性化模块290确定与音频系统200周围的一局部区域相对应的位置,并从数据存储库235中确定所确定的位置的位置配置。在各种实施例中,个性化模块290从一个或多个部件接收描述了音频系统200周围的该局部区域的数据。提供该局部区域的特征的示例部件包括位置传感器190、传感器阵列220、成像设备130以及接收来自用户的输入的一个或多个输入设备。特征还包括指定了何时接收到特征的时间戳。个性化模块290基于所接收到的数据,根据将局部区域的特征组合与位置相关联的数据存储库235中的数据确定与该局部区域相对应的位置,如以下结合图3进一步描述的。
[0059] 如以下结合图3进一步描述的,个性化模块290还确定与从数据存储库235获取的描述了局部区域的数据相关联的位置配置。该位置配置包括在向用户呈现音频时由音频系统200应用于该音频的一个或多个声学参数。在各种实施例中,将来自位置配置的声学参数提供给声音滤波器模块280或提供给波束成形模块270,该声音滤波器模块280或波束成形模块270基于来自所确定的位置配置的一个或多个声学参数对音频应用一个或多个处理。在各种实施例中,声音滤波器模块280或波束成形模块270应用基于来自所确定的位置配置的一个或多个声学参数和来自数据存储库235的用户的一个或多个偏好的处理,从而允许所呈现的音频考虑用户偏好和来自位置配置的声学参数这两者。
[0060] 图3是根据一个或多个实施例的用于基于音频系统200的位置修改针对用户的音频内容呈现的方法的流程图。图3中所示出的过程可以由音频系统(例如,音频系统200)的各部件来执行。在其它实施例中,其它实体可以执行图3中的一些步骤或全部步骤。各实施例可以包括不同的步骤和/或附加的步骤,或者以不同的顺序执行各步骤。
[0061] 音频系统200(例如,以上结合图2进一步描述的音频系统)获取305描述了音频系统200周围的局部区域的数据。在各种实施例中,音频系统200可以包括在头戴式设备100中或包括在另一种类型的可穿戴设备或便携式设备中。在各种实施例中,音频系统200接收来自位置传感器190的数据。在一些实施例中,位置传感器190包括在音频系统200中,而在其它实施例中,位置传感器190包括在还包括音频系统200的设备中。例如,头戴式设备100包括位置传感器190和音频系统200。如以上结合图1A和图1B以及以下结合图7进一步描述的,位置传感器响应于音频系统200(或包括音频系统200的设备)的运动而产生一个或多个测量信号。在一些实施例中,位置传感器190使得能够对音频系统200的位置进行同步定位与地图构建(SLAM)并更新音频系统200周围的局部区域的模型。
[0062] 如以上结合图1A进一步描述的,音频控制器230接收来自位置传感器190、声学传感器180的数据,以确定头戴式设备100的位置。在一些实施例中,音频控制器还可以使用与头戴式设备100的用户交互来确定头戴式设备100的位置。在其它实施例中,音频控制器还可以接收来自一个或多个成像设备130的图像数据或视频数据。音频控制器230可以从一个或多个成像设备130(例如,红、绿、蓝(RGB)摄像头)获取局部区域的至少一部分的图像或视频。根据所采集到的图像和来自位置传感器的测量结果,音频控制器230可以确定局部区域的参数或确定音频系统200在局部区域中的定位(例如,位置和姿态)。
[0063] 在各种实施例中,音频系统200获取305来自一个或多个其它设备的描述了局部区域的信息。例如,传感器阵列220从局部区域中的一个或多个源采集音频。在一些实施例中,传感器阵列220包括从局部区域采集音频数据的一个或多个传声器,其中所采集到的音频数据包括局部区域的特征。从局部区域采集音频允许音频系统200获取描述该局部区域的附加信息。例如,采集音频允许音频系统200识别局部区域中的音频的特征,这些特征例如为局部区域中的音频的频率、局部区域中的音频的幅度(或音量)。在一些实施例中,传感器阵列220与音频系统200分开,其中音频系统200接收从传感器阵列220采集到的音频。另外,音频系统200从用户接收到的一个或多个输入可以是局部区域的特征。例如,以下输入是局部区域的特征:所接收到的指定要呈现的音频的类型、呈现音频的音量、呈现音频的持续时间的输入;或由音频系统200接收到的包括关于音频呈现的信息的其它输入。
[0064] 另外,描述了局部区域的数据包括时间戳或其它时间信息,该时间戳或其它时间信息指定数据被获取或被采集到的时间。在各种实施例中,时间戳指定了音频系统200获取305信息的时间,而在其它实施例中,时间戳指定了位置传感器190或其它设备采集信息的时间。例如,时间戳或时间信息指定了位置传感器190采集数据的日期和时间。在一些实施例中,位置传感器190包括时钟电路或其它定时电路,该时钟电路或其它定时电路用于确定与描述了局部区域的数据相关联的时间戳或其它定时信息。在其它实施例中,音频系统200的音频控制器230包括时钟电路或定时电路,该时钟电路或定时电路在音频系统200接收到数据时生成时间戳,从而使得描述了局部区域的数据被接收到的时间成为局部区域的另一特征。将时间戳或其它时间信息与描述了局部区域的数据相关联允许将描述了局部区域的数据与时间相关联,以标识具有不同时间的不同信息。
[0065] 根据所获取的描述了局部区域的信息,音频系统200确定310音频系统200的位置。在各种实施例中,音频系统200的“位置”是表示物理位置和描述该物理位置的附加上下文的语义位置。所获取的描述了局部区域的信息提供关于该局部区域的上下文,关于该局部区域的上下文允许音频系统200确定与该局部区域相对应的位置,其中局部区域的位置标识了该局部区域的类型。例如,描述了局部区域的信息组合对应于“健身房”位置,而描述了局部区域的不同信息组合对应于“车辆”位置。在另一示例中,描述了局部区域的附加信息组合对应于“住宅”位置。描述了位置的信息包括从局部区域采集到的音频的特征、音频系统200已经(或可能)位于局部区域的一天中的时间、与局部区域类型相对应的图像数据或视频数据、用户与音频系统200的交互、由音频系统200呈现的音频内容的特征、或描述局部区域的特征(包括用户交互)的其它信息。不同的信息组合可以与不同的位置(例如,局部区域的类型)相关联。在一些实施例中,音频系统200的用户指定位置与局部区域的特征组合之间的关联,从而允许用户对如何定义不同的位置进行个性化。
[0066] 附加地或替代地,音频系统200确定位置与局部区域的特征组合之间的关联。例如,音频系统200的音频控制器230将一个或多个经训练的分类模型应用于描述了局部区域的各种数据组合,其中经训练的分类模型输出与局部区域的特征组合相关联的位置。音频控制器230将由分类模型输出的位置与先前输入到分类模型的特征组合相关联地存储。
[0067] 在各种实施例中,音频系统200通过将分类模型应用于经标记的训练样本来训练分类模型。例如,每个训练样本包括局部区域的特征组合,其中应用于每个训练样本的标签标识一位置。音频系统200(例如,音频控制器230)将分类模型应用于一组训练样本中的每个训练样本。音频系统200将分类模型应用于训练样本时的输出与应用于该训练样本的标签进行比较。音频系统200使用损失函数对从分类模型输出的位置进行评分,该损失函数基于所输出的位置与应用于训练样本的标签的比较来为分类模型的输出生成分数。示例损失函数包括均方误差函数、平均绝对误差、合页损失函数和交叉熵损失函数。例如,音频系统200应用梯度下降来更新一组参数。音频系统200使用反向传播基于由损失函数生成的分数来更新用于分类模型的一组参数。在一些实施例中,音频系统200将分类模型应用于训练样本并更新分类模型的参数,直到音频系统200用来更新分类模型的参数的损失函数满足一个或多个条件。
[0068] 在一些实施例中,音频系统200维护将位置与描述了局部区域的信息组合相关联的数据库。图4显示了将位置与描述了局部区域的信息组合相关联的示例数据库400。数据库400包括不同的条目405A、405B(也使用附图标记405单独和共同指代)。每个条目405包括位置410A、410B(也使用附图标记410单独和共同指代)和特征组合415A、415B(也使用附图标记415单独和共同指代)。在图4的示例中,具有与特征组合415A中至少阈值数量的特征相匹配的特征的局部区域对应于位置410A,而具有与特征组合415B中至少阈值数量的特征相匹配的特征的局部区域对应于位置410B。在各种实施例中,特征组合415为以下中的一者或多者:时间范围;从局部区域采集的音频的特征;由音频系统接收到的输入;局部区域的图像;局部区域的视频;或描述了局部区域的其它数据。在各种实施例中,数据库400与用户相关联地存储,从而允许针对不同的用户维护不同的数据库400,因此不同的特征组合415可以标识不同用户的位置410。在各种实施例中,数据库400可以本地存储在音频系统200的非暂态计算机可读存储介质中,而在其它实施例中,数据库400存储在音频系统200经由网络或其它连接访问的不同设备中。例如,如以下结合图7进一步描述的,数据库400存储在地图构建服务器725中,并且由音频系统200通过网络720访问。
[0069] 再次参照图3,音频系统200将所获取的数据与所存储的位置与特征组合之间的关联进行比较,以确定310音频系统200的位置。例如,音频系统200确定所获取的信息的特征,并将所获取的信息的特征与所存储的与位置相关联的特征组合进行比较。音频系统200将音频系统200的位置确定310为与以下特征组合相关联的位置:所述特征组合与所获取的描述了局部区域的数据的最大量(例如,最大数量、最大百分比)的特征相匹配。
[0070] 在其它实施例中,音频系统200确定所获取的数据和与所存储的特征组合相关联的位置之间的相似度度量。音频系统200将音频系统200的位置确定310为与所获取的数据具有最大相似度度量的位置。例如,音频系统200为所获取的数据生成嵌入,并基于与位置相关联的特征组合为每个位置生成嵌入。嵌入是表示所获取的数据或潜在空间中的特征组合的多维向量。在各种实施例中,音频系统200将经训练的模型应用于特征组合,其中该模型的输出包括与特征组合相对应的嵌入。在各种实施例中,音频系统200将嵌入和与特征组合相关联的位置相关联地存储。在各种实施例中,对应于所获取的数据的嵌入与对应于位置的嵌入之间的示例相似度度量包括余弦相似度或点积,但是可以使用其它相似度度量。
[0071] 音频系统200确定315所确定的位置的位置配置。该位置配置包括与该位置相关联的一个或多个声学参数。在各种实施例中,音频系统200将位置配置与一个或多个位置中的每个位置一起存储,并检索所存储的与所确定的位置相关联的位置配置。图5显示了将位置配置与位置相关联的示例数据库500。图5所示的数据库500包括条目505A、505B(也使用附图标记505单独和共同指代),每个条目包括位置510A、510B(也使用附图标记510单独和共同指代)和位置配置515A、515B(也使用附图标记515单独和共同指代)。在各种实施例中,音频系统200存储唯一地标识每个位置的位置标识符,并且数据库500的条目505包括位置标识符和位置配置515。与位置510相关联的位置配置515包括描述了向用户呈现音频内容的一个或多个声学参数。示例声学参数包括噪声抑制参数、波束成形参数、要呈现的音频的类型、音频呈现的音量、空间化音频的房间脉冲响应、或者指定了要呈现的音频或用户对所呈现的音频的感知的其它参数。包括在位置配置515中的声学参数可以由音频系统200从用户接收并与该用户相关联地存储。用户可以通过设备(例如,头戴式设备100)提供的界面来提供指定了位置配置515的声学参数的输入。在一些实施例中,音频系统200向用户提供各种声学参数的默认值,并且从用户接收到的输入对这些默认值进行调整。在各种实施例中,数据库500与用户的标识符相关联地存储,从而允许音频系统200为不同的用户维护数据库500,从而允许不同用户为位置510指定个性化的位置配置515。尽管图4和图5显示了用于将位置与描述了局部区域的信息组合相关联、以及用于将位置配置515与位置510相关联的不同数据库,但是在其它实施例中,单个数据库与一个用户相关联,并且包括具有位置、描述了与该位置相对应的局部区域的信息组合、以及该位置的位置配置的多个条目。
[0072] 在各种实施例中,位置510的位置配置515包括用户对音频的一个或多个偏好。例如,位置配置515包括音频内容的音量、音频内容的类型或对音频内容的其它用户特定的修改。在一些实施例中,位置配置515包括用户的头部相关传递函数作为该用户的偏好,从而允许位置配置515考虑向其呈现音频的特定用户。在其它实施例中,用户的头部相关传递函数与该用户相关联地存储在数据存储库235中,并且与所确定的针对音频系统200周围的局部区域确定的位置的位置配置515一起被检索。
[0073] 再次参照图3,音频系统200通过识别所存储的与匹配所确定的位置的位置相关联的位置配置,来确定315所获取的信息的位置配置。如以上结合图5进一步描述的,位置配置包括用于在音频系统200处于所确定的位置时向用户呈现的音频内容的一个或多个声学参数。这允许向用户呈现的音频在音频系统200位于所确定的位置时根据由该一个或多个声学参数指定的用户偏好来呈现,从而使音频系统200能够基于所获取的描述了音频系统200周围的局部区域的数据来自动地修改如何向用户呈现音频内容。
[0074] 在一些实施例中,位置配置中的一个或多个声学参数描述了由音频系统200应用的噪声消除。例如,声学参数指定了音频系统200所呈现的音频中被抑制或被消除的一个或多个音频频率(例如,频率范围)。作为另一示例,声学参数指定了具有特定频率范围的音频被抑制的量,从而允许该声学参数指定特定音频的衰减量。在一些实施例中,不同的声学参数指定不同的频率范围并具有对应的衰减量,从而允许不同的频率被衰减不同的量。这样的声学参数允许位置配置标识当音频系统200处于一位置时音频频率如何衰减。因此,位置配置包括用户对于音频系统200在位于与位置配置相关联的位置时如何呈现音频的偏好。在一些实施例中,位置配置包括用户的头部相关传递函数,以在向用户呈现音频时考虑用户的物理特性。
[0075] 作为另一示例,位置配置中的一个或多个声学参数标识了要突出的一个或多个频率范围,因此音频系统200增加所标识的频率范围内的音频频率的幅度。替代地,音频系统200降低除了所标识的频率范围之外的范围中的音频频率的幅度。在一些实施例中,不同的幅度与不同的频率范围相关联,从而允许不同的突出水平应用于不同的频率范围。在一些实施例中,一个或多个声学参数标识音频源或音频源的特征,使得音频系统200在该音频系统200处于该位置时,突出所标识的来自局部区域中的源的音频或来自局部区域中具有相对于来自局部区域中不同源的音频的所标识的特征的源的音频。例如,音频参数标识局部区域的一个或多个区,并且音频系统200相对于来自该局部区域的其它区的音频来突出来自该局部区域的所标识区的音频。这样的音频参数允许用户定制用户如何感知局部区域内的音频,从而允许音频看起来像是呈现在具有由位置配置描述的音频传输特征的位置内。
包括在位置配置中的其它示例声学参数包括频率响应、音频的一个或多个部分的增益量、音频的压缩比、音频的时间常数或影响向用户呈现音频的其它值。
[0076] 在其它示例中,一个或多个声学参数指定了当音频系统200位于该位置时呈现给用户的音频的特征。例如,声学参数指定了呈现给用户的音频的来源。作为一示例,声学参数指定了呈现给用户的音频是来自由音频系统200的传感器阵列220采集的局部区域的音频。在另一示例中,声学参数指定了呈现给用户的音频是从耦接到音频系统200的存储设备或其它设备获得的。在声学参数指定呈现给用户的音频是从存储设备或其它设备获得的实施例中,一个或多个附加声学参数标识待检索并呈现给用户的音频的特征。待检索的音频的示例特征包括音频流派、音频类型、与音频相关联的艺术家、特定音频文件或播放列表、或能够标识特定音频以供呈现的其它信息。一个或多个声学参数可以指定由音频系统200向用户呈现音频的音量、向用户呈现的音频的播放速度或者指定了音频系统200如何呈现音频的其它特征。
[0077] 基于所确定的位置配置,音频系统200基于包括在所确定的位置配置中的一个或多个声学参数来修改320音频内容以供音频系统200呈现,并向用户呈现325修改后的音频。例如,音频系统200基于位置配置中的一个或多个声学参数修改320音频,并通过音频系统
200中包括的转换器阵列210中的一个或多个转换器向用户呈现325修改后的音频。作为一示例,音频系统200的音频控制器230应用一个或多个噪声消除过程以通过移除该音频的具有由包括在位置配置中的一个或多个声学参数指定的特征的部分来修改320音频;音频系统200随后经由转换器阵列210向用户呈现325不具有被移除的部分的音频。作为另一示例,音频系统200的音频控制器230对一个或多个ATF进行处理,以选择性地突出来自局部区域内的音频源的音频,同时基于包括在位置配置中的一个或多个声学参数来削弱其它音频。
在应用一个或多个ATF之后,音频系统200例如经由转换器阵列210的一个或多个转换器来呈现325修改后的音频。在另一示例中,音频系统200基于位置配置的一个或多个音频参数来检索音频,并且例如通过转换器阵列210向用户呈现325所检索到的音频。替代地,音频系统200的传感器阵列220从局部区域采集音频,并且音频控制器230基于位置配置的一个或多个音频参数来修改320所采集到的音频。音频系统200例如经由转换器阵列210呈现325修改后的从局部区域采集的音频,从而允许音频系统200基于位置参数来修改从局部区域采集到的音频。
[0078] 在各种实施例中,音频系统200连续地获取305描述了音频系统200周围的局部区域的数据,并确定310音频系统200的位置。这允许音频系统200基于所获取的描述了其周围的局部区域的数据来动态地确定310该音频系统的位置。响应于所获取的数据的变化,音频系统200基于所变化的数据来确定310不同的位置,并且确定315与该不同的位置相对应的不同的位置配置。这允许音频系统200通过响应于描述了音频系统200周围的局部区域的数据的变化而自动地更新位置配置,来自动更新如何修改音频。这种音频修改的自动调整允许音频系统200在音频系统200周围的局部区域变化时不需要用户手动选择或提供用于音频呈现的声学参数,而在不同位置以不同方式向用户呈现音频。
[0079] 图6是用于基于用户的位置来修改针对用户的音频内容呈现的方法的过程流程图。如图6所示,音频系统200包括个性化模块290,该个性化模块290接收包括音频系统200的局部区域的特征600。局部区域的特征600是从一个或多个部件或一个或多个设备中获取的。从其中获取局部区域的特征600的示例部件包括以下中的一者或多者:生成描述了音频系统200的运动或位置的位置传感器190、从局部区域采集音频的传感器阵列220、采集局部区域的视频或图像的成像设备130、接收来自用户的输入的一个或多个设备、或其它部件。在各种实施例中,局部区域的特征600是从不同部件或部件的不同组合中接收的。
[0080] 音频系统200的个性化模块290基于所获取的局部区域的特征600,确定音频系统200的位置605。如以上结合图3进一步描述的,个性化模块290将所获取的局部区域的特征
600与所存储的与位置相关联的特征或特征组合进行比较。在各种实施例中,如以上结合图
3进一步描述的,数据存储库235维护位置与特征组合之间的关联,并且个性化模块290基于所获取的特征600与所存储的与位置相关联的特征组合的比较来选择位置605。
[0081] 个性化模块290根据基于所获取的特征600确定的位置605,确定位置605的位置配置610。在各种实施例中,数据存储库235维护位置配置与不同位置之间的关联,因此个性化模块290检索与所确定的位置605相关联的位置配置610。如上进一步所述,每个位置配置610包括呈现音频时由音频系统200应用的一个或多个声学参数,从而允许基于位置配置
610中的声学参数来修改音频。包括在位置配置中的示例声学参数包括噪声消除参数、波束成形参数、频率响应、音频的增益量、音频的压缩比、音频的时间常数。在各种实施例中,位置的位置配置包括由用户指定的一个或多个偏好,从而允许位置配置考虑局部区域的特征和用户指定的数据或偏好这两者。
[0082] 个性化模块290将来自位置配置610的声学参数615提供给波束成形模块270和声音滤波器模块280中的一者或两者,该波束成形模块270和声音滤波器模块280基于声学参数615来更新应用于音频的一个或多个过程。尽管图6显示了个性化模块290将声学参数615提供给波束成形模块270或提供给声音滤波器模块280,但是在其它实施例中,声学参数615被提供给能够修改音频的不同的部件或附加的部件。随后,当音频系统200向用户呈现音频620时,波束成形模块270或声音滤波器模块280(或一个或多个其它部件)基于来自位置配置610的声学参数615来修改音频620,并且经由转换器阵列210或其它设备向用户呈现由波束成形模块270或声音滤波器模块280(或由一个或多个其它部件)输出的修改后的音频
625。例如,音频620是由传感器阵列220采集的音频,因此来自位置配置610的声学参数615用于修改从局部区域采集的音频。作为另一示例,音频620是从数据存储库235或从另一源接收的,并且音频系统200在音频620被呈现给用户之前基于来自位置配置610的声学参数
615来修改音频620。
[0083] 图7是根据一个或多个实施例的包括头戴式设备705的系统700。在一些实施例中,头戴式设备705可以是图1A中的头戴式设备100或图1B中的头戴式设备105。系统700可以在人工现实环境(例如,虚拟现实环境、增强现实环境、混合现实环境或它们的某种组合)中运行。图7所示的系统700包括头戴式设备705、耦接到控制台715的输入/输出(input/output,I/O)接口710、网络720以及地图构建服务器725。尽管图7显示了包括一个头戴式设备705和一个I/O接口710的示例系统700,但是在其它实施例中,系统700中可以包括任意数量的这些部件。例如,可以具有多个头戴式设备,该多个头戴式设备各自具有相关联的I/O接口710,其中每个头戴式设备和I/O接口710与控制台715通信。在替代配置中,系统700中可以包括不同的部件和/或附加的部件。另外,在一些实施例中,结合图7中所示的多个部件中的一个或多个部件而描述的功能可以以与结合图7描述的方式不同的方式分布在各部件之中。例如,控制台715的一些或全部功能可以由头戴式设备705来提供。
[0084] 头戴式设备705包括显示组件730、光学块735、一个或多个位置传感器740以及DCA 745。头戴式设备705的一些实施例具有与结合图7而描述的部件不同的部件。另外,在其它实施例中,由结合图7而描述的各种部件所提供的功能可以不同地分布在头戴式设备705的各部件之中,或者在远离头戴式设备705的单独组件中体现。
[0085] 显示组件730根据从控制台715接收到的数据向用户显示内容。显示组件730使用一个或多个显示元件(例如,显示元件120)来显示内容。显示元件例如可以是电子显示器。在各个实施例中,显示组件730包括单个显示元件或多个显示元件(例如,用户的每只眼睛一个显示器)。电子显示器的示例包括:液晶显示器(liquid crystal display,LCD)、有机发光二极管(organic light emitting diode,OLED)显示器、有源矩阵有机发光二极管显示器(active‑matrix organic light‑emitting diode display,AMOLED)、波导显示器、某种其它显示器、或它们的某种组合。注意,在一些实施例中,显示元件120还可以包括光学块
735的一些或全部功能。
[0086] 光学块735可以放大从电子显示器接收到的图像光、校正与该图像光相关联的光学误差、并向头戴式设备705的一个或两个适眼区呈现经校正的图像光。在各个实施例中,光学块735包括一个或多个光学元件。包括在光学块735中的示例光学元件包括:光圈、菲涅耳透镜、凸透镜、凹透镜、滤光器、反射表面或影响图像光的任何其它合适的光学元件。此外,光学块735可以包括不同光学元件的组合。在一些实施例中,光学块735中的一个或多个光学元件可以具有一个或多个涂层,例如部分反射涂层或抗反射涂层。
[0087] 通过光学块735对图像光的放大和聚焦允许电子显示器与更大的显示器相比,在物理上更小、重量更轻并且消耗更少的功率。另外,放大可以增大电子显示器所呈现的内容的视场。例如,所显示的内容的视场使得所显示的内容是使用几乎全部的用户视场(例如,约110度对角线)来呈现的,并且在一些情况下,所显示的内容是使用全部的用户视场来呈现的。另外,在一些实施例中,可以通过添加或移除光学元件来调整放大量。
[0088] 在一些实施例中,光学块735可以被设计为校正一种或多种类型的光学误差。光学误差的示例包括桶形失真或枕形失真、纵向色差或横向色差。其它类型的光学误差还可以包括:球面像差,色差,或由于透镜场曲、像散所引起的误差,或任何其它类型的光学误差。在一些实施例中,提供给电子显示器用于显示的内容是预失真的,并且光学块735在其接收到来自电子显示器的图像光(该图像光是基于该内容而生成的)时,校正该失真。
[0089] 位置传感器740是生成指示头戴式设备705的位置的数据的电子设备。位置传感器740响应于头戴式设备705的运动而生成一个或多个测量信号。位置传感器190是位置传感器740的实施例。位置传感器740的示例包括:一个或多个IMU、一个或多个加速度计、一个或多个陀螺仪、一个或多个磁力计、检测运动的另一合适类型的传感器、或它们的某种组合。
位置传感器740可以包括用于测量平移运动(向前/向后、向上/向下、向左/向右)的多个加速度计和用于测量转动运动(例如,俯仰、左右摇摆、侧倾)的多个陀螺仪。在一些实施例中,IMU对测量信号进行快速采样,并且根据所采样的数据计算头戴式设备705的估计位置。例如,IMU随时间对从加速度计接收到的测量信号进行整合来估计速度矢量,并且随时间对速度矢量进行整合来确定头戴式设备705上的参考点的估计位置。参考点是可以用于描述头戴式设备705的位置的点。尽管参考点通常可以被定义为空间中的点,然而,该参考点实际上被定义为头戴式设备705内的点。
[0090] DCA 745生成局部区域的一部分的深度信息。DCA包括一个或多个成像设备以及DCA控制器。DCA 745还可以包括照明器。以上关于图1A对DCA 745的操作和结构进行了描述。
[0091] 音频系统750向头戴式设备705的用户提供音频内容。音频系统750大体上与上述音频系统200相同。音频系统750可以包括一个或多个声学传感器、一个或多个转换器和音频控制器。音频系统750可以向用户提供空间化的音频内容。在一些实施例中,音频系统750可以通过网络720请求来自地图构建服务器725的声学参数。声学参数描述了局部区域的一个或多个声学特性(例如,房间脉冲响应、混响时间、混响水平等)。音频系统750可以提供:例如来自DCA 745的、描述了局部区域的至少一部分的信息;和/或来自位置传感器740的、头戴式设备705的位置信息。音频系统750可以使用从地图构建服务器725接收到的一个或多个声学参数来生成一个或多个声音滤波器,并且使用所述声音滤波器来向用户提供音频内容。
[0092] I/O接口710是允许用户向控制台715发送动作请求并从控制台715接收响应的设备。动作请求是执行特定动作的请求。例如,动作请求可以是开始或结束采集图像数据或视频数据的指令,或者是在应用内执行特定动作的指令。I/O接口710可以包括一个或多个输入设备。示例输入设备包括:键盘、鼠标、游戏控制器或用于接收动作请求并向控制台715传输动作请求的任何其它合适的设备。由I/O接口710接收到的动作请求被传输到控制台715,该控制台715执行与该动作请求相对应的动作。在一些实施例中,I/O接口710包括采集校准数据的IMU,该校准数据指示I/O接口710相对于I/O接口710的初始位置的估计位置。在一些实施例中,I/O接口710可以根据从控制台715接收到的指令来向用户提供触觉反馈。例如,当接收到动作请求时提供触觉反馈,或者控制台715在该控制台715执行动作时向I/O接口710传输指令,从而使得I/O接口710生成触觉反馈。
[0093] 控制台715根据从以下中的一者或多者接收到的信息来向头戴式设备705提供内容以供处理:DCA 745、头戴式设备705和I/O接口710。在图7所示的示例中,控制台715包括应用存储库755、追踪模块760和引擎765。控制台715的一些实施例具有与结合图7而描述的模块或部件不同的模块或部件。类似地,以下进一步描述的功能可以以与结合图7而描述的方式不同的方式分布在控制台715的各部件之中。在一些实施例中,本文所论述的关于控制台715的功能可以在头戴式设备705或远程系统中实现。
[0094] 应用存储库755存储一个或多个应用以供控制台715执行。应用是一组指令,所述指令在被处理器执行时生成用于呈现给用户的内容。由应用生成的内容可以对经由头戴式设备705或I/O接口710的移动而从用户接收到的输入进行响应。应用的示例包括:游戏应用、会议应用、视频播放应用或其它合适的应用。
[0095] 追踪模块760使用来自DCA 745、一个或多个位置传感器740或它们的某种组合的信息,来追踪头戴式设备705或I/O接口710的移动。例如,追踪模块760基于来自头戴式设备705的信息,确定头戴式设备705的参考点在局部区域的绘图中的位置。追踪模块760还可以确定对象或虚拟对象的位置。另外,在一些实施例中,追踪模块760可以使用来自位置传感器740的指示头戴式设备705的位置的数据的一部分以及来自DCA 745的局部区域的表示,来预测头戴式设备705的未来位置。追踪模块760向引擎765提供头戴式设备705或I/O接口
710的估计的或预测的未来位置。
[0096] 引擎765执行应用,并且接收来自追踪模块760的头戴式设备705的位置信息、加速度信息、速度信息、预测的未来位置或它们的某种组合。引擎765基于接收到的信息,来确定待向头戴式设备705提供的用于呈现给用户的内容。例如,如果接收到的信息指示用户已经看向左边,则引擎765为头戴式设备705生成以下内容:该内容反映了用户在虚拟局部区域或局部区域(利用附加内容增强了该局部区域)中的移动。另外,引擎765响应于从I/O接口710接收到的动作请求,在控制台715上所执行的应用内执行动作,并向用户提供该动作已被执行的反馈。已提供的反馈可以是经由头戴式设备705的视觉反馈或听觉反馈,或者是经由I/O接口710的触觉反馈。
[0097] 网络720将头戴式设备705和/或控制台715耦接到地图构建服务器725。网络720可以包括使用无线通信系统和/或有线通信系统这两者的局域网和/或广域网的任意组合。例如,网络720可以包括互联网以及移动电话网。在一个实施例中,网络720使用标准通信技术和/或标准通信协议。因此,网络720可以包括使用如下技术的链路:所述技术例如以太网、802.11、全球微波接入互操作(worldwide interoperability for microwave access,WiMAX)、2G/3G/4G移动通信协议、数字用户线路(digital subscriber line,DSL)、异步传输模式(asynchronous transfer mode,ATM)、无限带宽(InfiniBand)、高速外设组件互连高级交换(PCI Express Advanced Switching)等。类似地,在网络720上使用的网络协议可以包括多协议标签交换(multiprotocol label switching,MPLS)、传输控制协议/网际协议(transmission control protocol/Internet protocol,TCP/IP)、用户数据报协议(User Datagram Protocol,UDP)、超文本传输协议(hypertext transport protocol,HTTP)、简单邮件传输协议(simple mail transfer protocol,SMTP)、文件传输协议(file transfer protocol,FTP)等。通过网络720交换的数据可以使用以下技术和/或格式来表示:该技术和/或格式包括二进制形式的图像数据(例如可移植网络图形(Portable Network Graphics,PNG))、超文本标记语言(hypertext markup language,HTML)、可扩展标记语言(extensible markup language,XML)等。另外,可以使用常规加密技术对全部或一些链路进行加密,这些常规加密技术例如为安全套接层(secure sockets layer,SSL)、传输层安全协议(transport layer security,TLS)、虚拟专用网络(virtual private network,VPN)、互联网安全协议(Internet Protocol security,IPsec)等。
[0098] 地图构建服务器725可以包括存储有描述了多个空间的虚拟模型的数据库,其中,该虚拟模型中的一个位置与头戴式设备705的局部区域的当前配置相对应。地图构建服务器725经由网络720从头戴式设备705接收描述了局部区域的至少一部分的信息和/或局部区域的位置信息。用户可以调整隐私设置以允许或防止头戴式设备705将信息发送到地图构建服务器725。地图构建服务器725基于接收到的信息和/或位置信息,确定该虚拟模型中与头戴式设备705的局部区域相关联的位置。地图构建服务器725部分地基于所确定的在该虚拟模型中的位置以及与所确定的位置相关联的任何声学参数,确定(例如,检索)与局部区域相关联的一个或多个声学参数。地图构建服务器725可以向头戴式设备705发送局部区域的位置以及与局部区域相关联的任何声学参数值。
[0099] 系统700中的一个或多个部件可以包含存储用户数据元素的一个或多个隐私设置的隐私模块。用户数据元素对用户或头戴式设备705进行了描述。例如,用户数据元素可以描述用户的物理特征、由用户执行的动作、头戴式设备705的用户的位置、头戴式设备705的位置、用户的HRTF等。可以以任何合适的方式存储用户数据元素的隐私设置(或“访问设置”),例如,将用户数据元素的隐私设置(或“访问设置”)与用户数据元素相关联地存储、存储在授权服务器上的索引中、以另一合适的方式存储或它们的任意合适的组合。
[0100] 用户数据元素的隐私设置指定可以如何访问、存储或以其它方式使用(例如,查看、共享、修改、复制、执行、显现或识别)用户数据元素(或与用户数据元素相关联的特定信息)。在一些实施例中,用户数据元素的隐私设置可以指定可能无法访问与用户数据元素相关联的某些信息的实体的“黑名单”。与用户数据元素相关联的隐私设置可以指定许可访问或拒绝访问的任何合适的粒度。例如,一些实体可以具有查看特定用户数据元素存在的权限,一些实体可以具有查看特定用户数据元素的内容的权限,并且一些实体可以具有修改特定用户数据元素的权限。隐私设置可以允许用户允许其它实体在有限的时间段内访问或存储用户数据元素。
[0101] 隐私设置可以允许用户指定可访问用户数据元素的一个或多个地理位置。对用户数据元素的访问或拒绝访问可以取决于试图访问用户数据元素的实体的地理位置。例如,用户可以允许访问用户数据元素,并且指定仅在用户处于特定位置时用户数据元素对于实体而言是可访问的。如果用户离开该特定位置,则用户数据元素对于该实体而言可能不再是可访问的。作为另一示例,用户可以指定用户数据元素仅对于距用户阈值距离内的实体(例如与该用户相同的局部区域内的头戴式设备的另一用户)而言是可访问的。如果用户随后改变位置,则具有对该用户数据元素的访问权的实体可能失去访问权,而一组新实体在它们来到用户的阈值距离内时可以获得访问权。
[0102] 系统700可以包括用于实施隐私设置的一个或多个授权/隐私服务器。来自实体的、针对特定用户数据元素的请求可以识别与该请求相关联的实体,并且如果授权服务器基于与该用户数据元素相关联的隐私设置确定该实体被授权访问该用户数据元素,则可以仅向该实体发送该用户数据元素。如果请求实体未被授权访问该用户数据元素,则授权服务器可以防止所请求的用户数据元素被检索或者可以防止所请求的用户数据元素被发送到该实体。尽管本公开描述了以特定方式实施隐私设置,但是本公开考虑了以任何合适的方式实施隐私设置。
[0103] 附加配置信息
[0104] 已经出于说明的目的呈现了实施例的以上描述;这并不旨在是详尽的或者将专利权限制为所公开的精确形式。相关领域的技术人员可以理解的是,考虑到以上公开内容,许多修改和变型是可能的。
[0105] 本描述的一些部分在对信息进行操作的算法和符号表示方面描述了实施例。这些算法描述和表示通常被数据处理领域的技术人员用来向本领域的其它技术人员有效地传达其工作的实质内容。尽管在功能上、计算上或逻辑上对这些操作进行了描述,但这些操作被理解为由计算机程序或等效电路或微代码等实现。此外,在不失一般性的情况下,有时将这些操作的布置称为模块也被证明是方便的。所描述的操作和它们的相关联的模块可以被实施在软件、固件、硬件或它们的任意组合中。
[0106] 本文所描述的任何步骤、操作或过程可以使用一个或多个硬件或软件模块单独地或者与其它设备组合地执行或实现。在一个实施例中,使用包括计算机可读介质的计算机程序产品来实现软件模块,该计算机可读介质包含计算机程序代码,该计算机程序代码可以由计算机处理器执行,以执行所描述的步骤、操作或过程中的任何或全部步骤、操作或过程。
[0107] 各实施例还可以涉及一种用于执行本文中的操作的装置。该装置可以为所需目的而专门构造,和/或该装置可以包括通用计算设备,该通用计算设备由存储在计算机中的计算机程序选择性地激活或重新配置。这样的计算机程序可以存储在可耦接到计算机系统总线的非暂态有形计算机可读存储介质中、或适合于存储电子指令的任何类型的介质中。此外,在本说明书中提及的任何计算系统可以包括单个处理器,或者可以是采用多处理器设计以增加计算能力的架构。
[0108] 各实施例还可以涉及一种由本文所描述的计算过程产生的产品。此类产品可以包括从计算过程得到的信息,其中该信息被存储在非暂态有形计算机可读存储介质上并且可以包括本文所描述的计算机程序产品或其它数据组合的任何实施例。
[0109] 最后,本说明书中所使用的语言主要是出于可读性和指导目的而选择的,并且该语言可能不是为了划定或限制专利权而选择的。因此,旨在专利权的范围不受本具体实施方式的限制,而是受基于本文的申请上公布的任何权利要求的限制。因此,各实施例的公开内容旨在对专利权的范围进行说明而非限制,该专利权的范围在以下权利要求中得到阐述。