首页 / 语音通信方法以及装置

语音通信方法以及装置实质审查 发明

技术领域

[0001] 本申请涉及语音通信技术领域,具体涉及一种语音通信方法以及装置。

相关背景技术

[0002] 车机通常会自带经典蓝牙配对连接的功能。手机端和车机双端蓝牙连接后,当向车机下达语音指令时,车机请求手机端获取通讯录和短消息等隐私消息的访问权限,当车机自身具备蜂窝上网的功能并且车机又装有一些恶意的三方应用时,容易导致手机端上的隐私信息泄露,导致语音通信的安全性不高。
[0003] 也即,现有技术中语音通信的安全性不高。

具体实施方式

[0030] 需要说明的是,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其他具体实施例。
[0031] 本申请以下描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0032] 本申请以下描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0033] 除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0034] 为了能够提高语音通信的效果,本申请实施例提供一种语音通信方法、语音通信装置、电子设备、计算机可读存储介质以及计算机程序产品。其中,语音通信方法可由语音通信装置执行,或者由集成了该语音通信装置的电子设备执行。
[0035] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0036] 请参照图1,本申请还提供一语音通信系统,如图1所示,该语音通信系统包括第一电子设备100和第二电子设备200,第一电子设备100中集成有本申请提供的语音通信装置,第二电子设备200中集成有本申请提供的语音通信装置。
[0037] 其中,第一电子设备100可以是任何配置有处理器而具备处理能力的设备,比如智能手机、平板电脑、掌上电脑、笔记本电脑、智能音箱等具备处理器的移动式电子设备,或者台式电脑、电视、服务器、工业设备等具备处理器的固定式电子设备。
[0038] 其中,第二电子设备200可以是任何配置有处理器而具备处理能力的设备,比如智能手机、平板电脑、掌上电脑、笔记本电脑、智能音箱等具备处理器的移动式电子设备,或者台式电脑、电视、服务器、工业设备等具备处理器的固定式电子设备。
[0039] 在一个具体的实施例中,第一电子设备100为车载终端,第二电子设备200为移动终端。在另一个具体的实施例中,第一电子设备100为台式电脑,第二电子设备200为移动终端。在又一个具体的实施例中,第一电子设备100为电视,第二电子设备200为移动终端。
[0040] 另外,该语音通信系统还可以包括存储器,用于存储原始数据、中间数据以及结果数据。
[0041] 本申请实施例中,存储器可以是云存储器,云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
[0042] 目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
[0043] 存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
[0044] 需要说明的是,图1所示的语音通信系统的场景示意图仅仅是一个示例,本申请实施例描述的语音通信系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着语音通信系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
[0045] 以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
[0046] 请参照图2,图2是本申请实施例提供的语音通信方法的第一个实施例的流程示意图,如图2所示,本申请提供的语音通信方法的流程如下:
[0047] 201、在获取到第一语音信息的情况下,基于第一语音信息,得到第一语音信息的第一语音意图。
[0048] 本申请实施例中,第一设备可以自身集成有第一音频采集装置,也可以外接有第一音频采集装置。第一音频采集装置可为麦克风等。第一设备通过第一音频采集装置采集第一语音信息。当用户发出语音时,第一设备通过第一音频采集装置进行收音,得到第一语音信息。第一语音信息可以为用户说的一段话,例如,第一语音信息是“给XX打电话”、“播放歌曲AA”、“播放视频BB”等等。
[0049] 在一个具体的实施例中,基于第一语音信息,得到第一语音信息的第一语音意图,包括:对第一语音信息语音识别,得到第一语音信息的文本信息;将第一语音信息的文本信息输入预先训练的意图检测模型,得到第一语音信息的第一语音意图。其中,意图检测模型可以为各种经过训练的自然语言处理模型。自动语音识别技术(Automatic Speech Recognition,ASR)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。自然语言处理(Natural Language Processing,NLP)是人工智能(AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。通过预先训练的意图检测模型对第一语音信息的意图进行识别,可以提高意图识别准确率。
[0050] 其中,意图检测模型可以为BERT模型和XLNet模型等。BERT的全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,能生成深度的双向语言表征。
[0051] 其中,第一语音意图可以为各类控制指令。第一语音意图可以为打电话指令、播放指令等。例如,第一语音意图可以为“给XX打电话”、“播放歌曲AA”“播放视频BB”等等。
[0052] 202、向第二设备发送第一语音信息、第一语音意图,其中,第一语音意图在与第二设备识别第一语音信息得到的第二语音意图一致的情况下,用于第二设备执行。
[0053] 在一个具体的实施例中,第一设备和第二设备之间基于预设车联协议建立投屏连接,第一设备和第二设备建立投屏连接之后,当前连接状态可能会有以下几种状态:投屏基于蓝牙连接和WIFI连接,并通过蓝牙连接和WIFI连接传输数据,其中,蓝牙连接用于音频信息的传输;投屏基于有线连接和蓝牙连接,并通过有线连接和蓝牙连接传输数据,其中,蓝牙连接用于音频信息的传输;投屏基于WIFI连接,并通过WIFI连接传输数据;投屏基于有线连接,并通过有线连接传输数据。第一设备基于预设车联协议通过投屏连接向第二设备发送第一语音信息、第一语音意图。
[0054] 其中,预设车联协议为carlink车联协议,当然,在其他实施例中,预设车联协议也可以为CarPlay车联协议、HiCar车联协议等,根据具体情况设定即可,在此不做限定。
[0055] 进一步的,接收第二设备执行第一语音意图并返回的待展示信息,在接收到第二设备执行第一语音意图并返回的待展示信息的情况下,展示待展示信息。
[0056] 其中,待展示信息可以是通话语音音频、通话视频、各类视频等等。
[0057] 本申请实施例中,第一设备向第二设备发送第一语音信息、第一语音意图,第二设备执行第一语音意图并返回待展示信息。在接收到第二设备执行第一语音意图并返回的待展示信息,第一设备展示待展示信息。由于第一语音信息是第一设备采集的,表明发出第一语音信息的用户位于第一设备附近,第一设备展示待展示信息,可以使发出语音信息的用户尽快收到待展示信息。
[0058] 在一个具体的实施例中,第一设备设有第一音频播放装置,第一音频播放装置可以为扬声器。待展示信息为电话被叫方的通话语音音频,第一设备通过第一音频播放装置播放通话语音音频。
[0059] 在另一个具体的实施例中,第一设备设有显示界面。其中,第一设备为车载终端,第一设备的显示界面可以为车辆的中控显示屏的显示界面,第一设备的显示界面也可以为抬头显示的显示界面。抬头显示,简称HUD,又被叫做平视显示系统,是指以车辆驾驶员为中心、盲操作、多功能仪表盘。它的作用,就是把时速、导航等重要的行车信息,投影到驾驶员前面的风挡玻璃上,让驾驶员尽量做到不低头、不转头就能看到时速、导航等重要的驾驶信息。待展示信息为电话被叫方的通话视频或者其他各类视频,第一设备通过显示屏播放通话视频或者其他各类视频。
[0060] 进一步的,若获取到第二设备执行第一语音意图并返回的待展示信息,则采集第二语音信息并将第二语音信息发送至第二设备。第一设备通过第一音频采集装置采集第二语音信息并将第二语音信息发送至第二设备,具体的,第一语音意图为打电话指令,待展示信息为通话音频,第二语音信息为第一设备采集到的用户语音,将第一设备采集到的用户语音发送给第二设备,由第二设备发给电话被叫方,从而完成通话。
[0061] 进一步的,若获取到第二设备执行第一语音意图并返回的待展示信息,则开启第一设备的摄像头采集图像信息并将图像信息发送至第二设备,由第二设备发给电话被叫方,从而完成通话。
[0062] 请参照图3,图3是本申请实施例提供的语音通信方法的第二个实施例的流程示意图,如图3所示,本申请提供的语音通信方法的流程如下:
[0063] 301、在获取到第一设备采集的第一语音信息的情况下,基于第一语音信息,得到第一语音信息的第一语音意图。
[0064] 302、判断第一语音意图是否属于预设指令集内的控制指令。
[0065] 其中,预先设置预设指令集,预设指令集包括多个控制指令,例如,预设指令集中的多个控制指令分别为:“给XX打电话”、“播放歌曲AA”“播放视频BB”。
[0066] 本申请实施例中,判断第一语音意图是否属于预设指令集内的控制指令,若第一语音意图属于预设指令集内的控制指令,则执行303,若第一语音意图不属于预设指令集内的控制指令,则重新采集第一语音信息。
[0067] 303、检测第一设备和第二设备之间的当前连接状态。
[0068] 一般第一设备和第二设备会建立投屏连接。第一设备和第二设备之间的当前连接状态可能会有以下几种状态:第一设备和第二设备建立投屏连接,并通过蓝牙连接和WIFI连接传输数据,其中,蓝牙连接用于音频信息的传输;第一设备和第二设备建立投屏连接,并通过有线连接和蓝牙连接传输数据;第一设备和第二设备建立投屏连接,并通过WIFI连接传输数据;第一设备和第二设备建立投屏连接,并通过有线连接传输数据。
[0069] 304、若当前连接状态为蓝牙连接且投屏连接,则发出选择提示信息,选择提示信息用于提示用户选择一种连接进行数据传输。
[0070] 若当前连接状态为蓝牙连接且投屏连接,表明此时即可通过蓝牙直接传输数据也可以通过投屏连接传输数据,可能会导致隐私数据通过蓝牙泄露,则发出选择提示信息,选择提示信息用于提示用户选择一种连接进行数据传输。具体的,在第一设备的显示界面弹出选择弹窗,选择弹窗上提供投屏连接发送和蓝牙连接发送,供用户进行选择。通过向用户发出提示信息,使用户选择数据传输方式,避免直接传输数据导致隐私数据通过蓝牙泄露。
[0071] 305、若检测到选择投屏连接发送的操作,则关闭蓝牙连接并基于预设车联协议通过投屏连接向第二设备发送第一语音信息、第一语音意图。
[0072] 若检测到选择投屏连接发送的操作,表明用户想通过投屏连接发送,由于传统蓝牙会获取用户的通讯录等隐私信息,如果直接默认蓝牙获取用户的通讯录等隐私信息,会导致隐私泄露,而如果用户操作第一设备或者第二设备拒绝提供通讯录访问权限时,只能手动触发,这会导致用户行车驾驶风险提高和通话场景体验的下降,因此此时需要关闭蓝牙,避免蓝牙开启获取第二设备上的隐私数据。因此在关闭蓝牙之后,基于预设车联协议通过投屏连接向第二设备发送第一语音信息、第一语音意图。
[0073] 若检测到选择蓝牙连接发送的操作,表明用户想通过蓝牙连接发送,此时通过蓝牙连接向第二设备发送第一语音信息、第一语音意图。
[0074] 306、若当前连接状态为蓝牙未连接且投屏连接,则基于预设车联协议通过投屏连接向第二设备发送第一语音信息、第一语音意图。
[0075] 若当前连接状态为蓝牙未连接且投屏连接,表明蓝牙已经关闭,无需担心隐私泄露,则基于预设车联协议通过投屏连接向第二设备发送第一语音信息、第一语音意图,可以避免隐私泄露。
[0076] 307、在获取到第二设备执行第一语音意图并返回的待展示信息的情况下,展示待展示信息。
[0077] 进一步的,接收第二设备执行第一语音意图并返回的待展示信息,若获取到第二设备执行第一语音意图并返回的待展示信息,采集第二语音信息并将第二语音信息发送至第二设备。若获取到第二设备执行第一语音意图并返回的待展示信息,表明两个设备已经建立了安全的连接通道,可以进行语音通信,则采集第二语音信息并将第二语音信息发送至第二设备,完成语音通信。
[0078] 请参照图4,图4是本申请实施例提供的语音通信方法的第三个实施例的流程示意图,如图4所示,本实施例提供的语音通信方法应用于第二设备,本申请提供的语音通信方法的流程如下:
[0079] 401、在接收到第一设备发送的第一语音信息、第一语音意图的情况下,识别第一语音信息得到第二语音意图,其中,第一语音信息由第一设备获取,第一语音意图由第一设备对第一语音信息进行识别得到。
[0080] 其中,第一设备在获取到第一设备采集的第一语音信息的情况下,基于第一语音信息,得到第一语音信息的第一语音意图,向第二设备发送第一语音信息、第一语音意图。
[0081] 本申请实施例中,第一语音意图可以是“给XX打电话”、“播放歌曲AA”、“播放视频BB”等等。待展示信息可以是通话语音音频、通话视频、各类视频等等。例如,第一语音意图可以是“给XX打电话”,执行第一语音意图,即执行给电话被叫方XX拨号的操作,当通话接通之后,得到电话被叫方的通话语音音频,将电话被叫方的通话语音音频作为待展示信息。
[0082] 在一个具体的实施里中,识别第一语音信息,得到第一语音信息的第二语音意图,包括:对第一语音信息语音识别,得到第一语音信息的文本信息;将第一语音信息的文本信息输入预先训练的意图检测模型,得到第一语音信息的第二语音意图。
[0083] 402、在第一语音意图和第二语音意图一致的情况下,执行第一语音意图。
[0084] 由于第一语音意图是第一设备解析得到的,第二语音意图是第二设备解析得到的。若第一语音意图和第二语音意图一致,表明第二设备上的接口未被恶意调用,则执行第一语音意图,得到第一语音意图对应的待展示信息,可以避免第二设备上的接口被恶意调用,提高语音通信安全性。
[0085] 进一步的,将执行第一语音意图得到的待展示信息返回第一设备。
[0086] 具体的,待展示信息可以是通话语音音频、通话视频、各类视频等等,基于预设车联协议通过投屏连接将待展示信息返回第一设备。
[0087] 请参照图5,图5是本申请实施例提供的语音通信方法的第四个实施例的流程示意图。本申请实施例以语音拨号场景为例。如图5所示,本申请提供的语音通信方法的流程如下:
[0088] 501、在获取到第一设备采集的第一语音信息的情况下,基于第一语音信息,得到第一语音信息的第一语音意图。
[0089] 具体的,第一设备和第二设备会建立投屏连接,第一设备和第二设备建立投屏连接之后,当前连接状态可能会有以下几种状态:投屏基于蓝牙连接和WIFI连接,并通过蓝牙连接和WIFI连接传输数据,其中,蓝牙连接用于音频信息的传输;投屏基于有线连接和蓝牙连接,并通过有线连接和蓝牙连接传输数据,其中,蓝牙连接用于音频信息的传输;投屏基于WIFI连接,并通过WIFI连接传输数据;投屏基于有线连接,并通过有线连接传输数据。
[0090] 第一设备采集第一语音信息,在获取到第一设备采集的第一语音信息的情况下,基于第一语音信息,得到第一语音信息的第一语音意图。
[0091] 502、判断第一语音意图是否为拨号指令。
[0092] 本申请实施例中,第一设备判断第一语音意图是否为拨号指令,若第一语音意图为拨号指令,则执行503,若第一语音意图不为拨号指令,则重新采集第一语音信息。
[0093] 503、检测第一设备和第二设备之间的当前连接状态。
[0094] 504、若当前连接状态为蓝牙连接且投屏连接,则发出选择提示信息。
[0095] 选择提示信息用于提示用户选择一种连接进行数据传输。
[0096] 若当前连接状态为蓝牙连接且投屏连接,表明此时即可通过蓝牙直接传输数据,也可以通过投屏连接传输数据,则发出选择提示信息,选择提示信息用于提示用户选择一种连接进行数据传输。具体的,在第一设备的显示界面提出按选择弹窗,选择弹窗上提供投屏连接和选择,供用户进行选择。
[0097] 505、若检测到选择投屏连接发送的操作,则关闭蓝牙连接并基于预设车联协议通过投屏连接向第二设备发送第一语音信息、第一语音意图。
[0098] 若检测到选择投屏连接发送的操作,表明用户想通过投屏连接发送,由于传统蓝牙会获取用户的通讯录等隐私信息,如果直接默认蓝牙获取取用户的通讯录等隐私信息,会导致隐私泄露,而如果用户操作第一设备或者第二设备拒绝提供通讯录访问权限时,只能手动触发,这会导致用户行车驾驶风险提高和通话场景体验的下降,因此此时需要关闭蓝牙,避免蓝牙开启获取第二设备上的隐私数据。因此在关闭蓝牙之后,基于预设车联协议通过投屏连接向第二设备发送第一语音信息、第一语音意图。
[0099] 若检测到选择蓝牙连接发送的操作,表明用户想通过蓝牙连接发送,此时通过蓝牙连接向第二设备发送第一语音信息、第一语音意图。
[0100] 506、若当前连接状态为蓝牙未连接且投屏连接,则基于预设车联协议通过投屏连接向第二设备发送第一语音信息、第一语音意图。
[0101] 若当前连接状态为蓝牙未连接且投屏连接,表明蓝牙已经关闭,无需担心隐私泄露,则基于预设车联协议通过投屏连接向第二设备发送第一语音信息、第一语音意图。
[0102] 507、确定第一语音信息的第一语音意图。
[0103] 508、判断第一语音意图是否为拨号指令。
[0104] 若第一语音意图是否为拨号指令,则执行509。
[0105] 509、禁用第一设备的声音采集功能和声音播放功能。
[0106] 本申请实施例中,为了避免第一设备的声音被采集泄露,也为了避免第一设备和第二设备的采集功能和播放功能发送干扰,禁用第一设备的声音采集功能和声音播放功能,执行第一语音意图,得到第一语音意图对应的待展示信息,可以避免第一设备的声音被采集泄露,也可以避免第一设备和第二设备的采集功能和播放功能发送干扰,提高语音通信的安全性。具体的,第二设备可以自身集成有第二音频采集装置,也可以外接有第二音频采集装置。第二音频采集装置可为麦克风等。第二设备设有第二音频播放装置,第二音频播放装置可以为扬声器。将第二设备的第二音频采集装置和第二音频播放装置关闭。
[0107] 在一个具体的实施例中,若第一语音意图是否为拨号指令,则禁用第一设备的声音采集功能和声音播放功能。
[0108] 在一个具体的实施例中,禁用第一设备的声音采集功能和声音播放功能之前,包括:
[0109] (1)获取第一语音信息。
[0110] 具体的,向第一设备发起调用请求,得到第一语音信息。当然,第一语音信息也可以是在第一设备在发送第一提示信息时一同发送给第二设备的。
[0111] (2)解析第一语音信息,得到第一语音信息的第二语音意图。
[0112] 具体的,解析第一语音信息,得到第一语音信息的第二语音意图,包括:对第一语音信息语音识别,得到第一语音信息的文本信息;将第一语音信息的文本信息输入预先训练的意图检测模型,得到第一语音信息的第二语音意图。
[0113] (3)若第一语音意图和第二语音意图一致,则执行第一语音意图,得到第一语音意图对应的待展示信息。
[0114] 由于第一语音意图是第一设备解析得到的,第二语音意图是第二设备解析得到的。若第一语音意图和第二语音意图一致,表明第二设备上的接口未被恶意调用,则禁用第一设备的声音采集功能和声音播放功能,并执行第一语音意图,得到第一语音意图对应的待展示信息。
[0115] 510、执行拨号指令,得到通话语音音频。
[0116] 在一个具体的实施例中,确定第一语音意图为拨号指令之后,直接执行拨号指令,得到通话语音音频。执行拨号指令之后,电话接通,获取电话被叫方的通话语音音频。
[0117] 511、将通话语音音频返回第一设备。
[0118] 具体的,第二设备基于预设车联协议通过投屏连接将待展示信息返回第一设备。
[0119] 512、播放通话语音音频。
[0120] 具体的,第一设备获取通话语音音频之后,播放通话语音音频。
[0121] 513、采集第二语音信息。
[0122] 具体的,第一设备采集第二语音信息。
[0123] 514、发送第二语音信息。
[0124] 具体的,第一设备将采集的第二语音信息发送给第二设备。
[0125] 515、将第二语音信息发送至电话被叫方。
[0126] 具体的,第一设备将采集的第二语音信息发送给第二设备,第二设备将第二语音信息发送至电话被叫方,完成通话。
[0127] 进一步的,当检测到通话结束时,恢复第二设备的声音采集功能和声音播放功能。具体的,当第一设备检测到通话结束或者通话开始时将车机电话状态消息、车机麦克风状态变化消息以及车机音频播放器状态变化消息发送至第一设备,用以控制车机通话状态的初始化和释放,用以控制车机的播放器和麦克风资源的初始化和释放。其中,车机电话状态消息用NotifyPhoneState表示,车机电话状态消息包括呼叫状态、手机是否锁屏、是否是网络电话、语音助手是否唤醒以及手机低电量;呼叫状态用call_state表示;手机是否锁屏用screen_locked表示;是否是网络电话用wechat_or_qq表示;语音助手是否唤醒用voice_assistant_active表示;手机低电量用low_power表示。
[0128] 其中,车机麦克风状态变化消息用NotifyMicrophoneState表示,车机麦克风状态变化消息包括车机麦克风启用状态、车机麦克风采样率、车机麦克风声道以及车机麦克风编码格式。呼叫状态用call_state表示;麦克风启用状态用enable表示;车机麦克风采样率用sample_rate表示;车机麦克风声道用channel_mask表示;车机麦克风编码格式用encoding_format表示。
[0129] 其中,车机音频播放器状态变化消息用NotifyAudioPlayerState表示,车机音频播放器状态变化消息包括音频类型、播放器状态、播放器采样率、播放器声道、播放器编码格式。音频类型用audio_type表示、播放器状态用player_state表示;播放器采样率用sample_rate表示;播放器声道用channel_mask,表示;播放器编码格式用encoding_format表示、播放器采样率、播放器声道、播放器编码格式。
[0130] 进一步的,本申请第一设备和第二设备通过预设内容载体进行语音通信中的语音传输。其中,预设内容载体包括固定长度的消息头+消息体。
[0131] 需要说明的是,本申请上述字段的含义是协议约定的一种可选的形式,在其他用于车机交互的协议中,也可能通过其他字符、图形等元素表述与本申请实施例提供的例子相同的含义,例如:用德文、法文等其他表述方式表述本申请的各个字段,也在本申请的保护范围内。
[0132] 为便于更好的实施本申请实施例提供的语音通信方法,本申请实施例还提供一种基于上述语音通信方法的语音通信装置。其中名词的含义与上述语音通信方法中相同,具体实现细节请参考以上方法实施例中的说明。
[0133] 请参照图6,图6为本申请实施例提供的语音通信装置的结构示意图,该语音通信装置可以包括解析模块701、发送模块702,其中,
[0134] 解析模块701,用于在获取到第一语音信息的情况下,基于第一语音信息,得到第一语音信息的第一语音意图;
[0135] 发送模块702,用于向第二设备发送第一语音信息、第一语音意图,其中,第一语音意图在与第二设备识别第一语音信息得到的第二语音意图一致的情况下,用于第二设备执行。
[0136] 为便于更好的实施本申请实施例提供的语音通信方法,本申请实施例还提供一种基于上述语音通信方法的语音通信装置。其中名词的含义与上述语音通信方法中相同,具体实现细节请参考以上方法实施例中的说明。
[0137] 请参照图7,图7为本申请实施例提供的语音通信装置的结构示意图,该语音通信装置可以包括意图确定模块801、意图执行模块802、返回模块803,其中,[0138] 意图确定模块801,用于用于在接收到第一设备发送的第一语音信息、第一语音意图的情况下,识别第一语音信息得到第二语音意图,其中,第一语音信息由第一设备获取,第一语音意图由第一设备对第一语音信息进行识别得到;
[0139] 意图执行模块802,用于在第一语音意图和第二语音意图一致的情况下,执行第一语音意图。
[0140] 本申请实施例还提供一种电子设备,包括存储器和处理器,其中处理器通过调用存储器中存储的计算机程序,用于执行本实施例提供的语音通信方法中的步骤。
[0141] 请参照图8,图8为本申请实施例提供的电子设备的结构示意图。图8中电子设备可以是第一设备也可以是第二设备。
[0142] 该电子设备可以包括一个或者一个以上处理核心的处理器101、一个或一个以上计算机可读存储介质的存储器102、电源103和输入单元104等部件。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0143] 处理器101是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器102内的软件程序和/或模块,以及调用存储在存储器102内的数据,执行电子设备的各种功能和处理数据。可选的,处理器101可包括一个或多个处理核心;可选的,处理器101可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器101中。
[0144] 存储器102可用于存储软件程序以及模块,处理器101通过运行存储在存储器102的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器102可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器102还可以包括存储器控制器,以提供处理器101对存储器102的访问。
[0145] 电子设备还包括给各个部件供电的电源103,可选的,电源103可以通过电源管理系统与处理器101逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源103还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0146] 该电子设备还可包括输入单元104,该输入单元104可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0147] 尽管未示出,该电子设备还可以包括显示单元、图像采集组件等,在此不再赘述。具体在本实施例中,电子设备中的处理器101会按照如下的指令,将一个或一个以上的计算机程序对应的可执行代码加载到存储器102中,并由处理器101来执行本申请提供的语音通信方法中的步骤,比如:
[0148] 在获取到第一语音信息的情况下,基于第一语音信息,得到第一语音信息的第一语音意图;
[0149] 向第二设备发送第一语音信息、第一语音意图,其中,第一语音意图在与第二设备识别第一语音信息得到的第二语音意图一致的情况下,用于第二设备执行;
[0150] 或者,
[0151] 在接收到第一设备发送的第一语音信息、第一语音意图的情况下,识别第一语音信息得到第二语音意图,其中,第一语音信息由第一设备获取,第一语音意图由第一设备对第一语音信息进行识别得到;
[0152] 在第一语音意图和第二语音意图一致的情况下,执行第一语音意图。
[0153] 应当说明的是,本申请实施例提供的电子设备与上文实施例中的语音通信方法属于同一构思,其具体实现过程详见以上相关实施例,此处不再赘述。
[0154] 本申请还提供一种计算机可读的存储介质,其上存储有计算机程序,当其存储的计算机程序在本申请实施例提供的电子设备的处理器上执行时,使得电子设备的处理器执行本申请提供的语音通信方法中的步骤。其中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM)或者随机存取器(Random Access Memory,RAM)等。
[0155] 本申请还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述语音通信方法的各种可选实现方式。
[0156] 以上对本申请所提供的一种语音通信方法以及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
[0157] 应当说明的是,当本申请以上实施例运用到具体产品或技术中时,涉及到用户的相关数据,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

当前第1页 第1页 第2页 第3页