首页 / 一种语音端点检测方法、装置、设备及存储介质

一种语音端点检测方法、装置、设备及存储介质实质审查 发明

技术领域

[0001] 本发明涉及语音处理技术领域,尤其涉及一种语音端点检测方法、装置、设备及存储介质。

相关背景技术

[0002] 随着人工智能的快速发展,语音信号处理技术显示出重要性,其中,位于语音处理流程前端的语音端点检测部分更是必不可少。语音端点检测称为语音活动性检测(Voice Activity Detection,VAD),是指在连续声音信号中找出语音的起始时间和终止时间。语音端点检测可以过滤无语音片段,使下游任务能够只关注语音片段,从而降低系统功耗。
[0003] 目前的语音端点检测方法为,对目标音频数据(即待检测的音频数据)提取能量、过零率等特征,根据提取的特征判别目标音频数据的音频帧是静音帧还是非静音帧,若音频帧是静音帧,则判定音频帧是非语音帧,若音频帧是非静音帧,则判定音频帧为语音帧,在获得目标音频数据的音频帧的判别结果后,根据判别结果确定语音端点。
[0004] 然而,实际应用中,目标音频数据往往不只有关注说话人的语音,通常还会有噪声,在一些复杂的声学场景中,甚至不只有一种噪声,比如,包含背景音乐的直播、展厅等声学场景中的音频数据除了包括关注说话人的语音外,还包括非关注说话人的语音、音乐噪声、环境噪声等,这意味着,非静音帧并非一定是语音帧,将非静音帧确定为语音帧将导致最终难以获得较为准确的语音端点检测结果。

具体实施方式

[0061] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0062] 本案发明人在实现本发明的过程中发现,现有的语音端点检测方法大多为基于特征的检测方法,基于特征的检测方法的出发点是寻找能表征静音帧和非静音帧的差异的特征,来实现静音帧和非静音帧的区分,进而将静音帧确定为非语音帧,将非静音帧确定为语音帧,在此基础上确定出语音端点。
[0063] 除了基于特征的检测方法外,目前还有基于模型的检测方法,基于模型的检测方法通过对静音帧和非静音帧进行建模,来区分音频帧是静音帧还是非静音帧,进而将静音帧确定为非语音帧,将非静音帧确定为语音帧,在此基础上确定出语音端点。
[0064] 可见,不管是基于特征的检测方法还是基于模型的检测方法,本质上均是对音频数据中的音频帧进行静音帧、非静音帧的检测,进而将静音帧确定为非语音帧,将非静音帧确定为语音帧。然而,实际应用中,音频数据除了包括关注说话人的语音外,还包括非关注说话人的语音、音乐噪声、环境噪声等,这意味着非静音帧并非一定是语音帧,对音频帧进行静音帧、非静音帧的检测,将检测出的非静音帧确定为语音帧,会导致最终获得的语音端点的准确度不高。
[0065] 鉴于现有的语音端点检测方法的检测准确度不高,本案发明人进行了研究,通过不断研究,最终提出了一种检测准确度较高的语音端点检测方法。在介绍本发明提供的语音端点检测方法之前,先对本发明涉及的硬件架构进行说明。
[0066] 在一种可能的实现方式中,如图1所示,本发明涉及的硬件架构可以包括:电子设备101和服务器102。
[0067] 示例性的,电子设备101可以是任何一种可与用户进行人机交互的电子产品,例如,PC、笔记本电脑、平板电脑、掌上电脑、手机、学习机、智能电视等。
[0068] 应注意的是,图1仅仅是一种示例,电子设备的类型可以有多种,不限于图1中的笔记本电脑。
[0069] 示例性的,服务器102可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心。服务器102可以包括处理器、存储器以及网络接口等。
[0070] 示例性的,电子设备101可以通过无线通信网络与服务器102建立连接并通信;示例性的,电子设备101可以通过有线通信网络与服务器102建立连接并通信。
[0071] 电子设备101可获取目标数据(至少包括目标音频数据),将目标数据发送至服务器102,服务器102按本发明提供的语音端点检测方法对目标音频数据进行语音端点检测。
[0072] 在另一种可能的实现方式中,本发明涉及的硬件架构可以包括:电子设备。
[0073] 电子设备为具有较强数据处理能力的电子产品,电子设备获取目标数据(至少包括目标音频数据),按本发明提供的语音端点检测方法对目标音频数据进行语音端点检测。
[0074] 本领域技术人员应能理解上述电子设备和服务器仅为举例,其它现有的或今后可能出现的电子设备或服务器如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0075] 接下来通过下述实施例对本发明提供的语音端点检测方法进行介绍。
[0076] 请参阅图2,示出了本发明实施例提供的一种语音端点检测方法的流程示意图,该方法可以包括:
[0077] 步骤S201:获取目标数据。
[0078] 在一种可能的实现方式中,目标数据可以只包括待检测的音频数据,即目标音频数据,在另一种可能的实现方式中,目标数据可以包括目标音频数据以及目标音频数据对应的目标视频数据。若目标数据只包括目标音频数据,则本实施例提供的语音端点检测方法为单模态语音端点检测方法,若目标数据包括目标音频数据和目标音频数据对应的目标视频数据,则本实施例提供的语音端点检测方法为多模态语音端点检测方法。
[0079] 步骤S202:将目标数据输入预先训练得到的音频帧分类模型,得到目标音频数据的音频帧的分类结果。
[0080] 本实施例中的音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到。
[0081] 其中,多个维度包括语音维度和若干噪声类别分别对应的噪声维度,一音频帧在语音维度下的真实类别为语音帧、非语音帧中的一种,一音频帧在一噪声类别对应的噪声维度下的真实类别为该噪声类别的噪声帧、非该噪声类别的噪声帧中的一种。
[0082] 为了提升音频帧分类模型的分类性能,音频帧分类模型的训练数据除了包括第一音频数据和第一音频数据的音频帧在多个维度下的真实类别外,还可以包括第一音频数据对应的第一视频数据,即,音频帧分类模型以第一音频数据和第一音频数据对应的第一视频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到。
[0083] 示例性的,音频帧分类模型以带有音乐噪声、环境噪声、干扰语音中的一种或多种噪声的第一音频数据以及第一音频数据对应的视频数据为训练样本,以第一音频数据的音频帧在语音维度、干扰语音对应的噪声维度、音乐噪声对应的噪声维度、环境噪声对应的噪声维度下的真实类别为样本标签训练得到,一音频帧在语音维度下的真实类别为语音帧、非语音帧中的一种,一音频帧在音乐噪声对应的噪声维度下的真实类别为音乐噪声帧、非音乐噪声帧中的一种,一音频帧在环境噪声对应的噪声维度下的真实类别为环境噪声帧、非环境噪声帧中的一种,一音频帧在干扰语音对应的噪声维度下的真实类别为干扰语音帧、非干扰语音帧中的一种。
[0084] 需要说明的是,若音频帧分类模型的训练样本不包含第一音频数据对应的第一视频数据,则目标数据只包含目标音频数据,即,将目标音频数据输入音频帧分类模型,音频分类模型对目标音频数据的音频帧进行分类。若音频帧分类模型的训练样本包含第一音频数据对应的第一视频数据,则目标数据包含目标音频数据和目标音频数据对应的目标视频数据,即,将目标音频数据和目标音频数据对应的目标视频数据输入音频帧分类模型,音频分类模型辅以目标视频数据,对目标音频数据的音频帧进行分类,以得到目标音频数据的音频帧的分类结果。
[0085] 需要说明的是,本实施例中,音频数据对应的视频数据与音频数据同步采集,音频数据对应的视频数据可以为包含音频数据对应的说话人的人脸的视频数据。
[0086] 步骤S203:根据目标音频数据的音频帧的分类结果,确定目标音频数据中目标语音的语音端点。
[0087] 需要说明的是,目标语音为关注说话人的语音。
[0088] 由于音频帧分类模型以第一音频数据的音频帧在语音维度和若干噪声类别分别对应的噪声维度下的真实类别为样本标签训练得到,因此,基于音频帧分类模型对目标音频数据的音频帧进行分类得到的分类结果包括目标音频数据的音频帧在语音维度下的分类结果(语音帧/非语音帧的分类结果),在确定目标音频数据中目标语音的语音端点时,可根据目标音频数据的音频帧在语音维度下的分类结果确定目标音频数据中目标语音的语音端点。
[0089] 根据目标音频数据的音频帧在语音维度下的分类结果确定目标音频数据中目标语音的语音端点的实现方式有多种,比如,出现连续N(N可根据具体场景设定)个语音帧,认为目标语音段开始,则将N个语音帧中的第1个语音帧确定为语音前端点,类似的,对于语音后端点,出现连续M(M可基于具体场景设定)个非语音帧,认为目标语音段结束,则将M个非语音帧中第1个非语音帧的前一帧确定为语音后端点,再比如,设定范围内存在一定比例的语音帧,认为目标语音段开始,则将设定范围内的第1个语音帧确定为语音前端点,类似的,对于语音后端点,设定范围内存在一定比例的非语音帧,认为目标语音段结束,将设定范围内的第1个非语音帧的前一帧确定为语音后端点。
[0090] 目标音频数据的音频帧的分类结果除了包括目标音频数据的音频帧在语音维度下的分类结果外,还包括目标音频数据的音频帧在若干噪声类型分别对应的噪声维度下的分类结果,比如,目标音频数据的音频帧在干扰语音对应的噪声维度下的分类结果(干扰语音帧/非干扰语音帧的分类结果)、目标音频数据的音频帧在音乐噪声对应的噪声维度下的分类结果(音乐噪声帧/非音乐噪声帧的分类结果),目标音频数据的音频帧在环境噪声对应的噪声维度下的分类结果(环境噪声帧/非环境噪声帧的分类结果)。
[0091] 考虑到某些应用场景中除了需要获得关注说话人的语音段(即目标语音段)之外,还需要获得某种噪声类型的噪声段,有鉴于此,可根据目标音频数据的音频帧在指定噪声类型对应的噪声维度下的分类结果,确定目标音频数据中指定类型的噪声的噪声端点,比如,可根据目标音频数据的音频帧在音乐噪声对应的噪声维度下的分类结果(音乐噪声帧/非音乐噪声帧的分类结果),确定目标音频数据中音乐噪声段的噪声端点,可根据目标音频数据的音频帧在干扰语音对应的噪声维度下的分类结果(干扰语音帧/非干扰语音帧的分类结果),确定目标音频数据中干扰语音段的语音端点。确定目标音频数据中指定类型的噪声的噪声端点的方式与确定目标音频数据中目标语音的语音端点的方式类似,本实施例在此不做赘述。
[0092] 本发明实施例提供的语音端点检测方法,首先获取包括目标音频数据的目标数据,然后将目标数据输入预先训练得到的音频帧分类模型,以得到目标音频数据的音频帧的分类结果,最后根据目标音频数据的音频帧的分类结果,确定目标音频数据中目标语音的语音端点,本发明实施例中的音频帧分类模型以带有一种或多种噪声的第一音频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,一方面,样本标签包含第一音频数据的音频帧在语音维度下的真实类别,能够有针对性的对音频帧分类模型在语音维度的分类能力进行训练,如此能够使音频帧分类模型关注音频数据中的语音信息,从而准确地对音频帧进行语音帧、非语音帧的分类,另一方面,样本标签包含噪声维度的真实类别,能够对音频帧分类模型在噪声维度的分类能力进行训练,在对音频帧分类模型在语音维度的分类能力进行训练的同时,对其在噪声维度的分类能力进行训练,能够更加充分、多方面地对音频帧分类模型进行参数校正,从而使音频帧分类模型的音频帧分类性能更强,进而,基于训练得到的音频帧分类模型对目标音频数据的音频帧进行分类时,能够获得准确的分类结果(包括准确的语音帧/非语音帧的分类结果),在准确的音频帧分类结果的基础上,可获得准确的语音端点。
[0093] 在本发明的另一实施例中,对用于训练音频帧分类模型的训练样本和样本标签的获取过程进行介绍。
[0094] 上述实施例提到,训练样本可以包括第一音频数据和第一音频数据对应的第一视频数据,也可以只包括第一音频数据,本实施例以训练样本包括第一音频数据和第一音频数据对应的第一视频数据为例,对训练样本的获取过程进行介绍。
[0095] 训练样本的获取过程可以包括:
[0096] 步骤a1、获取无噪声的音频数据和无噪声的音频数据对应的视频数据。
[0097] 可选的,可通过录制的方式,获取无噪声的音频数据和无噪声的音频数据对应的视频数据。在录制时,录制场景保持安静,只有关注说话人的声音,避免非关注说话人的声音、音乐噪声和环境噪声等多种干扰信息,以确保获取干净的音频数据。
[0098] 步骤a2、从若干噪声类型的噪声中随机选取一种或多种噪声。
[0099] 示例性的,若干噪声类型的噪声可以包括干扰语音、音乐噪声、环境噪声。环境噪声可以使用常见的高斯白噪声和/或多个场景的环境噪声,例如,街道上的交通噪声、工厂中的设备运转噪声等。在直播、展厅、商场等场景中,经常伴有背景音乐,背景音乐相对于关注说话人的人声而言,为一种噪声,即音乐噪声,音乐噪声可以采用不带人声的纯音乐,也可采用带有人声的歌曲。干扰语音为非关注说话人的语音,在商场、展厅、医院等场景中,除了关注说话人的人声外,往往存在其他说话人的人声,其他说话人的人声相对于关注说话人的人声而言,也为一种噪声。
[0100] 步骤a3、将选取的噪声叠加到无噪声的音频数据上,得到带有噪声的音频数据,作为第一音频数据。
[0101] 针对无噪声的音频数据,可随机选取叠加噪声的位置,在基于选取的位置将选取的噪声叠加到无噪声的音频数据时,可按随机的信噪比进行噪声的叠加。
[0102] 步骤a4、将无噪声的音频数据对应的视频数据作为第一音频数据对应的第一视频数据。
[0103] 在获得第一音频数据和第一音频数据对应的第一视频数据后,可结合第一音频数据对应的第一视频数据对第一音频数据进行标注,以获得第一音频数据的音频帧在多个维度下的真实类别,即样本标签。对于第一音频数据的音频帧在语音维度下的真实类别,若关注说话人有音频且关注说人有说话动作,则在语音维度下的真实类别为“语音帧”,可用“1”表示,若关注说话人无音频且无说话动作,则在语音维度下的真实类别为“非语音帧”,可用“0”表示,若关注说话人有唇部动作但无音频,则在语音维度下的真实类别为“非语音帧”,可用“0”表示。对于第一音频数据的音频帧在某一噪声类型对应的噪声维度下的真实类别,若有该噪声类型的噪声,则在该噪声类型对应的噪声维度下的真实类别为该噪声类型的噪声帧,可用“1”表示,若无该噪声类型的噪声,则该噪声类型对应的噪声维度下的真实类别为非该噪声类型的噪声帧,可用“0”表示。
[0104] 示例性的,多个维度包括语音维度和3个噪声维度(音乐噪声对应的噪声维度、环境噪声对应的噪声维度、干扰语音对应的噪声维度),则第一音频数据的一音频帧在4个维度下的类别可以表示为{语音维度:1;干扰语音对应的噪声维度0;音乐噪声对应的噪声维度:0;环境噪声对应的噪声维度:1}。
[0105] 需要说明的是,对于只包括第一音频数据的训练样本,只需获取无噪声的音频数据,然后从若干噪声类型的噪声中随机选取一种或多种噪声,将选取的噪声叠加到无噪声的音频数据上,得到带有噪声的音频数据,作为第一音频数据。对于第一音频数据的音频帧在语音维度下的真实类别,若关注说话人有音频,则在语音维度下的真实类别为“语音帧”,若关注说话人无音频,则在语音维度下的真实类别为“非语音帧”,对于第一音频数据的音频帧在某一噪声类型对应的噪声维度下的真实类别,若有该噪声类型的噪声,则在该噪声类型对应的噪声维度下的真实类别为该噪声类型的噪声帧,若无该噪声类型的噪声,则该噪声类型对应的噪声维度下的真实类别为非该噪声类型的噪声帧。
[0106] 可按上述方式获得多个不同的训练样本以及每个训练样本的样本标签,进而,可利用这些数据训练音频帧分类模型。
[0107] 在本发明的另一实施例中,对音频帧分类模型的训练过程进行介绍。
[0108] 上述实施例提到,音频帧分类模型可以第一音频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,也可以第一音频数据和第一音频数据对应的第一视频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,本实施例重点对以第一音频数据和第一音频数据对应的第一视频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签,训练音频帧分类模型的过程进行介绍。
[0109] 如图3所示,音频帧分类模型的训练过程可以包括:
[0110] 步骤S301a:基于音频帧分类模型对第一音频数据进行编码,得到第一音频数据的音频特征。
[0111] 可选的,如图4所示,音频帧分类模型可以包括音频编码器,可将第一音频数据输入音频帧分类模型的音频编码器进行编码,以得到第一音频数据的音频特征。
[0112] 步骤S301b:基于音频帧分类模型对第一视频数据进行编码,得到第一视频数据的视频特征。
[0113] 可选的,如图4所示,音频帧分类模型可以包括视频编码器,可将第一视频数据输入音频帧分类模型的视频编码器进行编码,以得到第一视频数据的视频特征。
[0114] 步骤S302:基于音频帧分类模型从第一音频数据的音频特征中提取多个维度下的音频特征,得到第一音频数据在多个维度下的音频特征。
[0115] 其中,语音维度下的音频特征为第一音频数据中目标语音的音频特征,一噪声类别对应的噪声维度下的音频特征为第一音频数据中该噪声类型的噪声的音频特征。
[0116] 如图4所示,音频帧分类模型包括多个维度的特征提取模块,即语音维度的特征提取模块和若干噪声维度的特征提取模块,将第一音频数据的音频特征分别输入各个特征提取模型进行特征提取,语音维度的特征提取模块从输入的音频特征中提取第一音频数据中目标语音的音频特征,每个噪声维度的特征提取模块从输入的音频特征中提取对应噪声类型的噪声的音频特征。
[0117] 示例性的,多个维度包括语音维度、音乐噪声对应的噪声维度、环境噪声对应的噪声维度和干扰语音对应的噪声维度,则音频帧分类模型包括4个特征提取模块,语音维度的特征提取模块从第一音频数据的音频特征中提取目标语音的音频特征,音乐噪声对应的噪声维度的特征提取模块从第一音频数据的音频特征中提取音乐噪声的音频特征,环境噪声对应的噪声维度的特征提取模块从第一音频数据的音频特征中提取环境噪声的音频特征,干扰语音对应的噪声维度的特征提取模块从第一音频数据的音频特征中提取干扰语音的音频特征。
[0118] 需要说明的是,音频帧分类模型中各特征提取模块的结构相同,但参数不同。可选的,如图5所示,每个特征提取模块可以包括循环神经网络(GRU)和全连接层(FC),针对每个维度,将第一音频数据的音频特征依次经该维度的特征提取模块中的GRU、FC处理,便可获得该维度下的音频特征。
[0119] 步骤S303:以第一音频数据在多个维度下的音频特征为依据,辅以第一视频数据的视频特征,基于音频帧分类模型对第一音频数据的音频帧在多个维度下的类别进行预测,得到第一音频数据的音频帧在多个维度下的类别预测概率。
[0120] 具体的,步骤S303的实现过程可以包括:
[0121] 步骤S3031、针对每个维度,基于音频帧分类模型计算该维度下的音频特征与第一视频数据的视频特征的相关度,作为该维度下的音频特征对应的权重,并用该维度下的音频特征对应的权重对该维度下的音频特征加权,得到该维度下的加权后音频特征。
[0122] 可选的,如图4所示,音频帧分类模型可以包括注意力模块(比如,多头注意力模块),将第一视频数据的视频特征以及第一音频数据在多个维度下的音频特征输入音频帧分类模型的注意力模块,针对每个维度,如图6所示,注意力模块使用视频特征作为注意力机制的查询向量q,使用该维度下的音频特征作为键值对(k和v),先计算视频特征和该维度下的音频特征的相关度,将计算得到的相关度作为该维度下的音频特征对应的权重,用其对该维度下的音频特征加权,从而得到该维度下的加权后音频特征。
[0123] 本发明基于注意力机制对每个维度下的音频特征进行增强或者减弱处理,对于每个维度,当该维度下的音频特征与视频特征位于同一语义空间时,该维度下的加权后音频特征相比于该维度下未加权的音频特征会增强,反之,当该维度下的音频特征与视频特征不位于同一语义空间时,该维度下的加权后音频特征相比于该维度下未加权的音频特征会减弱。
[0124] 步骤S3032、以该维度下的加权后音频特征为依据,基于音频帧分类模型对第一音频数据的音频帧在该维度下的类别进行预测,得到第一音频数据的音频帧在该维度下的类别预测概率。
[0125] 可选的,如图4所示,音频帧分类模型可以包括多个维度的分类模块,即语音维度的分类模块(对音频帧进行语音帧、非语音帧分类的分类模块)和若干噪声维度的分类模块(比如,对音频帧进行干扰语音帧、非干扰语音帧分类的分类模块,对音频帧进行音乐噪声帧、非音乐噪声帧分类的分类模块,对音频帧进行环境噪声帧、非环境噪声帧分类的分类模块)。
[0126] 将语音维度下的加权后音频特征输入音频帧分类模型中语音维度的分类模块,得到第一音频数据的音频帧在语音维度下的类别预测概率,针对每个噪声维度,将该噪声维度下的加权后音频特征输入音频帧分类模型中该噪声维度的分类模块,得到第一音频数据的音频帧在该噪声维度下的类别预测概率。需要说明的是,第一音频数据的一音频帧在语音维度下的类别预测概率为,该音频帧为语音帧的概率以及为非语音帧的概率,第一音频数据的一音频帧在一噪声维度下的类别预测概率为,该音频帧为对应噪声类型的噪声帧的概率以及为非对应噪声类型的噪声帧的概率,比如,第一音频数据的一音频帧在音乐噪声对应的噪声维度下的类别预测概率为该音频帧为音乐噪声帧的概率以及为非音乐噪声帧的概率。
[0127] 需要说明的是,音频帧分类模型中各分类模块的结构相同,但参数不同。可选的,如图7所示,每个分类模块可以包括长短期记忆网络(LSTM)、卷积神经网络(CNN)、全连接层(FC),针对每个维度,将该维度下的加权后特征依次经该维度的分类模块中的LSTM、CNN、FC处理,便可获得该维度下的类别预测概率。
[0128] 经由上述过程可获得第一音频数据的音频帧在多个维度下的类别预测概率。
[0129] 步骤S304:根据第一音频数据的音频帧在多个维度下的类别预测概率以及第一音频数据的音频帧在多个维度下的真实类别,对音频帧分类模型进行参数更新。
[0130] 具体的,步骤S304的实现过程可以包括:
[0131] 步骤S3041、针对每个维度,根据第一音频数据的音频帧在该维度下的类别预测概率和第一音频数据的音频帧在该维度下的真实类别,确定音频帧分类模型在该维度下的类别预测损失。
[0132] 可选的,类别预测损失可采用交叉熵损失。
[0133] 步骤S3042、将音频帧分类模型在多个维度下的类别预测损失融合,得到融合后类别预测损失。
[0134] 将音频帧分类模型在多个维度下的类别预测损失融合的方式有多种,在一种可能的实现方式中,可将音频帧分类模型在多个维度下的类别预测损失直接求和,在另一种可能的实现方式中,可将音频帧分类模型在多个维度下的类别预测损失加权求和。
[0135] 示例性的,多个维度包括语音维度、干扰语音对应的噪声维度、音乐噪声对应的噪声维度、环境噪声对应的噪声维度,可按下式将音频帧分类模型在这四个维度下的类别预测损失融合:
[0136] Ltotal=γ1L1+γ2L2+γ3L3+γ4L4    (1)
[0137] 其中,Ltotal表示融合后类别预测损失,L1表示语音维度下的类别预测损失,L2表示干扰语音对应的噪声维度下的类别预测损失,L3表示音乐噪声对应的噪声维度下的类别预测损失,L4表示环境噪声对应的噪声维度下的类别预测损失,γ1表示L1对应的权重,γ2表示L2对应的权重,γ3表示L3对应的权重,γ4表示L4对应的权重,γ1~γ4可根据具体场景设定。
[0138] 步骤S3043、根据融合后类别预测损失,对音频帧分类模型进行参数更新。
[0139] 使用不同的训练样本按上述过程对音频帧分类模型进行多次训练,直至满足训练结束条件(比如模型收敛、达到预设的训练迭代次数等)。
[0140] 上述实施例提到,音频帧分类模型可以包括音频编码器和视频编码器,为了能够获得较好的音频帧分类效果,初始的音频帧分类模型中的音频编码器和视频编码器可采用预先训练得到的音视频重构模型中的音频编码器和视频编码器。
[0141] 如图8所示,音视频重构模型包括音频编码器、视频编码器和解码器。音视频重构模型的训练数据包括第二音频数据和第二音频数据对应的第二视频数据,其中,第二音频数据为无噪声的音频数据,即干净的音频数据。音视频重构模型的训练目标包括:使根据音频编码器对第二音频数据进行编码得到的音频特征和/或视频编码器对第二视频数据进行编码得到的视频特征重构的音频数据和视频数据,与第二音频数据和第二视频数据趋于一致。
[0142] 可选的,在对音视频重构模型进行训练时,音视频重构模型的输入数据的格式可以采用三种:其一,单音频数据,即只输入第二音频数据;其二,单视频数据,即只输入第二视频数据,其三,音视频数据对,即,输入第二音频数据和第二音频数据对应的第二视频数据。可选的,在音视频重构模型的整个训练过程中,三种格式的数据可随机输入音视频重构模型进行训练。
[0143] 接下来以将第二音频数据和第二音频数据对应的第二视频数据输入音视频重构模型为例,对音视频重构模型的训练过程进行介绍。
[0144] 如图9所示,音视频重构模型的训练过程可以包括:
[0145] 步骤S901a:将第二音频数据输入音视频重构模型的音频编码器进行编码,得到第二音频数据的音频特征。
[0146] 将第二音频数据输入音视频重构模型的音频编码器,音频编码器将原始高维数据映射到低维特征空间,获取中间隐含特征,作为第二音频数据的音频特征。
[0147] 请参阅图10,示出了音频编码器的一示例,图10中的音频编码器依次包括:第一卷积层(CNN)、第二卷积层(CNN)、第一池化层(pooling)、第三卷积层(CNN)、第四卷积层(CNN)、第二池化层(pooling)、第五卷积层(CNN)、第六卷积层(CNN)、第三池化层(pooling)、第一全连接层(FC)、第二全连接层(FC)和归一化层(L2 Norm),其中,每个卷积层后都有归一化和ReLU激活函数,第一全连接层(FC)后设置一个ReLU激活函数,可选的,所有的池化层(pooling)均可采用最大值池化(max pooling)。将第二音频数据输入音视频重构模型的音频编码器,第二音频数据依次经各层处理,最终获得第二音频数据的音频特征。
[0148] 步骤S901b:将第二视频数据输入音视频重构模型的视频编码器进行编码,得到第二视频数据的视频特征。
[0149] 将第二视频数据输入音视频重构模型的视频编码器,视频编码器将原始高维数据映射到低维特征空间,获取中间隐含特征,作为第二视频数据的视频特征。
[0150] 视频编码器的结构与音频编码器的结构相同,比如,视频编码器也依次包括第一卷积层(CNN)、第二卷积层(CNN)、第一池化层(pooling)、第三卷积层(CNN)、第四卷积层(CNN)、第二池化层(pooling)、第五卷积层(CNN)、第六卷积层(CNN)、第三池化层(pooling)、第一全连接层(FC)、第二全连接层(FC)和归一化层(L2 Norm)。需要说明的是,视频编码器的结构与音频编码器的结构相同,但二者各层的参数不同。
[0151] 步骤S902:基于音视频重构模型的解码器,将第二音频数据的音频特征与第二视频数据的视频特征融合,并根据融合后特征进行音频数据和视频数据的重构,得到重构的音频数据和视频数据。
[0152] 可采用任意的特征融合方式,将第二音频数据的音频特征与第二视频数据的视频特征融合,比如,可采用拼接的融合方式,即,将第二音频数据的音频特征与第二视频数据的视频特征拼接。
[0153] 可选的,如图11所示,解码器可以包括特征融合模块和多层感知器(MLP),将第二音频数据的音频特征与第二视频数据的视频特征输入特征融合模块进行特征融合,特征融合模块输出的融合后特征输入多层感知器,多层感知器输出重构的音频数据和视频数据。
[0154] 需要说明的是,在音视频重构模型的输入数据为单音频数据时,由于视频编码器无输入,因此,会将视频特征设置为全0,将其与音频特征输入解码器,类似的,在音视频重构模型的输入数据为单视频数据时,由于音频编码器无输入,因此,会将音频特征设置为全0,将其与视频特征输入解码器。另外需要说明的是,在音视频重构模型的输入数据为单音频数据时,解码器依然会对音频数据和视频数据进行重构,同样的,在音视频重构模型的输入数据为单视频数据时,解码器会对音频数据和视频数据进行重构。
[0155] 步骤S903:根据重构的音频数据和视频数据,以及第二音频数据和第二视频数据,确定音视频重构模型的重构损失。
[0156] 具体的,根据重构的音频数据和第二音频数据确定音视频重构模型的音频重构损失,根据重构的视频数据和第二视频数据确定音视频重构模型的视频重构损失,将音视频重构模型的音频重构损失与音视频重构模型的视频重构损失融合(比如将音频重构损失与视频重构损失求和),融合后的重构损失作为音视频重构模型最终的重构损失。
[0157] 可选的,音频重构损失可采用均方误差损失,同样的,视频重构损失也可采用均方误差损失。需要说明的是,本实施例并不限定音频重构损失和视频重构构损失采用均方误差,其它能够表征重构数据与原始数据差异的损失也可。
[0158] 步骤S904:根据确定的损失对音视频重构模型进行参数更新。
[0159] 在一种可能的实现方式中,在获得音视频重构模型的重构损失后,可直接根据音视频重构模型的重构损失对音视频重构模型进行参数更新。
[0160] 为了最终能够获得性能更佳的音频编码器和视频编码器,在另一种可能的实现方式中,除了确定音视频重构模型的重构损失外,还可以确定音视频重构模型的第一距离损失和/或第二距离损失。
[0161] 确定音视频重构模型的第一距离损失的过程可以包括:确定第二音频数据的音频特征服从的概率分布与标准高斯分布之间的距离,以及第二视频数据的视频特征服从的概率分布与标准高斯分布之间的距离,并将获得的两个距离融合,融合后距离作为音视频重构模型的第一距离损失。需要说明的是,第二音频数据的音频特征服从的概率分布由音频编码器确定,第二视频数据的视频特征服从的概率分布由视频编码器确定,第一距离损失用于约束音频编码器和视频编码器的隐空间服从标准高斯分布。
[0162] 可选的,在确定两个分布之间的距离时,可计算两个分布的KL散度,作为两个分布之间的距离。需要说明的是,本实施例并不限定通过计算两个分布的KL散度的方式获得两个分布之间的距离,其它能够获得两个分布之间距离的方式同样适用于本发明。
[0163] 确定音视频重构模型的第一距离损失的过程可以包括:确定第二音频数据的音频特征与第二视频数据的视频特征的距离,作为音视频重构模型的第二距离损失。需要说明的是,第二距离损失用于使音频编码器输出的音频特征与视频编码器输出的视频特征在隐空间对齐,或者说,使音频编码器输出的音频特征与视频编码器输出的视频特征处于同一隐空间。音频特征与视频特征处于同一隐空间,二者能更好地融合。
[0164] 可选的,在确定音频特征与视频特征的距离时,可计算音频特征与视频特征的Wasserstein距离,当然,本实施例并不限定于此,音频特征与视频特征之间的距离还可采用其它距离。
[0165] 在确定出音视频重构模型的重构损失和距离损失(假设确定出了第一距离损失和第二距离损失)后,可将重构损失与距离损失融合,以得到音视频重构模型的总损失,进而,根据音视频重构模型的总损失对音视频重构模型进行参数更新。
[0166] 在将重构损失与距离损失融合时,可将重构损失与距离损失直接求和,也可将重构损失与距离损失加权求和,加权求和的融合方式如下式所示:
[0167] L′total=α1L重构+α2L1距离+α3L2距离    (2)
[0168] 其中,L′total表示音视频重构模型的总损失,L重构表示音视频重构模型的重构损失,L1距离表示音视频重构模型的第一距离损失,L2距离表示音视频重构模型的第二距离损失,α1表示L重构对应的权重,α2表示L1距离对应的权重,α3表示L2距离对应的权重,α1~α3可根据具体场景确定。
[0169] 需要说明的是,若音视频重构模型的输入只有第二音频数据,则可只确定L重构和L1距离,此时的L重构仍然为将音视频重构模型的音频重构损失与音视频重构模型的视频重构损失融合后的损失,此时的L1距离为第二音频数据的音频特征服从的概率分布与标准高斯分布之间的距离。
[0170] 需要说明的是,若音视频重构模型的输入只有第二视频数据,则可只确定L重构和L1距离,此时的L重构仍然为将音视频重构模型的音频重构损失与音视频重构模型的视频重构损失融合后的损失,此时的L1距离为第二视频数据的视频特征服从的概率分布与标准高斯分布之间的距离。
[0171] 上述内容提到,在对音视频重构模型进行训练时,音视频重构模型的输入数据的格式有三种,即输入单音频数据、输入单视频数据、输入音视频数据对,整个训练过程中,三种格式的数据随机数据,本发明并不限定于此,在对音视频重构模型进行训练时,也可采用上述三种格式中的两种或任意一种格式输入数据,比如,整个训练过程中只输入音视频数据对,再比如,整个训练过程中随机输入单音频数据、音视频数据对。
[0172] 使用不同的训练数据对音视频重构模型进行多次训练,直至满足训练结束条件(比如模型收敛,达到预设的训练次数等)。
[0173] 经由上述方式训练得到的音视频重构模型中的音频编码器和视频编码器能够获得具有强相关性的音频特征和视频特征。
[0174] 在训练结束后,便可将训练得到音视频重构模型中的音频编码器和视频编码器作为音频帧分类模型中的音频编码器和视频编码器,在对音频帧分类模型进行训练时,音频编码器和视频编码器的参数可不进行更新,当然,音频编码器和视频编码器的参数也可进行更新。
[0175] 在获得训练好的音频帧分类模型后,便可获取目标数据,并将目标数据输入音频帧分类模型,以得到目标数据包含的目标音频数据的音频帧的分类结果,假设音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据以及第一音频数据对应的第一视频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,则获取目标音频数据和目标音频数据对应的目标视频数据,将目标音频数据和目标音频数据对应的目标视频数据输入音频帧分类模型,音频帧分类模型首先对目标音频数据进行编码,以得到目标音频数据的音频特征,并对目标视频数据进行编码,以得到目标视频数据的视频特征,然后对目标音频数据的音频特征提取多个维度下的音频特征,得到目标音频数据在多个维度下的音频特征,接着,以目标音频数据在多个维度下的音频特征为依据,辅以目标视频数据的视频,预测目标音频数据的音频帧在多个维度下的类别,从而得到目标音频数据的音频帧在多个维度下的分类结果。基于音频帧分类模型预测目标音频数据的音频帧在多个维度下的类别更为具体的过程可参见上述基于音频帧分类模型预测第一音频数据的音频帧在多个维度下的类别的具体过程,本实施例在此不做赘述。
[0176] 在获得目标音频数据的音频帧在多个维度下的分类结果后,可根据目标音频数据的音频帧在语音维度的分类结果,确定目标音频数据中目标语音的端点。在获得目标音频数据中目标语音的端点后,便可获得目标语音段,进而可将其应用于下游任务,比如语音识别任务等。
[0177] 可选的,还可根据目标音频数据的音频帧在指定噪声类型对应的噪声维度下的分类结果,确定目标音频数据中指定类型的噪声的噪声端点。在获得目标音频数据中指定类型的噪声的噪声端点后,可获得指定类型的噪声段(比如干扰语音段),进而将其应用于下游任务。
[0178] 本发明实施例还提供了一种语音端点检测装置,下面对本发明实施例提供的语音端点检测装置进行描述,下文描述的语音端点检测装置与上文描述的语音端点检测方法可相互对应参照。
[0179] 请参阅图12,示出了本发明实施例提供的语音端点检测装置的结构示意图,可以包括:数据获取模块1201、音频帧分类模块1202和语音端点确定模块1203。
[0180] 数据获取模块1201,用于获取目标数据,其中,所述目标数据包括目标音频数据。
[0181] 音频帧分类模块1202,用于将所述目标数据输入预先训练得到的音频帧分类模型,得到所述目标音频数据的音频帧的分类结果。
[0182] 其中,所述音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据为训练样本,以所述第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,所述多个维度包括语音维度和所述若干噪声类别分别对应的噪声维度,一音频帧在所述语音维度下的真实类别为语音帧、非语音帧中的一种,一音频帧在一噪声类别对应的噪声维度下的真实类别为该噪声类别的噪声帧、非该噪声类别的噪声帧中的一种。
[0183] 语音端点确定模块1203,用于根据所述目标音频数据的音频帧的分类结果,确定所述目标音频数据中目标语音的语音端点。
[0184] 本发明实施例提供的语音端点检测装还可以包括音频帧分类模型训练模块。音频帧分类模型训练模块,用于:
[0185] 基于音频帧分类模型对所述第一音频数据进行编码,得到所述第一音频数据的音频特征;
[0186] 基于音频帧分类模型从所述第一音频数据的音频特征中提取所述多个维度下的音频特征,其中,语音维度下的音频特征为所述第一音频数据中目标语音的音频特征,一噪声类别对应的噪声维度下的音频特征为所述第一音频数据中该噪声类型的噪声的音频特征;
[0187] 以所述多个维度下的音频特征为依据,基于音频帧分类模型对所述第一音频数据的音频帧在所述多个维度下的类别进行预测,得到所述第一音频数据的音频帧在所述多个维度下的类别预测概率;
[0188] 根据所述第一音频数据的音频帧在所述多个维度下的类别预测概率以及所述第一音频数据的音频帧在所述多个维度下的真实类别,对音频帧分类模型进行参数更新。
[0189] 可选的,所述目标数据还包括所述目标音频数据对应的目标视频数据;所述第一音频数据对应有第一视频数据。
[0190] 音频帧分类模型训练模块还用于基于音频帧分类模型对所述第一视频数据进行编码,得到所述第一视频数据的视频特征。
[0191] 音频帧分类模型训练模块在以所述多个维度下的音频特征为依据,基于音频帧分类模型对所述第一音频数据的音频帧在所述多个维度下的类别进行预测时,具体用于:
[0192] 以所述多个维度下的音频特征为依据,辅以所述第一视频数据的视频特征,基于音频帧分类模型对所述第一音频数据的音频帧在所述多个维度下的类别进行预测。
[0193] 音频帧分类模型训练模块在以所述多个维度下的音频特征为依据,辅以所述第一视频数据的视频特征,基于音频帧分类模型对所述第一音频数据的音频帧在所述多个维度下的类别进行预测时,具体用于:
[0194] 针对每个维度:
[0195] 基于音频帧分类模型计算该维度下的音频特征与所述第一视频数据的视频特征的相关度,作为该维度下的音频特征对应的权重,并用该维度下的音频特征对应的权重对该维度下的音频特征加权,得到该维度下的加权后音频特征;
[0196] 以该维度下的加权后音频特征为依据,基于音频帧分类模型对所述第一音频数据的音频帧在该维度下的类别进行预测。
[0197] 音频帧分类模型训练模块在根据所述第一音频数据的音频帧在所述多个维度下的类别预测概率以及所述第一音频数据的音频帧在所述多个维度下的真实类别,对音频帧分类模型进行参数更新时,具体用于:
[0198] 针对每个维度,根据所述第一音频数据的音频帧在该维度下的类别预测概率和所述第一音频数据的音频帧在该维度下的真实类别,确定音频帧分类模型在该维度下的类别预测损失;
[0199] 将音频帧分类模型在所述多个维度下的类别预测损失融合,得到融合后类别预测损失;
[0200] 根据所述融合后类别预测损失,对音频帧分类模型进行参数更新。
[0201] 可选的,所述音频帧分类模型包括音频编码器和视频编码器;所述音频编码器和所述视频编码器采用预先训练得到的音视频重构模型中的音频编码器和视频编码器;
[0202] 所述音视频重构模型采用第二音频数据和所述第二音频数据对应的第二视频数据训练得到,其中,所述第二音频数据为无噪声的音频数据;
[0203] 所述音视频重构模型的训练目标包括:使根据音频编码器对所述第二音频数据进行编码得到的音频特征和/或视频编码器对所述第二视频数据进行编码得到的视频特征重构的音频数据和视频数据,与所述第二音频数据和所述第二视频数据趋于一致。
[0204] 可选的,在对所述音视频重构模型进行训练时,所述音视频重构模型的输入数据的格式为如下三种中的一种或多种:单音频数据、单视频数据、音视频数据对;
[0205] 本发明实施例提供的语音端点检测装还可以包括音视频重构模型训练模块。音视频重构模型训练模块,用于:
[0206] 将所述第二音频数据输入音视频重构模型的音频编码器进行编码,得到所述第二音频数据的音频特征,并将所述第二视频数据输入音视频重构模型的视频编码器进行编码,得到所述第二视频数据的视频特征;
[0207] 基于音视频重构模型的解码器,将所述第二音频数据的音频特征与所述第二视频数据的视频特征融合,并根据融合后特征进行音频数据和视频数据的重构,得到重构的音频数据和视频数据;
[0208] 根据重构的音频数据和视频数据,以及所述第二音频数据和所述第二视频数据,确定音视频重构模型的重构损失;
[0209] 根据所述重构损失,对音视频重构模型进行参数更新。
[0210] 可选的,音视频重构模型训练模块还用于:
[0211] 确定所述第二音频数据的音频特征服从的概率分布与标准高斯分布之间的距离,以及所述第二视频数据的视频特征服从的概率分布与标准高斯分布之间的距离,并将获得的两个距离融合,融合后距离作为音视频重构模型的第一距离损失;
[0212] 和/或,确定所述第二音频数据的音频特征与所述第二视频数据的视频特征的距离,作为音视频重构模型的第二距离损失;
[0213] 音视频重构模型训练模块在根据所述重构损失,对音视频重构模型进行参数更新时,具体用于:
[0214] 根据所述第一距离损失和/或所述第二距离损失,以及所述重构损失,对音视频重构模型进行参数更新。
[0215] 所述目标音频数据的音频帧的分类结果包括:所述目标音频数据的音频帧在语音维度下的分类结果。
[0216] 语音端点确定模块1203在根据所述目标音频数据的音频帧的分类结果,确定所述目标音频数据中目标语音的端点时,具体用于根据所述目标音频数据的音频帧在语音维度下的分类结果,确定所述目标音频数据中目标语音的语音端点。
[0217] 所述目标音频数据的音频帧的分类结果包括:所述目标音频数据的音频帧在所述若干噪声类别分别对应的噪声维度下的分类结果。
[0218] 可选的,本发明实施例提供的语音端点检测装还可以包括噪声端点确定模块。
[0219] 噪声端点确定模块,用于根据所述目标音频数据的音频帧在指定噪声类型对应的噪声维度下的分类结果,确定所述目标音频数据中指定类型的噪声的噪声端点。
[0220] 本发明实施例提供的语音端点检测装置,首先获取包括目标音频数据的目标数据,然后将目标数据输入预先训练得到的音频帧分类模型,以得到目标音频数据的音频帧的分类结果,最后根据目标音频数据的音频帧的分类结果,确定目标音频数据中目标语音的语音端点,本发明实施例中的音频帧分类模型以带有一种或多种噪声的第一音频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,一方面,样本标签包含第一音频数据的音频帧在语音维度下的真实类别,能够有针对性的对音频帧分类模型在语音维度的分类能力进行训练,如此能够使音频帧分类模型关注音频数据中的语音信息,从而准确地对音频帧进行语音帧、非语音帧的分类,另一方面,样本标签包含噪声维度的真实类别,能够对音频帧分类模型在噪声维度的分类能力进行训练,在对音频帧分类模型在语音维度的分类能力进行训练的同时,对其在噪声维度的分类能力进行训练,能够更加充分、多方面地对音频帧分类模型进行参数校正,从而使音频帧分类模型的音频帧分类性能更强,进而,基于训练得到的音频帧分类模型对目标音频数据的音频帧进行分类时,能够获得准确的分类结果,在准确的音频帧分类结果的基础上,可获得准确的语音端点。
[0221] 本发明实施例还提供了一种语音端点检测设备,请参阅图13,示出了该语音端点检测设备的结构示意图,该语音端点检测设备可以包括:至少一个处理器1301,至少一个通信接口1302,至少一个存储器1303和至少一个通信总线1304;
[0222] 在本发明实施例中,处理器1301、通信接口1302、存储器1303、通信总线1304的数量为至少一个,且处理器1301、通信接口1302、存储器1303通过通信总线1304完成相互间的通信;
[0223] 处理器1301可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0224] 存储器1303可能包含高速RAM存储器,也可能还包括非易失性存储器(non‑volatile memory)等,例如至少一个磁盘存储器;
[0225] 其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0226] 获取目标数据,其中,所述目标数据包括目标音频数据;
[0227] 将所述目标数据输入预先训练得到的音频帧分类模型,得到所述目标音频数据的音频帧的分类结果,其中,所述音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据为训练样本,以所述第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,所述多个维度包括语音维度和所述若干噪声类别分别对应的噪声维度;
[0228] 根据所述目标音频数据的音频帧的分类结果,确定所述目标音频数据中目标语音的语音端点。
[0229] 可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0230] 本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
[0231] 获取目标数据,其中,所述目标数据包括目标音频数据;
[0232] 将所述目标数据输入预先训练得到的音频帧分类模型,得到所述目标音频数据的音频帧的分类结果,其中,所述音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据为训练样本,以所述第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,所述多个维度包括语音维度和所述若干噪声类别分别对应的噪声维度;
[0233] 根据所述目标音频数据的音频帧的分类结果,确定所述目标音频数据中目标语音的语音端点。
[0234] 可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0235] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0236] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0237] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页 第1页 第2页 第3页
相关技术
方法装置相关技术
检测方法相关技术
陈洁茹发明人的其他相关专利技术