首页 / 离线语音识别的阈值自适应调整方法

离线语音识别的阈值自适应调整方法有效专利 发明

技术领域

[0001] 本发明涉及语音识别技术领域,特别涉及一种离线语音识别的阈值自适应调整方法。

相关背景技术

[0002] 在语音识别领域,有着良好表现的都是运算能力强、存储空间大的在线识别,而离线语音识别由于受到硬件性能的限制,往往用于限定范围内语音识别,在需要识别的语音有限时的表现较好,而在用于一般情况的识别时,识别率会明显降低。
[0003] 目前,由于硬件的限制,离线语音识往往不会考虑被识别的语音中的噪音情况等,往往用相同的设定去识别不同背景噪音下的语音,如将识别引擎返回结果的打分值与固定的阈值进行比较,以此决定识别结果是否可用,从而一定程度上影响了语音识别的准确性,导致容易出现误识别或识别率低的问题。

具体实施方式

[0033] 以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0034] 图1为本发明实施例中一种离线语音识别的阈值自适应调整方法的流程图,如图1所示,包括步骤:
[0035] 步骤S101、设定基础阈值和补偿阈值,其中,基础阈值包括第一阈值和第二阈值,所述第一阈值,与补偿阈值之和用于进行第一次语音识别;所述第二阈值,与补偿阈值之和用于进行第二次语音识别;
[0036] 步骤S102、根据所设定的基础阈值和补偿阈值,对所有待识别目标进行语音识别第一次语音识别和第二次语音识别;
[0037] 步骤S103、统计识别结果整体的第二次语音识别的识别命中比率;
[0038] 步骤S104、当所述整体的第二次语音识别的识别命中比率处于第一预设范围之外时,调整基础阈值,使所述整体的第二次语音识别的识别命中比率处于第一预设范围之内;
[0039] 步骤S105、统计识别结果中的每个单一识别目标的第二次语音识别的识别命中比率;
[0040] 步骤S106、当存在某个单一识别目标的第二次语音识别的识别命中比率处于第二预设范围之外时,调整用于所述单一识别目标的补偿阈值,使所述单一识别目标的第二次语音识别的识别命中比率处于第二预设范围之内。
[0041] 通过将识别引擎返回结果的打分值与阈值(基础阈值与补偿阈值之和)进行比较,并根据第二次语音识别的识别命中比率(第二次语音识别成功识别的数量与第一次语音识别成功识别的数量之比)来调整基础阈值和/或补偿阈值的值,从而实现了对阈值的动态调整,能够使自动地调整阈值,从而能够提高离线语音识别的识别率,尤其是在不同的识别环境和人声输入场景下,具有明显的效果。
[0042] 在本发明的一个实施例中,所述调整基础阈值,使所述整体的第二次语音识别的识别命中比率处于第一预设范围之内,具体实施为,
[0043] 当所述整体的第二次语音识别的识别命中比率小于第一预设范围的下限时,提高基础阈值,使所述整体的第二次语音识别的识别命中比率处于第一预设范围之内;
[0044] 当所述整体的第二次语音识别的识别命中比率大于第一预设范围的上限时,降低基础阈值,使所述整体的第二次语音识别的识别命中比率处于第一预设范围之内。
[0045] 由于调整基础阈值的影响较大,而调整补偿阈值的计算量又过大,因此为了平衡基础阈值和补偿阈值的影响,减少调整补偿阈值的计算量,因此增加第二预设范围的大小,在本发明的一个实施例中,所述第二预设范围,其下限为0。
[0046] 由于调整基础阈值的影响较大,而调整补偿阈值的计算量又过大,因此为了平衡基础阈值和补偿阈值的影响,减少调整补偿阈值的计算量,因此增加第二预设范围的大小,在本发明的一个优选实施例中,所述调整用于所述单一识别目标的补偿阈值,使所单一识别目标的第二次语音识别的识别命中比率处于第二预设范围之内,具体实施为,[0047] 当某个单一识别目标的第二次语音识别的识别命中比率大于第二预设范围的上限时,降低用于所述单一识别目标的补偿阈值,使所述单一识别目标的第二次语音识别的识别命中比率处于第二预设范围之内。
[0048] 为了尽量减少调整补偿阈值的次数,在本发明的一个实施例中,所述补偿阈值,其初始值为0。
[0049] 为了降低调整阈值时的计算复杂度,用线性(原基础阈值与较优的基础阈值之差与第一差值成比例)的估计来确定较优的基础阈值,往往不需要进行较多步骤的迭代即可找到较优的基础阈值,使计算量降低,在本发明的一个实施例中,
[0050] 所述提高基础阈值,具体实施为,
[0051] 比较当前的整体的第二次语音识别的识别命中比率与第一预设范围的中值,得到其差值的绝对值,作为第一差值;
[0052] 用所述第一差值乘以预设的第一调整因子,作为基础阈值的第一调整系数,所述第一调整因子为正值;
[0053] 用所述基础阈值的第一调整系数乘以原基础阈值,并与原基础阈值相加,得到新的基础阈值;
[0054] 所述降低基础阈值,具体实施为,
[0055] 比较当前的整体的第二次语音识别的识别命中比率与第一预设范围的中值,得到其差值的绝对值,作为第二差值;
[0056] 用所述第二差值乘以预设的第二调整因子,作为基础阈值的第二调整系数,所述第二调整因子为负值;
[0057] 用所述基础阈值的第二调整系数乘以原基础阈值,并与原基础阈值相加,得到新的基础阈值。
[0058] 通过本发明的方法,能够在不同的识别环境和人声输入场景下,自动地调整阈值,从而能够提高离线语音识别的识别率。
[0059] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0060] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0061] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0062] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页 第1页 第2页 第3页