首页 / 语谱图互相关的驾驶员汉语语音控制系统

语谱图互相关的驾驶员汉语语音控制系统失效专利 实用

技术领域

[0001] 本实用新型涉及一种应用于机动车辆上的驾驶员专用汉语语音识别控制装置和方法,更具体地说,本实用新型涉及一种语谱图互相关的车内驾驶员专用汉语语音识别控制系统。

相关背景技术

[0002] 随着汽车在我国的普及和汽车技术的不断进步,人们对于车辆的认识和要求不再局限于简单的交通工具,而是更多着眼于其舒适性、安全性和其多种多样的便捷的智能功能。车内语音识别与控制技术是智能汽车的重要核心技术之一,可被应用在汽车上实现智能操作,通过识别驾驶者的发音,由语音命令代替手动对一些汽车车载电子设备进行语音控制,将驾驶员的手部操作尽量降低,减少驾驶员注意力的分散,有利于提高行车的安全性和便捷性。
[0003] 目前已有一些应用于车内环境下的语音识别控制系统可见报导,但分析可查询的汽车车载语音识别控制问题研究报道特别是国内可见文献存在以下问题:
[0004] 1.所涉及的多为非汉语语音识别领域新方法、新技术向汽车环境的简单移植和使用,对于与英语等语言有着显著差异的汉语指令特点未给予足够的重视和应用;
[0005] 2.多是非特定人识别控制系统,对指令发出人没有限制,实际工作中极易干扰驾驶员驾驶,不利于行车安全。
[0006] 3.成员间语言交流中与语音识别控制系统指令库中指令重合发生概率较大,易引起系统误操作。
[0007] 4.语音识别算法以单音素或单音节为单位,取10-20ms长的语音帧,逐帧处理,较大的运算量使处理速度的提高变得较为困难,且识别系统的泛化程度较难控制。
[0008] 5.前人虽有唇语识别技术使用,但多是用唇语识别辅助语音识别,主要目的在于提高识别率,且由此引起运算量大、运算时间长等问题。

具体实施方式

[0027] 下面结合附图对本实用新型作详细的描述:
[0028] 本实用新型的宗旨是克服现有车内语音识别控制方法存在的未本土化、指令发出者无限制和指令误读误操作问题,提供一种基于语谱图互相关技术的车内驾驶员专用汉语语音识别控制系统。同时提供了采用这种系统控制汽车车载电子设备的方法。
[0029] 一.语谱图互相关的车内驾驶员专用汉语语音识别控制系统的结构组成:
[0030] 参阅图1至图3,本实用新型所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统是由硬件和计算机程序的功能模块构架两大部分所组成。硬件部分是由专用汉语语音识别控制装置1、硅麦克风(音频采集设备)2、红外线CCD摄像头(视频采集设备)3和汽车车载电子设备4组成。硅麦克风2、红外线CCD摄像头3与汽车车载电子设备4分别和专用汉语语音识别控制装置1电连接。
[0031] 所述的专用汉语语音识别控制装置1主要由德州仪器公司生产的型号为TMS320C6410的DSP芯片11、飞利浦公司生产的型号为SAA7111H的视频AD模块芯片12、Averlogic公司生产的型号为AL422B的同步FIFO芯片13、德州仪器公司生产的型号为TLV320AIC23的语音编解码芯片14、XILINX公司生产的型号为XC9536XLVQ44的CPLD芯片
15、1号继电器16及2号继电器17组成。
[0032] 所述的型号为TLV320AIC23的语音编解码芯片14包括有耳机输出放大器、模/数转换(ADC)和数/模转换(DAC)部件;驾驶员面前的硅麦克风2的输出端与型号为TLV320AIC23的语音编解码芯片14的DIN引脚电连接;型号为TLV320AIC23的语音编解码2
芯片14的DOUT引脚与型号为TMS320C6410的DSP芯片11的多通道缓冲串口及IC总线
电连接;所述的驾驶员面前的红外线CCD摄像头3的输出端与型号为SAA7111H的视频AD模块芯片12的CVBS引脚电连接,传送CVBS信号;型号为SAA7111H的视频AD模块芯片12的VPO0-7输出引脚与型号为AL422B的同步FIFO芯片13的DI0-7输入引脚电连接;型号为AL422B的同步FIFO芯片13的DO0-7输出引脚与型号为TMS 320C6410的DSP芯片11
内的FIFO接口电连接;所述的型号为XC9536XLVQ44的CPLD芯片15和型号为SAA7111H的视频AD模块芯片12、型号为AL422B的同步FIFO芯片13与型号为TMS320C6410的DSP芯片11通过通用I O引脚电连接;型号为TMS320C6410的DSP芯片11的GP0[0]与GP0[3]引脚分别和1号继电器16与2号继电器17的输入端电连接,1号继电器16与2号继电器
17的输出端分别和汽车车载电子设备4中的后备箱锁4b与空调4a电连接。
[0033] 计算机程序部分可以描述为由一组实现计算机程序所记载的技术方案的功能模块所组成的功能模块构架。更具体地说,本实用新型所涉及的计算机程序的功能模块构架由专用汉语语音识别控制单元1a和驾驶员唇语开关单元1b组成。
[0034] 参阅图2,所述的专用汉语语音识别控制单元1a包括存储前一时间段的车内声音信号的音频缓存区、减少噪声影响的背景噪声抑制模块、生成语谱图的短时傅里叶模块、判别有无“打开”或“关闭”语音指令关键词发出的关键词判别模块、判别指令控制对象的汽车车载电子设备判别模块。所述的音频缓存区、背景噪声抑制模块、短时傅里叶模块、关键词判别模块与汽车车载电子设备判别模块设置在型号为TMS320C6410的DSP芯片11上,采用片上数据线连接,综合作用实现关键词和指令控制对象的识别和确定。
[0035] 所述的驾驶员唇语开关单元1b包括实现视频AD转换的视频编解码模块、缓冲一帧视频数据的FIFO模块、描述唇部内外轮廓的唇动检测与跟踪模块、确定有无唇部动作的唇动定位模块。
[0036] 视频编解码模块设置在型号为SAA7111H的视频AD模块芯片12上,FIFO模块装置在型号为AL422B的同步FIFO芯片13上,唇动检测与跟踪模块和唇动定位模块均装置在型号为TMS320C6410的DSP芯片11上。视频编解码模块通过所在的型号为SAA7111H的视频AD模块芯片12的VPO0-7输出引脚与FIFO模块所在的型号为AL422B的同步FIFO芯片13的DI0-7输入引脚电连接;FIFO模块通过所在的型号为AL422B的同步FIFO芯片13的输出引脚和唇动检测与跟踪模块及唇动定位模块所在的型号为TMS320C6410的DSP芯片11内的FIFO接口电连接,唇动检测与跟踪模块和唇动定位模块间采用片上数据线连接。
[0037] 语谱图互相关的驾驶员汉语语音控制系统设计为两个识别阶段并使用了基于图像互相关技术的语音识别算法,即采用了如上所述的计算机程序部分。
[0038] 二.采用本实用新型所述的语谱图互相关的车内驾驶员专用汉语语音识别控制系统实现语音控制汽车车载电子设备的方法包括如下步骤(参阅图1至图4):
[0039] 1.在汽车上合理布置语谱图互相关的车内驾驶员专用汉语语音识别控制系统,尤其是合理布置专用汉语语音识别控制装置1、硅麦克风2、红外线CCD摄像头3和汽车车载电子设备4。专用汉语语音识别控制装置1安装在车内仪表板上,红外线CCD摄像头3和硅麦克风2安装在仪表板正对驾驶员无其它设备处。
[0040] 2.建立语谱图互相关的车内驾驶员专用汉语语音识别控制系统的语音指令库,规定“打开”和“关闭”为语音指令关键词,“空调”和“后备箱”等为具体的汽车车载电子设备4(即指令控制对象)的名称。
[0041] 3.以驾驶员面前的硅麦克风2采集若干帧车内声音信号,送入专用汉语语音识别控制装置1中开辟的音频缓存区。
[0042] 4.以驾驶员面前昼夜工作的红外线CCD摄像头3采集驾驶员唇部图像送入驾驶员唇语开关单元1b,经视频编解码、FIFO缓冲、唇动检测与跟踪及唇动定位等环节,确定驾驶员口唇部是否有动作。
[0043] 5.确定驾驶员口唇部有动作时,发出信号激活专用汉语语音识别控制单元1a。提取音频缓存区中存储的前一时间段的车内声音信号,送入背景噪声抑制模块。
[0044] 6.对提取的车内声音信号,以数字带通滤波器和谱相减法为核心,抑制背景噪声的同时增强语音。
[0045] 7.对经过背景噪声抑制处理后的声信号,进行短时傅里叶分析。得到语谱图后,送入关键词判别环节,进行第一阶段语音识别,用驾驶员语音“打开”、“关闭”语谱图模板作为动词识别模板,利用图像互相关方法对照动词关键词语谱图模板,快速监测车内有无预设规定的“打开”或“关闭”语音指令关键词发出,决定控制开关(打开/关闭)状态。
[0046] 8.若有关键词检出则将声音信号作为疑似语音指令,送入汽车车载电子设备4判别环节,进行第二阶段语音识别,用驾驶员语音“导航”、“后备箱锁4b”、“前左侧窗”、“收音机”、“空调4a”、------等语谱图模板作为名词识别模板,利用图像互相关方法对照汽车车载电子设备4名称语谱图模板,快速监测疑似指令中有无指令库中规定的汽车车载电子设备4名称及发出汽车车载电子设备4名称内容的确定,识别指令中需要控制的目标汽车车载电子设备4,鉴别指令控制对象(导航/后备箱锁4b/前左侧窗/收音机/空调4a、---)以决定控制指向。
[0047] 以“打开”、“导航”为例,说明语谱图互相关的算法。设疑似语音语谱图为M×N灰度图像矩阵A,矩阵的行对应语谱图中的频率轴,矩阵的列对应语谱图中的时间轴,第i行、第j列元素值就是时刻j时第i个频率成分的幅频强度。
[0048] 1)语谱图预处理:将语谱图零均值化,即将图像矩阵各元素值与图像灰度均值做差;
[0049] 2)设驾驶员“打开”语音语谱图为M×N1灰度图像矩阵A1,且已经零均值化,其中N1<N。做A与A1的二维圆周互相关:
[0050]
[0051] 其中,m=0,1,2,Λ,M,n=0,1,2,Λ,N。若疑似语音中含有驾驶员的“打开”指令语音,那么,R(m,n)一定含有至少一个足够大的极值。设定一个阈值R0,当R(m0,n0)≥R0时,即可认定疑似语音中含有驾驶员的“打开”命令。
[0052] 实际上m和n的取值范围不一定很大,当满足R(m0,n0)≥R0时,即可停止互相关运算。
[0053] 3)由2)的结论,若已经确定疑似语音为驾驶员控制指令,按公式(1)中算法,将驾驶员的“导航”、“后备箱锁4b”、“前左侧窗”、“收音机”、“空调4a”、------等等语谱图模板(已零均值化)分别与疑似语音语谱图做二维圆周互相关,确定控制对象。
[0054] 上述算法中,语音采样率取10kHz(系统加前置抗混滤波器),语谱图取带宽为20Hz的窄带傅里叶语谱图(512点FFT),时间分析窗口51ms,时间窗口总长度由端点检测结果确定。
[0055] 本实用新型所述的图像处理手段不仅限于互相关分析,还可以采用诸如纹理分析、边缘检测、形状分析、小波语谱图、Mel语谱图等其他图像处理技术。且非单人使用时可采用多组模块逻辑或结构进一步扩展到特定人组。
[0056] 9.确定疑似语音指令中含有语音指令库中存储的汽车车载电子设备4名称后,由专用汉语语音识别控制装置1按照指令中的动词通过控制继电器16与继电器17开合,以实现对汽车车载电子设备4中的空调4a或/和后备箱锁4b等目标汽车车载电子设备4的操作。

当前第1页 第1页 第2页 第3页
相关技术
图互相关技术
控制系统相关技术
曹晓琳发明人的其他相关专利技术