技术领域
[0001] 本发明涉及的是一种图像处理和模式识别技术领域的方法,特别是一种实时动态嘴唇跟踪方法。
相关背景技术
[0002] 近年来,自动化语音识别技术(Automatic speech recognition,ASR)取得了长足的进步,并形成了一系列较为成熟的产品,能够在信噪比较高的环境下得到较好的识别效果。 然而,这些系统的性能往往受制于背景噪声的程度,在重噪声环境下,如车内、工厂、机场等等,这些系统所取得的效果常常不能令人满意。 于是,越来越多的学者从音频以外的信源寻求提高语音识别效果的方法。McGurk效应(the McGurk effect)揭示了说话人讲述过程中声/视觉信息之间存在着密不可分的内在联系。 因此,人们想到通过引入嘴唇运动这一视觉信息,辅助完成对于讲述内容的理解,该类语音识别系统称为自动化唇读系统。 在上述系统中,首要并且最为关键的一个步骤是准确、快速地从视频中获取嘴唇运动变化情况,即实时嘴唇跟踪方法。 其准确性和可靠性往往直接决定了一个唇读系统的性能优劣。
[0003] 经过对现有技术文献的检索发现,A.Caplier在第11届国际图像分析和处理大会(Proceedings of 11th International Conference on Image Analysis and Processing,page 8-13)上发表的“嘴唇区域检测和跟踪”(Lip detection and tracking),该文采用亮度边缘强度为检测嘴唇轮廓的标准,通过迭代的方法将嘴唇边缘收敛至最强边缘处。 同时在合理嘴唇模型的限定下,保证了最终得到嘴唇模型的合理性。 该技术的不足在于:第一,这是一种针对灰度(亮度)图像的嘴唇跟踪技术,由于缺乏色度信息,受光照情况影响较大;第二,该技术是依据嘴唇图像的亮度边缘,而边缘信息取决于图像的对比度,并且未化妆的嘴唇图像往往是低对比度的,造成边缘信息的不稳定。 基于以上两点,该技术的准确性和鲁棒性都有待提高。
具体实施方式
[0033] 下面结合附图对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0034] 如图1所示,本实施例包括如下步骤:
[0035] 第一步,通过数码摄像机以每秒24帧的帧率采集包含嘴唇区域在内的嘴唇图像序列,每帧图像格式为RGB,分辨率为220*180。 并将其转化为CIE-LAB均匀色彩空间,具体如下:
[0036]
[0037]
[0038]
[0039]
[0040] 其中,
[0041] 第二步,通过基于模糊聚类和卡尔曼预测的连续图像嘴唇分割方法,将图像中所有像素点分为嘴唇像素点或非嘴唇像素点,并输出所有像素点属于嘴唇像素点的概率。 具体方法如下:
[0042] 对于一幅220*180的图像I,X={x1,1, …,xr,s, …,xN,M}代表图像中所q有像素点的颜色信息集合,其中xr,s∈R 代表位于坐标(r,s)像素点的Lab三维颜色特征。 另外,设di,r,s为颜色特征xr,s与第i个颜色中心vi(i=0代表嘴唇类,i=1代表非嘴唇类)之间的欧式距离。 最后,整个基于模糊聚类技术的嘴唇分割算法目标函数如下:
[0043]
[0044] 并服从 其中,U代表模糊隶属度矩阵(即像素点属于某一类的概率值),gs函数为位置惩罚函数,即增强处于嘴唇区域内像素点的嘴唇类隶属度,降低处于嘴唇区域外像素点的嘴唇隶属度。 整个嘴唇分割过程即采用梯度下降的迭代方式求得使目标函数最小的隶属度矩阵最优解。
[0045] 卡尔曼预测的作用为通过前若干帧的色彩中心和嘴唇空间位置来预测当前帧的嘴唇/非嘴唇色彩中心和嘴唇空间位置。 最终输出结果为图像中所有像素点属于嘴唇类的概率,即
[0046] 所述对色彩中心和嘴唇空间位置的卡尔曼预测,具体为:
[0047] xk=Axk-1+wk-1
[0048] zk=Hxk+vk
[0049] 其中,xk表示当前状态,wk-1表示状态转移时候的噪声。 而A则是状态转移矩阵;zk表示当前时刻测量值(即色彩中心和嘴唇空间位置参数),而vk则表示测量误差,H是测量矩阵。 状态转移误差和测量误差通常被认为是符合正态分布:p(w)~N(0,Q);p(v)~N(0,R)。 卡尔曼滤波预测的计算是一个迭代递归的过程,具体如下:
[0050] 1)初始状态和初始估计误差协方差初始化;
[0051] 2)根据前一步的状态对当前状态进行预测,同时使用H测量函数就可以通过预测状态获得预测的测量值,该测量值就是所需要的经过卡尔曼滤波后的修正结果;
[0052] 3)根据当前观测的测量值对系统模型进行修正,将当前帧测量值的最终输出输入修正过程,对系统模型进行修正;
[0053] 4)重复步骤2)和3)直至嘴唇序列的最后一帧。
[0054] 第三步,通过14点动态形状模型和卡尔曼预测,在第二步提供的嘴唇概率分布图的基础上,获取嘴唇图像序列中每一帧中的嘴唇轮廓,具体如下:
[0055] 定义目标函数为:
[0056]
[0057] 其中λp为14点嘴唇轮廓参数,R1为嘴唇区域,Rb1为非嘴唇区域。 prob1为嘴唇类概率,probm1为非嘴唇类概率。 通过迭代搜索,获取最终的嘴唇轮廓模型λp。 卡尔曼预测的作用为通过前若干帧的嘴唇轮廓点来预测当前帧的初始嘴唇模型,方法同步骤二中所述相似,区别在于测量值为14点嘴唇轮廓坐标值。
[0058] 所述迭代搜索方法,其体为:
[0059] ①通过嘴唇图像分割算法获取的嘴唇类概率分布,初始化14点嘴唇模型λp。
[0060] ②根据目标函数,计算嘴唇轮廓点的位移并更新轮廓点位置:
[0061]
[0062] λp,new=λp,old+wΔλp
[0063] 其中,w是每次偏移的步长,实例中设为0.05。
[0064] ③重复步骤2直至目标函数收敛。
[0065] 本实施例方法通过对50个讲话人近2000余个讲话序列进行测试,本实施例对嘴唇轮廓进行准确跟踪的同时,在保证处理速度大于每秒30帧。