技术领域
[0001] 本发明的技术方案涉及用于识别图形的记录载体的处理,具体地说是将人脸表情识别和语音情感识别融合的视频情感识别方法。
相关背景技术
[0002] 随着人工智能和计算机视觉技术的飞速发展,人机交互技术日新月异,利用计算机进行的人类情感识别技术已经受到了广泛的关注,如何使计算机更加快速准确地识别人类情感成为了当下机器视觉领域的研究热点。
[0003] 人类的情感表达方式是多种多样的,主要有人脸表情、语音情感、上身姿态和语言文本等。其中,人脸表情和语音情感是两种最为典型的情感表达方式。由于人脸的纹理和几何特征比较容易提取,基于人脸表情的情感识别方法在当今情感识别领域已经能够达到较高的识别率。然而,在一些表情相似的情况下,例如生气与厌恶,害怕与惊讶,它们的纹理特征和几何特征较为相似,仅仅通过提取人脸表情的特征进行识别的方法识别率不高。
[0004] 单一模态的情感识别方法往往会存在一定局限性,双模态或多模态的情感识别方法越来越成为情感识别研究领域研究和关注的热点。多模态情感识别方法的关键在于多种模态的融合方式,其中主流的融合方式有特征级融合方式和决策级融合方式。
[0005] 2012年,Schuller等人在论文“AVEC:the continuous audio/visual emotion challenge”中将音频和视频特征级联为单个特征向量,并使用支持向量回归SVR作为AVEC 2012挑战中的基线,该特征级融合方法将多模态特征进行直接级联构建联合特征矢量。由于多模态特征数量庞大极易造成维度灾难,高维特征很容易受到数据稀疏问题的困扰,考虑到特征之间的相互作用,在特征级融合方式中结合音频特征和视频特征的优点将受到限制。
[0006] 决策级融合方式是指多种情感表达方式可以首先由对应的分类器进行建模,然后每个分类器的识别结果融合在一起形成基于决策级融合方式,在不增加维数的情况下,通过不同的情感表达的贡献度来组合不同的模式。Seng等人在论文“A combined rule-based&machine learning audio-visual emotion recognition approach”中将视听情感识别分成两个相互独立的路径分别提取特征,然后分别在各自分类器上建模,求出各自对应的识别率,最后根据比例评分机制和相应的权重分配得到最终的识别率。现有的决策级融合方式的缺点主要有两点,第一:比例评分机制和权重分配策略缺乏统一权威的标准,不同的研究者按照多样的比例评分机制和不同的权重分配策略往往在同一研究项目上得到不同的识别结果;第二:决策级融合方式侧重人脸识别和语音识别结果的融合,忽略了人脸特征和语音特征之间的内在联系。
[0007] CN106529504A公开了一种复合时空特征的双模态视频情感识别方法,将现有体积局部二值模式算法扩展成时空三值模式,获取人脸表情和上身姿态的时空局部三值模式矩纹理特征,进一步融合三维梯度方向直方图特征来增强对情感视频的描述,将两种特征组合成复合时空特征,该方法存在当视频中人物上身姿态变化较快或是上身姿态画面缺失时会影响到其算法的实现,因此结合人脸表情和上身姿态的双模态视频情感识别方法在特征提取方面存在一定的局限性。
[0008] CN105512609A公开了一种基于核超限学习机的多模态融合视频情感识别方法,对视频的图像信息和音频信息进行特征提取、特征选择,从而获得视频特征;将采集的多通道脑电信号进行预处理、特征提取和特征选择,从而获得脑电特征;建立基于核超限学习机的多模融合视频情感识别模型;将视频特征和脑电特征输入到基于核超限学习机的多模融合视频情感识别模型中进行视频情感识别,得出最终的分类正确率。然而,该算法存在仅对三类视频情感数据分类识别率高,可用性欠高的缺陷。
[0009] CN103400145B公开了一种基于线索神经网络的语音-视觉融合情感识别方法,该方法首先分别使用人的正面脸部表情、侧面脸部表情和语音三个通道的特征数据,独立地训练一个神经网络来执行离散的情感类别的识别,训练过程中神经网络模型中的输出层加入4个线索节点,分别承载活跃度-评价度空间中的4个粗粒度类别的线索信息,然后使用多模态融合模型对三个神经网络的输出结果进行融合,多模态融合模型也采用基于线索信息训练的神经网络,然而由于在大多数视频中,人脸侧面脸部表情帧数较少,难以进行有效的采集,致使该方法在实际操作上具有较大的局限性。该方法还涉及神经网络的训练和融合,随着数据量的增多和数据维度的升高,训练时间和资源的消耗也在逐渐增加,错误率也会逐渐增大。
[0010] CN105138991B公开了一种基于情感显著性特征融合的视频情感识别方法,该方法对训练视频集合中每个视频镜头提取音频特征和视觉情感特征,音频特征基于词包模型构成情感分布直方图特征;视觉情感特征基于视觉词典构成情感注意力特征,情感注意力特征与情感分布直方图特征进行自上而下的融合,构成具有情感显著性的视频特征。该方法在提取视觉情感特征时只提取了视频关键帧的特征,在一定程度上忽略了视频帧与帧之间特征的关联关系。
具体实施方式
[0121] 图1所示实施例表明,本发明方法的流程为:过程A.将人脸图像表情识别作为第一次分类识别→将视频信号进行视频抽帧和语音信号的提取→图像帧序列和语音信号的预处理→对图像帧序列进行人脸特征点的标记并筛选图像帧序列中的关键帧→人脸纹理特征的提取→人脸几何特征的提取→人脸表情的分组→人脸表情识别的第一次分类;过程B.将语音情感识别作为第二次分类识别→语音情感特征的提取→语音情感识别的第二次分类;过程C.人脸表情识别和语音情感识别的融合→人脸表情识别和语音情感识别在决策级上的融合→至此完成基于决策级的两个过程递进式的人脸表情识别和语音情感识别融合的视频情感识别。
[0122] 图2所示实施例显示了6个特定距离和人脸68个特征点的标记,是一幅被特征点标记的示例图像,6个特定距离依次是特征点22与40之间的垂直距离以Du,1表示,特征点45与47之间的垂直距离以Du,2表示,特征点37与49之间的垂直距离以Du,3表示,特征点34与52之间的垂直距离以Du,4表示,特征点52与58之间的垂直距离以Du,5表示,特征点49与55之间的水平距离以Du,6表示。图中特征点之间的连线勾画出了人脸眉毛、眼睛和嘴巴区域的轮廓。
[0123] 图3所示实施例显示了本发明将eNTERFACE’05数据库中一张人脸利用Dlib进人特征点标记的实例图,图中标记的68个特征点对应于图2人脸特征点标记示意图中所示的68个特征点的标记。
[0124] 实施例1
[0125] 本实施例的将人脸表情识别和语音情感识别融合的视频情感识别方法,是一种基于决策级的两个过程递进式的视听情感识别方法,具体步骤如下:
[0126] 过程A.将人脸图像表情识别作为第一次分类识别:
[0127] 该过程A包括人脸表情特征的提取、人脸表情的分组和人脸表情识别的第一次分类,步骤如下:
[0128] 第一步,将视频信号进行视频抽帧和语音信号的提取:
[0129] 将数据库中的视频分解成图像帧序列,并利用开源的FormatFactory软件进行视频抽帧,将视频中的语音信号提取出来并保存为MP3格式;
[0130] 第二步,图像帧序列和语音信号的预处理:
[0131] 对上述第一步得到的图像帧序列利用公开的Viola&Jones算法进行人脸的定位并裁剪,裁剪后的人脸图像尺寸归一化为M×M像素,得到人脸图像尺寸归一化的图像帧序列;
[0132] 对上述第一步得到的语音信号利用公知的语音端点检测算法VAD进行语音检测并去除噪音和静音段,得到更易提取特征的语音信号;
[0133] 由此完成图像帧序列和语音信号的预处理;
[0134] 第三步,图像帧序列进行人脸特征点的标记并筛选图像帧序列中的关键帧:
[0135] 将上述第二步人脸图像尺寸归一化的图像帧序列进行人脸T个特征点标记,T的取值范围是1,2,…,68,该68个特征点的位置是公知的,标记的特征点轮廓分别在人脸图像上的眼睛、眉毛、鼻子和嘴巴区域,本实施例中根据T=68个特征点的坐标,对于上述第二步中的人脸图像尺寸归一化的图像帧序列中的第u帧图像计算以下6个特定距离:
[0136] 眼睛和眉毛之间的垂直方向上距离为Du,1:Du,1=dvertical||p22,p40||,[0137] 眼睛张开的垂直方向上距离为Du,2:Du,2=dvertical||p45,p47||,
[0138] 眼睛和嘴巴之间的垂直方向上距离为Du,3:Du,3=dvertical||p37,p49||,[0139] 鼻子和嘴巴之间的垂直方向上距离为Du,4:Du,4=dvertical||p34,p52||,[0140] 上下嘴唇的垂直方向上距离为Du,5:Du,5=dvertical||p52,p58||,
[0141] 嘴巴的两侧在水平方向上宽度距离为Du,6:Du,6=dhorizontal||p49,p55||,[0142] 且有
[0143] dvertical||pi,pj||=|pj,y-pi,y|,dhorizontal||pi,pj||=|pj,x-pi,x| (1),[0144] 公式(1)中,pi为第i个特征点的坐标集,pj为第j个特征点的坐标集,pi,y为第i个特征点的纵坐标,pj,y为第j个特征点的纵坐标,pi,x为第i个特征点的横坐标,pj,x为第j个特征点的横坐标,dvertical||pi,pj||为特征点i与j之间的垂直距离,dhorizontal||pi,pj||为特征点i与j之间的水平距离,i=1,2,…,68,j=1,2,…,68;
[0145] 设上述第二步中的人脸图像尺寸归一化的图像帧序列中的第一帧为中性帧,其6个特定距离的集合V0为公式(2)所示,
[0146] V0=[D0,1,D0,2,D0,3,D0,4,D0,5,D0,6] (2),
[0147] 公式(2)中,D0,1,D0,2,D0,3,D0,4,D0,5和D0,6分别为上述第二步中的人脸图像尺寸归一化的图像帧序列中的中性帧所对应的6个特定距离;
[0148] 上述第二步中的人脸图像尺寸归一化的图像帧序列中的第u帧的6个特定距离的集合Vu为公式(3)所示,
[0149] Vu=[Du,1,Du,2,Du,3,Du,4,Du,5,Du,6] (3),
[0150] 公式(3)中,u=1,2,…,K-1,其中K为上述第二步中的人脸图像尺寸归一化的一组图像帧序列中人脸图像的数量,Du,1,Du,2,Du,3,Du,4,Du,5,Du,6分别为上述第二步中的人脸图像尺寸归一化的图像帧序列中的第u帧所对应的6个特定距离;
[0151] 上述第二步中的人脸图像尺寸归一化的图像帧序列中第u帧和中性帧的6个对应的特定距离比值之和为公式(4)所示,
[0152]
[0153] 公式(4)中,DFu代表上述第二步中的人脸图像尺寸归一化的图像帧序列中的中性帧图像与第u帧图像对应的6个特定距离之比的和,n代表6个特定距离的编号,D0,n代表上述第二步中的人脸图像尺寸归一化的图像帧序列中的中性帧所对应的第n个特定距离,Du,n代表上述第二步中的人脸图像尺寸归一化的图像帧序列中的第u帧所对应的第n个特定距离;
[0154] 在上述第二步中的人脸图像尺寸归一化的图像帧序列中,根据公式(2)、公式(3)和公式(4)求得图像帧序列中每一帧图像所对应的特定距离的比值DF,筛选得到最大的DF所对应的图像帧即为该图像帧序列中的关键帧,
[0155] 由此完成对图像帧序列进行人脸特征点的标记并筛选图像帧序列中的关键帧;
[0156] 第四步,人脸纹理特征的提取:
[0157] 利用LBP-TOP算法提取人脸纹理特征,首先,将上述第二步中的人脸图像尺寸归一化的图像帧序列在时空上划分为XY、XT和YT三个正交平面,在各个正交平面内计算3×3邻域内中心像素点的LBP值,统计三个正交平面的LBP直方图特征,最后将三个正交平面的LBP直方图联接起来形成整体特征向量,其中LBP算子计算方法如公式(5)和公式(6)所示,[0158]
[0159]
[0160] 公式(5)和公式(6)中,Z为中心像素点邻域点的个数,R为邻域点到中心像素点之间的距离,tc为中心像素点的像素值,tq为第q个邻域点的像素值,Sig(tq-tc)为第q个邻域点的LBP编码值,
[0161] LBP-TOP直方图定义如公式(7)所示,
[0162]
[0163] 公式(7)中,b为平面的编号,b=0为XY平面,b=1为XT平面,b=2为YT平面,nb是在第b个平面上由LBP算子产生的二元模式的数量,I{LBPZ,R,b(x,y,t)=a}为在第b个平面上采用LBPZ,R算子进行特征提取时LBP编码值为a的像素点个数;
[0164] 第五步,人脸几何特征的提取:
[0165] 根据上述第三步得到的筛选图像帧序列中的关键帧,计算该关键帧中标记的T个特征点的坐标获得人脸表情的几何特征,在人脸表情识别领域,人脸特征最为丰富的区域是人脸T字型区域,主要包含眉毛、眼睛、鼻子、下巴以及嘴巴区域,具体特征点见表2,因此人脸几何特征的提取方法主要提取人脸T字型区域的标记点之间的距离特征;
[0166] 第5.1步,计算人脸特征点对的欧式距离特征:
[0167] 从上述第三步得到的筛选图像帧序列中的关键帧中的T个特征点中选取眉毛的14对特征点、眼睛的12对特征点、嘴巴的12对特征点和鼻子的6对特征点以及下巴的6对特征点,共计50对特征点,并计算特征点对A和B之间的欧氏距离,共50维欧氏距离特征,记为G50,计算特征点对A和B之间的欧式距离的公式(8)如下所示,
[0168]
[0169] 公式(8)中,pA为特征点A的坐标集,pB为特征点B的坐标集,pA,x为特征点A的横坐标,pA,y为特征点A的纵坐标,pB,x为特征点B的横坐标,pB,y为特征点B的纵坐标;
[0170] 表1显示了人脸T字型区域中,需要计算的人脸特征点对,其中d||pA,pB||表示特征点对A、B之间的欧式距离;
[0171] 表1
[0172]
[0173] 第5.2步,计算人脸特征点的角度特征:
[0174] 从上述第三步筛选获得的关键帧的T=68个特征点中选择表征人脸特征变化的10个角度,其中眉毛2个角度、眼睛6个角度和嘴巴2个角度进行计算,提取角度特征,共10维角度特征,记为Q10,具体角度见表3,计算特征点角度的公式(9)如下,
[0175]
[0176] 公式(9)中,pC、pD、pE是上述第三步对人脸特征点标记的眉毛、眼睛和嘴巴区域形成的角度所对应的三个特征点坐标集,其中pD为顶角点坐标集;
[0177] 表2显示了人脸T字型区域中,需要计算的人脸特征点的角度。其中Q(pC,pD,pE)表示角D的角度特征;
[0178] 表2
[0179]
[0180] 第5.3步,计算人脸区域面积特征:
[0181] 选择人脸图像的5个区域,包括左、右眉毛、两只眼睛以及嘴巴,分别计算这5个区域的面积特征,具体面积区域见表3;
[0182] 表3
[0183]
[0184] 表3显示了人脸T字型区域中,需要计算的人脸特征点所围成的区域的面积,其中O(pA,pB,pC,pD)表示特征点A、B、C、D连线围成的区域的面积;
[0185] 由于每个人的人脸器官大小的差异性,这里将关键帧所提取的表4中5个人脸区域的面积与中性帧所提取的5个人脸区域的面积对应相减,得到人脸图像区域面积的变化特征,共5维记为O5,将人脸眉毛区域、人脸嘴巴区域和人脸眼睛区域均设定为三角形,利用海伦公式计算每个三角形面积,将人脸特征点对的欧式距离特征G50,人脸特征点的角度特征Q10和人脸区域面积特征O5组合作为人脸的几何特征F如公式(10)所示,
[0186] F=[G50 Q10 O5] (10),
[0187] 至此,串联人脸纹理特征和人脸几何特征,完成人脸表情特征的提取;
[0188] 第六步,人脸表情的分组:
[0189] 将人脸的六种情感:惊讶、害怕、生气、厌恶、快乐和悲伤,两两分为三组,具体分组如下:
[0190] 第一组:惊讶、害怕;第二组:生气、厌恶;第三组:快乐、悲伤;
[0191] 第七步,人脸表情识别的第一次分类:
[0192] 将上述第四步和第五步提取的人脸表情特征放入ELM分类器当中进行训练和测试,由此完成人脸表情识别的第一次分类,得到人脸表情识别的第一次分类的识别结果,其中ELM的参数设置为:ELM类型:“分类”,隐藏层神经元数目:“20”,激活函数:“Sigmoid”函数;
[0193] 过程B.将语音情感识别作为第二次分类识别:
[0194] 该过程B是在过程A的人脸表情识别结果的基础上,再结合语音特征,分别对上述第六步人脸表情的分组中的三个组的每一组进行语音情感特征提取和语音情感识别的第二次分类,具体操作如下:
[0195] 第八步,语音情感特征的提取:
[0196] 针对上述第七步人脸表情识别的第一次分类的分类结果,依照第六步的分组,每一组的情感对不同音频韵律特征的敏感程度的不同,分别提取不同的韵律特征:
[0197] 第一组:提取过零率ZCR和对数能量LogE,
[0198] 第二组:提取Teager能量算子TEO、过零率ZCR、对数能量LogE,
[0199] 第三组:提取音高Pitch、过零率ZCR、Teager能量算子TEO,
[0200] 上述韵律特征中音高Pitch是在频域中计算,
[0201] 对于上述第二步预处理的语音信号M,用以下公式(11)计算音高Pitch,
[0202]
[0203] 公式(11)中,Pitch为音高,DFT是离散傅里叶变换函数,LM代表语音信号的长度,代表语音信号加汉明窗, 的计算为如下公式(12)所示,
[0204]
[0205] 公式(12)中,N为汉明窗的数量,m为第m个汉明窗;
[0206] 上述韵律特征中的过零率ZCR的计算如公式(13)所示,
[0207]
[0208] 公式(13)中,ZCR表示N个窗口的平均过零率,||为绝对值符号,X(m)为分帧加窗之后的第m个窗口的语音信号,sgn{X(m)}函数判断语音振幅的正负,sgn{X(m)}函数由公式(14)计算,
[0209]
[0210] 公式(14)中,X(m)为分帧加窗之后的第m个窗口的语音信号;
[0211] 上述对数能量LogE的计算公式(15)如下,
[0212]
[0213] 公式(15)中,LogE表示N个窗口的总的对数能量,X(m)是分帧加窗之后的第m个窗口的语音信号,N是窗口数量;
[0214] Teager能量算子TEO定义如公式(16)所示,
[0215]
[0216] 公式(16)中,ψ[X(m)]为第m个窗口的Teager能量算子TEO,X'(m)=dX(m)/dm,X"(m)=dX2(m)/dm2,对于幅值和频率恒定的信号:X(m)=acos(φm+θ),其中a为信号幅值,φ为信号频率,θ为信号初相角,
[0217] 对上述第六步人脸表情的分组中的三个组的每一组的图像帧对应的音频文件提取公知的梅尔频率倒谱系数MFCC以及其一阶差分特征和二阶差分特征,最后将每一组提取的韵律特征和对应的梅尔频率倒谱系数MFCC以及其一级差分特征和二阶差分特征串联起来形成混合的音频特征,
[0218] 由此完成语音情感特征的提取;
[0219] 第九步,语音情感识别的第二次分类:
[0220] 将上述第八步提取到的语音情感特征放入SVM进行训练和测试,最终得到语音情感识别的识别率,其中SVM的参数设置为:惩罚系数:“95”,允许冗余输出:“0”,核参数:“1”,支持向量机的核函数:“高斯核”,
[0221] 由此完成语音情感识别的第二次分类;
[0222] 过程C.人脸表情识别和语音情感识别的融合:
[0223] 第十步,人脸表情识别和语音情感识别在决策级上的融合:
[0224] 由于语音情感识别是在人脸情感识别的基础上进行的二次识别,因此两次识别率的关系属于条件概率的关系,最终识别率P(Audio_Visual)计算方法如公式(17)所示,[0225] P(Audio_Visual)=P(Visual)×P(Audio|Visual) (17),
[0226] 公式(17)中,P(Visual)为第一次人脸图像识别的识别率,P(Audio|Visual)为第二次语音情感的识别率;
[0227] 至此完成基于决策级的两个过程递进式的人脸表情识别和语音情感识别融合的视频情感识别。
[0228] 本实施例在eNTERFACE’05和RML数据库上与现有相关的技术作对比实验,具体识别率如下表4:
[0229] 表4
[0230]
[0231] 表4的实验结果列出了近几年视听情感识别系统在eNTERFACE’05和RML数据库上的识别率对比:Mahdi Bejani等人2014年在“Audiovisual emotion recognition using ANOVA feature selection method and multi-classifier neural networks”文献中在eNTERFACE’05数据库上做的视听情感识别的平均识别率为77.78%;
[0232] Shiqing Zhang等人2016年在“Multimodal Deep Convolutional Neural Network for Audio-Visual Emotion Recognition”文献中在RML数据库上做的视听情感识别的平均识别率为74.32%;
[0233] Shiqing Zhang等人2017在“Learning Affective Features with a Hybrid Deep Model for Audio-Visual Emotion Recognition”文献中在eNTERFACE’05和RML数据库上做的视听情感识别的平均识别率分别为85.97%和80.36.%;
[0234] Yaxiong Ma等人2018年在“Audio-visual emotion fusion(AVEF):A deep efficient weighted approach”文献中在eNTERFACE’05和RML数据库上做的视听情感识别的平均识别率分别为84.56%和81.98%;本实施例采用的基于决策级的两个过程递进式的视听情感识别方法,与近几年论文相比识别率上均有较大提升。
[0235] 本实施例中,所述的语音端点检测算法的英文为Voice Activity Detection,缩写为VAD,对数能量的英文为LogEnergy,缩写为LogE;过零率的英文为Zero-Crossing Rate,缩写为ZCR;Teager能量算子的英文为Teager Energy Operator,缩写为TEO;梅尔频率倒谱系数的英文为Mel-frequency cepstral coefficients,缩写为MFCC,这里的语音端点检测算法、对数能量、过零率、Teager能量算子、梅尔频率倒谱系数均为本技术领域所公知的。
[0236] 本实施例中,所涉及的计算操作方法,是本领域技术人员能够掌握的。