面向语音识别噪声场景下多模态情感分析方法及系统 [0001] 技术语言 [0002] 本发明涉及面向语音识别噪声场景下多模态情感分析方法及系统,属于自然语言处理技术领域。 背景技术 [0003] 随着社交媒体的发展,人们可以使用多种信息(文字,图片,视频)共同表达情感。 在现实生活中,由于用户行为的多样性等干扰因素的存在,经常会遇到部分模态可能缺失的情况,其中以缺少文本模态的无字幕视频最为常见。文本是情感分析中最重要的一个模态,因此为了确保情感预测的准确性,现今常常会借助语音识别技术生成对应的视频字幕。 然而,由于语音识别本身的能力限制,可能会在识别过程中引入文本噪声,如错字、漏字、模糊音等,从而影响多模态情感分析模型在现实场景中部署的性能。面对不同类型的噪声,寻求一种通用的解决方案进行统一处理是一项艰巨的任务。在噪声场景下,不同模态之间的一致性可能受到影响,从而增加了选择和融合有效特征的难度。因此,有针对性地解决实际场景中常见的噪声问题显得尤为必要。 [0004] 本发明提出面向语音识别噪声场景下多模态情感分析方法,利用情感距离约束来增强文本模态的特征提取并促进其与视频、语音模态融合。具体来说,首先针对文本模态,在模态内通过引导情感强度低的噪声样本靠近同类中心以及情感强度高的样本,让其在情感语义空间中找到合适的位置,从而弥补损失的情感信息。这样可以充分发挥模型的自主能力,避免过度依赖于句子本身。其次,让视频和语音模态充分提取文本模态中蕴含的情感语义信息并使用对比学习对其进行精炼得到融合模态特征。最后通过多任务学习技术进行情感预测。 发明内容 [0005] 本发明提供了一种面向语音识别噪声场景下多模态情感分析方法及系统,以解决受到语音识别噪声干扰的多模态情感分析问题,本发明在面对语音识别噪声干扰时表现出更好的鲁棒性和泛化能力。 [0006] 本发明的技术方案是:第一方面,本发明提供一种基于情感距离引导的多模态情感分析方法,所述方法的具体步骤如下: [0007] Step1、使用编码器对文本、图像以及语音三个模态数据进行提取特征; [0008] Step2、对含有噪声的文本编码利用情感距离约束进行优化; [0009] Step3、使用语音文本编码结果进一步优化文本表征,得到融合模态表示; [0010] Step4、使用两个私有编码器提取语音、图像特征,与融合模态表示拼接后完成多任务学习,从而进行最终的情感预测。 [0011] 作为本发明的进一步方案,所述Step1的具体步骤如下: [0012] Step1.1、使用12层BERT对文本模态进行编码,并使用最后一层中的第一个词向量作为整个句子的表示。 [0013] Step1.2、使用Facet提取图片中人脸信息,并使用Bi‑LSTM进一步编码得到图像表征。 [0014] Step1.3、使用COVAREP提取语音中音高等信息,并使用Bi‑LSTM进一步编码得到语音表征。 [0015] 作为本发明的进一步方案,所述Step2的具体步骤如下: [0016] Step2.1、将样本按照情感得分标签值是否大于0、等于0、小于0分为积极、中性、消极三类; [0017] Step2.2、计算同类样本中文本编码的欧氏距离,让情感信息弱的样本朝着情感强度高的样本靠拢,增强弱情感样本的情感。 [0018] 作为本发明的进一步方案,所述Step3的具体步骤如下: [0019] Step3.1、对语音、图像以及优化后的文本模态表示进行卷积操作,且对语音、图像两个模态进行数据增强; [0020] Step3.2、利用多头交叉注意力让语音、图像模态分别与文本模态进行跨模态交互得到融合模态表示,并对融合模态表示使用自注意力机制进一步加强表征; [0021] Step3.3、在根据样本的情感得分标签设计正负样例,使用对比学习优化融合模态表征。 [0022] 作为本发明的进一步方案,所述Step4的具体步骤如下: [0023] Step4.1、使用两个单独的Transformer编码器单独提取语音、图像模态的信息,得到两个私有模态表示; [0024] Step4.2、将融合模态表征与私有模态表示进行拼接,送入多层感知机进行最后的情感预测。 [0025] 第二方面,本发明还提供一种面向语音识别噪声场景下多模态情感分析系统,包括用于执行上述第一方面所述的方法的模块。 [0026] 本发明的有益效果是: [0027] 1、本发明针对多模态情感分析中由语音是被引起的文本噪声问题,提出基于情感距离的约束方法,降低了多模态情感分析任务对高质量文本的需求,即使使用质量较低的文本也能够取得良好效果; [0028] 2、提出了模态内情感增强模块,利用同类样本之间的情感得分距离来引导噪声样本的编码,加强噪声模态特征提取,优化模态表征。在此基础上提出模态间情感精炼模块利用对比学习进一步精炼联合模态表征,提升了模型的鲁棒性。 [0029] 3、本发明提出的方法在语音识别噪声场景下情感预测准确率得到较大提高。 附图说明 [0030] 图1为本发明中的流程图。 具体实施方式 [0031] 实施例1:如图1所示,面向语音识别噪声场景下多模态情感分析方法,所述方法的具体步骤如下: [0032] Step1、使用编码器对文本、图像以及语音三个模态数据进行提取特征。 [0033] 在完整视频数据中,说话人的发言可以根据呼吸和停顿分解为一系列的utterance。每个utteranceU包含三个模态的信息:文本(Ut),语音(Ua),视频(Uv)。 [0034] 本发明使用基于面部动作编码系统(FACS)的分析工具Facet来提取面部特征和头部姿势等特征,记为 并使用Bi‑LSTM进一步编码得到图像表征。使用COVAREP提取一组低级声学特征 包括12个梅尔频率倒谱系数(MFCC)和音调跟踪等,并使用Bi‑LSTM进一步编码得到语音表征。对于文本模态,使用具有12个隐藏层的BERT进行特征提取,记为 选取最后一层的第一个词向量作为全局特征,记为 [0035] Step2、对含有噪声的文本编码利用情感距离约束进行优化。 [0036] Step2.1、将样本按照情感得分标签值是否大于0、等于0、小于0分为积极、中性、消极三类: [0037] 对于样本总数为N的样本集S,对应的情感得分标签可以表示为 每个样本Si,根据对应的情感极性可以分为三个类别:Spos={Si|Yi>0},Sneu={Si|Yi=0},Sneg={Si|Yi<0}。同时,每个类别计算出其中心center。 [0038] Step2.2、计算同类样本中文本编码的欧氏距离,让情感信息弱的样本朝着情感强度高的样本靠拢,增强弱情感样本的情感: [0039] 当Si∈Spos时,可以找到所有情感得分标签值大于Yi的样本集合,记为Pi。此时模态内情感增强模块的目标是最小化Si到所有Sj∈Pi的平均距离,并尽可能地接近类中心centerpos,损失计算如下: [0040] [0041] 其中,||||2代表欧式距离,计算细节如下: [0042] [0043] 由于欧式距离的对称性,标签值大的样本也会朝着标签值小的样本靠近,从而损失部分情感信息。为了避免这种情况,考虑增加惩罚项进行约束: [0044] [0045] 其中,Qi是Spos中所有标签值小于Yi的样本集合。所以最后Si的损失函数为: [0046] [0047] λpos是超参数,用于控制惩罚项的影响。情感为负面的样本计算方式和积极样本相同,但对于中性类样本,考虑缩小它们相互之间的距离,让这些样本的表示更加明确、集中。 具体损失计算如下: [0048] [0049] 整个模态内情感增强模块的损失为: [0050] [0051] Step3、使用语音文本编码结果进一步优化文本表征,得到融合模态表示。 [0052] Step3.1、对语音、图像以及优化后的文本模态表示进行卷积操作,且对语音、图像两个模态进行数据增强。下面以文本‑图像两个模态交互为例。 [0053] 采用一维卷积,使得各模态输入序列中的元素能够全面识别相邻元素,并将它们的特征投影到同一个特征维空间: [0054] [0055] Step3.2、利用多头交叉注意力让语音、图像模态分别与文本模态进行跨模态交互得到融合模态表示,并对融合模态表示使用自注意力机制进一步加强表征。 [0056] 跨模态交互分为两个阶段。在第一个阶段中,使用跨模态注意力让视频模态充分挖掘文本模态的重要情感语义信息,即让视频模态作为多头注意力的Query,文本模态作为Key和Value,具体计算公式如下: [0057] [0058] 其中,WQ、Wk和Wv是Q、K和V的线性投影权重矩阵,σ是Softmax激活函数。在计算过程中,还需要加入位置编码来区分序列中元素的相对位置。得到视频‑文本的混合表示后,进入第二阶段,使用自注意力加强跨模态表示内部序列之间的交互: [0059] [0060] 经过若干层的交互后,得到充分融合的视频‑文本融合表示,记为Ht→v。语音模态与文本模态的交互过程类似,最后可以得到融合表示Ht→a。 [0061] Step3.3、在根据样本的情感得分标签设计正负样例,使用对比学习优化融合模态表征。 [0062] 为了进一步优化混合表征结果,使用监督对比学习,让情感距离更接近的样本作为正样本,以此来让模型学到更加精炼的情感特征。 [0063] [0064] 其中,sim是相似度计算函数,τ是温度系数,控制相似度的缩放尺度。PCL是正样本集合,对于锚点样本 其正样本集合定义为 且 d是距离阈值,决定精炼情感信息的精细度。将两种融合模态表示分别作 为锚点,得到最终模态间情感精炼模块的损失: [0065] [0066] Step4、使用两个私有编码器提取语音、图像特征,与融合模态表示拼接后完成多任务学习,从而进行最终的情感预测。 [0067] Step4.1、使用两个单独的Transformer编码器单独提取语音、图像模态的信息,得到两个私有模态表示。 [0068] [0069] Step4.2、将融合模态表征与私有模态表示进行拼接,送入多层感知机进行最后的情感预测。 [0070] 将经过模态间情感精炼模块后得到的视频‑文本、语音‑文本融合表示和以上两个私有表示拼接在一起得到最后的融合结果Hfusion。 [0071] [0072] 整个模型的任务损失Ltask包含了最后融合结果以及构成它的各个部分在分别进行情感预测时产生的误差,所以总的任务损失可以定义为: [0073] Ltask=Lfusion+Lt→v+Lt→a+Lv+La (14) [0074] 在训练过程中,我们将情感预测视为回归任务,每一部分任务损失计算方式为: [0075] t→v t→a [0076] 其中B是一个批次的大小, 是指Hfusion,H ,H ,Hv′,H′a经过MLP之后的预测结果,yi是真实标签。再考虑模态内与模态间两个模块的损失,最后的总体损失为: [0077] [0078] 其中,α,β是超参数,用于控制损失权重。 [0079] 这里选用开源的MOSI‑SpeechBrain,MOSI‑IBM,and MOSI‑iFlytek三个数据集作为本发明的实验数据。本发明通过回归和分类形式来评估模型性能。分类结果是将回归结果离散化,反映了基本情感预测的准确性。回归指标包括平均绝对误差(MAE),用于直接计算预测情感得分与真实标签之间的误差。皮尔逊相关系数(Corr)显示模型预测结果与真实标签之间的相关性。分类指标包括二分类准确率(Acc‑2)和加权F1分数(F1)。本发明使用分隔符‘/’分别报告负/非负(包含0)类和负/正类(不含0)结果,其中左侧为负/正,右侧为负/非负类。 [0080] 为了验证本发明提出方法的效果,本发明选用经典的多模态情感分析方法作为基准模型。TFN:通过在三模态张量之间使用外积,捕获单模态、双模态和三模态之间的交互; LMF:是对TFN的改进,其中执行低秩多模态张量融合技术以提高效率;Mult:利用定向成对跨模态注意力,它关注跨不同时间步长的多模态序列之间的相互作用,并潜在地将流从一种模态调整到另一种模态MISA:将每种模态特征映射到两个不同的表示空间,学习模态不变和模态特定表示Self‑MM:利用自监督的单模态标签生成方法,联合多任务学习方法,挖掘多模态表征的一致性和差异性;SWRM:利用情感词的定位和重构过滤ASR噪声。TETFN:学习面向文本的成对交叉模式映射,以获得有效的统一多模式表示。 [0081] 最终的实验结果如下表1所示。 [0082] 表1其他方法和本发明方法在含有语音识别噪声的数据集上性能比较 [0083] [0084] 首先可以明显地观察到每个模型在不同的数据集上表现出较大的差别,这表明了两个问题,第一是语音识别噪声确实会对多模态情感分析模型的性能产生影响,第二是每一个数据集受噪声影响程度不同,这为分析提供了多个视角。 [0085] 其次,仔细观察可以发现,MulT、MISA、Self‑MM、TETFN、SWRM模型在面对不同程度语音识别噪声噪声干扰时都表现出一定的抗干扰能力,特别是后三者均展现了良好的性能。在相同噪声条件下,本发明相较于它们表现出更佳的性能,特别是在噪声较大的MOSI‑SpeechBrain和MOSI‑IBM数据集上。 [0086] 为了验证本发明各方法模块的有效性,进行了相关的消融实验,结果如表2所示。 [0087] 表2本发明所设计模块消融实验 [0088] [0089] 在三个数据集上,缺少任意一个模块都会导致最终情感预测性能降低,由此可见本发明各个模块均起到了正面作用,在面向语音识别噪声干扰的场景下表现依然优秀。 [0090] 上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。