技术领域
[0001] 本申请属于计算机技术领域,尤其涉及一种情绪识别方法。
相关背景技术
[0002] 在情感分析领域中,用户的情绪通常能够从语音表达中体现出来。传统的情绪识别方法准确率较低,在复杂环境下难以精准识别语音情绪,无法满足实际交互应用场景的需求,因此,如何提高语音情绪识别准确性,是本申请所要解决的技术问题。
具体实施方式
[0018] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019] 下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的一种情绪识别方法进行详细地说明。
[0020] 图1示出本申请的一个实施例提供的一种情绪识别方法,该方法可以由电子设备执行,该电子设备可以包括:服务器和/或终端设备。换言之,该方法可以由安装在电子设备的软件或硬件来执行,该方法包括如下步骤:
[0021] S110:获取待识别音频。
[0022] 其中,该待识别音频的类型可以包括但不限于:对话、采访、视频音频、歌曲等,也就是说,该待识别音频可以是从相关音频或视频中提取的,也可以是通过声音采集器实时或预先采集的。
[0023] 可选地,若该待识别音频包括多个对象的音频,则可以先对待识别音频进行解析处理,以提取每个对象对应的音频,然后针对每个对象,根据对应的音频分别进行情绪识别。示例性地,假设该待识别音频为“这个视频太精彩了!我看得差点笑岔气了。好吧,我觉得这个视频很无聊”,那么,该待识别音频包括对象A的音频和对象B的音频,因此,可以分别提取到对象A的音频和对象B的音频:{对象A:这个视频太好笑了!我看得差点笑岔气了}、{对象B:好吧,我觉得这个视频很无聊}。
[0024] S120:通过将所述待识别音频输入训练完成的情绪识别模型中,识别出与所述待识别音频对应的情绪标签。
[0025] 其中,所述情绪识别模型为利用基于标准语气构建的第一语料库和基于个性化语气构建的第二语料库训练得到的,所述第一语料库包括多个第一音频识别文本,每个所述第一音频识别文本对应至少一种情绪标签,每个所述情绪标签对应至少一种音频特征,所述第二语料库包括多个第二音频识别文本,每个所述第二音频识别文本对应一种情绪标签,每个所述情绪标签对应一种音频特征。
[0026] 可以理解的是,基于标准语气构建的第一语料库提供了理想环境下针对不同情绪的标准发音的语气特征,基于个性化语气构建的第二语料库提供了不同环境下针对不同情绪的个性化发音的语气特征。例如,对于生气这种情绪,在某种场景下,标准语气可能表现为语速稍快、音调略高等特征,而个性化语气则与用户生气时的实际语音特点相关,例如,更强烈的语调、特定的语音节奏等,以更真实地传达当前情绪状态。由于不同年龄阶段的用户,不同属性的用户均有不同的语气特征,因此仅使用基于标准语气构建的第一语料库训练的情绪识别模型,无法对不同用户进行准确的情绪识别,在识别过程中,可能导致情绪识别模型在自调整时产生不可逆偏差,进而导致情绪识别能力降低。那么,在训练过程中,可以根据基于个性化语气构建的第二语料库对基于标准语气构建的第一语料库进行调整和优化,这样,既能保留标准语气的标准性和通用性的特征,又能适配用户的个性化语气,从而适应特定的应用场景及不同的用户,有效提升情绪分析模型的性能。
[0027] 另外,该音频特征可以包括但不限于声学特征、语义特征、波形特征。其中,声学特征用于描述音频信号的声学属性,例如声调、语速、音高变化等;语义特征用于描述音频的语义信息,例如说话者使用的词汇、句法结构以及语气;波形特征用于描述音频信号的振幅随时间变化的曲线形状及振幅变化。
[0028] 可选地,在S120之前,还可以对待识别音频进行降噪处理。
[0029] 可选地,为了更好的理解该第一语料库,在一种实现方式中,本申请实施例提供了一种结构图,如图2所示,该第一语料库可以通过树形结构进行表示,每个第一音频识别文本为根节点,该根节点对应至少一个分支节点即情绪标签,每个分支节点对应至少一个叶子节点即音频特征。在另一种实现方式中,该第一语料库可以通过特征集合进行表示,每个特征集合包括一个第一音频识别文本、与该第一音频识别文本对应的情绪标签、与该情绪标签对应的至少一种音频特征。示例性地,继续参考图2对应示例,多个特征集合可以包括:
[0030] (第i个待识别文本‑情绪标签i1‑音频特征i11);
[0031] ……
[0032] (第i个待识别文本‑情绪标签i1‑音频特征i1a);
[0033] (第i个待识别文本‑情绪标签i2‑音频特征i21);
[0034] ……
[0035] (第i个待识别文本‑情绪标签i2‑音频特征i2b);
[0036] (第i个待识别文本‑情绪标签in‑音频特征in1)。
[0037] 例如,(哇噻‑吃惊‑0.02|0.03|0.05|0.08|0.95)、(唉‑失落‑0.04|0.03|0.02|0.02|0.01)。
[0038] 关于第二语料库,其结构和表示与第一语料库类似,在此不再赘述。
[0039] 在本申请实施例中,在获取待识别音频之后,通过将待识别音频输入训练完成的情绪识别模型中,识别出与待识别音频对应的情绪标签,其中,该情绪识别模型为利用基于标准语气构建的第一语料库和基于个性化语气构建的第二语料库训练得到的,第一语料库包括多个第一音频识别文本,每个第一音频识别文本对应至少一种情绪标签,每个情绪标签对应至少一种音频特征,第二语料库包括多个第二音频识别文本,每个第二音频识别文本对应一种情绪标签,每个情绪标签对应一种音频特征。这样,通过结合多样化的语料库训练情绪识别模型,使得情绪识别模型可以学习和理解不同语气和音频特征下表达的情绪变化,从而使该情绪识别模型可以适应不同用户的语气特征,提高了情绪识别的准确度和敏感度。
[0040] 在一种实现方式中,在所述通过将所述待识别音频输入训练完成的情绪识别模型中,识别出与所述待识别音频对应的情绪标签之前,所述方法还包括以下步骤:
[0041] 步骤1:获取初始语料库,其中,所述初始语料库包括标准音频库、语气音频库和个性化音频库,所述标准音频库包括至少一个第一音频,所述语气音频库包括与至少一个语气词对应的至少一个第二音频,所述个性化音频库包括至少一个第三音频。
[0042] 其中,关于标准音频库,可以通过语音合成技术来生成各种情绪状态下的标准音频即第一音频,也可以手动录制和采集。例如,让多位专业配音演员针对不同语句以不同的语气录音,并手动标注情绪标签,得到标准音频库。可选地,各个语句的格式可以一致或不一致。
[0043] 关于语气音频库,也可以通过语音合成技术来生成各种情绪状态下的标准语气音频即第二音频,也可以手动录制和采集。例如,让多位专业配音演员针对不同的语气词以不同的语气进行录音,并手动标注情绪标签,得到语气音频库。其中,针对同一语气词也可以以不同的语气进行录音,例如,语气词“啊”,不同的声调可能表示不同的情绪,ā表示惊异或赞叹,á表示疑问,ǎ表示表示轻微的惊讶或不确定,à表示惊异或赞叹。
[0044] 关于个性化音频库,可以包括与同一个用户对应的针对不同情绪的第三音频,也可以包括与不同用户对应的针对不同情绪的第三音频。也就是说,若该个性化音频库仅由一个用户对应的针对不同情绪的第三音频构成,那么训练完成的情绪识别模型的识别参数与该用户具有适配性;若该个性化音频库由不同用户对应的针对不同情绪的第三音频构成,那么训练完成的情绪识别模型的识别参数具有普遍适应性,即可以针对不同用户进行情绪识别。
[0045] 另外,由于不同用户说话的语速、音色、语气均不一样,那么在构造个性化音频库时,可以让用户根据特定文本录入不同情绪的音频或者根据相关工具合成不同用户针对不同情绪的音频,以采集个性化音频。
[0046] 需要说明的是,不同语言环境下的语气词是不同的,例如,中文语气词可以包括:对、好、行、嗯、可以、没问题、呢、哇、啊、唉、哎呀、确实、非常等,英文语气词可以包括:Wow、Oh no、amazing、Wonderful等,因此,在获取标准音频库、语气音频库和个性化音频库时,可以根据具体的语言使用环境来获取相关音频。
[0047] 步骤2:根据所述语气音频库对所述标准音频库进行第一处理,得到所述第一语料库,以及根据所述语气音频库对所述个性化音频库进行第二处理,得到所述第二语料库。
[0048] 可以理解的是,由于同一句话或同一个语气词,由不同的声调或者语气说出时,所对应的情绪意图可能不是一样的。在该步骤中,基于语气音频库对所述标准音频库进行第一处理,以及对个性化音频库进行第二处理,以使语气词的音频作为重要的情感导向,能够提升情绪识别的准确性,例如,如果某个音频,包括多次的唉声叹气,便可判断此时用户的情绪为低落。
[0049] 步骤3:利用所述第一语料库和所述第二语料库训练所述情绪识别模型。
[0050] 在该实现方式中,在标准音频库和个性化音频库基础上,结合语气词的音频为第一音频和第三音频赋予权重,使得语气词将不作为停用词去除,反而作为重要的情感导向,进一步提升识别的准确性。
[0051] 在一种实现方式中,在所述利用所述第一语料库和所述第二语料库训练所述情绪识别模型之前,所述方法还包括:基于朴素贝叶斯网络算法构建所述情绪识别模型。可以理解的是,该情绪识别模型是基于朴素贝叶斯网络算法构建的,朴素贝叶斯网络算法实现简单,计算速度快,能够用于实时识别,还适于处理大规模数据集,即使在数据量较小的情况下,朴素贝叶斯算法也能提供精确的识别结果。另外,基于朴素贝叶斯网络算法构建的情绪识别模型能够支持增量训练,即可以根据新的数据不断更新和改进,而无需从头开始重新训练。
[0052] 在一种实现方式中,所述通过将所述待识别音频输入训练完成的情绪识别模型中,识别出与所述待识别音频对应的情绪标签,包括:确定与所述待识别音频对应的目标识别文本和目标音频特征;基于所述目标识别文本和所述目标音频特征,确定与所述待识别音频对应的待识别特征;基于所述待识别特征,确定与所述待识别音频对应的情绪标签。
[0053] 可以理解的是,训练完成的情绪识别模型具有良好的情绪识别能力,因此只需要将待识别音频输入到该情绪识别模型中,可以确定与该待识别音频对应的目标识别文本和目标音频特征,基于该目标识别文本和目标音频特征确定待识别特征,最后根据该待识别特征进行情绪识别。
[0054] 其中,在另一种实现方式中,基于所述目标识别文本和所述目标音频特征,确定与所述待识别音频对应的待识别特征,可以包括:对所述目标识别文本进行分词处理,并确定每个分词对应的语义向量;对所述目标音频特征进行离散化处理,得到与所述目标音频特征对应的离散向量;通过将所述语义向量和所述离散向量进行融合,得到所述待识别特征。其中,分词是指将连续的文本分割成有意义的单元,如单词、短语或子词,通过分词可以减少文本的维度,提高后续处理的效率。在进行分词处理之后,可以通过词嵌入方式确定每个分词对应的语义向量,该语义向量捕获对应分词的语义信息。可选地,词嵌入方式包括但不限于Word2Vec、GloVe和FastText。离散化处理是指将连续的音频信号转换为离散化的特征表示。在音频处理任务中,若直接操作连续的特征可能需要大量的计算资源和复杂的算法,因此,通过离散化处理可以减少计算的复杂度和成本。最后,利用得到的语义向量和离散向量,通过向量融合的方式得到待识别特征,该融合是指将目标识别文本的语义信息与待识别音频的特征信息进行关联。
[0055] 在一种实现方式中,在通过将所述待识别音频输入训练完成的情绪识别模型中,识别出与所述待识别音频对应的情绪标签之后,所述方法还包括:根据与所述待识别音频对应的情绪标签更新所述情绪识别模型的参数值。可以理解的是,根据实际识别结果反馈进行参数更新,能够减少预测误差,从而提高识别的准确性。
[0056] 在一种实现方式中,在通过将所述待识别音频输入训练完成的情绪识别模型中,识别出与所述待识别音频对应的情绪标签之前,还可以包括:获取目标用户输入的训练音频;根据所述训练音频对所述情绪识别模型进行增量训练。也就是说,在用户使用情绪识别模型进行情绪分析之前,可以预先输入训练数据以帮助该情绪识别模型学习适应该用户的个性化参数,从而提高对该用户的情绪识别的准确性。在该实现方式中,通过增量训练,能够有效利用原有模型的参数和结构,在保持模型稳定性和性能的同时,快速有效地实现模型的更新和优化,使得训练完成的情绪识别模型能够适应不断变化的应用场景和用户需求。
[0057] 在一种实现方式中,所述利用所述第一语料库和所述第二语料库训练所述情绪识别模型,可以包括以下步骤:
[0058] 步骤1:根据所述第一语料库和所述第二语料库,确定偏移参数,其中,所述偏移参数用于表征用户个性化的语气特征。
[0059] 步骤2:根据所述偏移参数,以及基于所述第一语料库和所述第二语料库训练所述情绪识别模型的损失,并基于所述损失调整所述情绪识别模型的参数值,直至所述情绪识别模型收敛。
[0060] 可以理解的是,情绪识别模型具有初始参数值,该初始模型参数值可以是基于第一语料库训练确定的,也可以是预设的,为了适应不同类型或不同用户的个性化语气,需要在训练过程中,调整该初始模型参数值,即将第二语料库的情绪识别结果与第一语料库中相关联的情绪标签进行比较,以获取偏移结果,对该偏移结果进行加权平均,从而得到该偏移参数。然后基于该偏移参数和模型训练损失,调整该情绪识别模型的参数值,直至所述情绪识别模型至收敛,从而使得该情绪识别模型能够更好地适应用户个性化的语气特征,进而提升情绪识别的准确性。
[0061] 可选地,第一语料库中与第二语料库中某个第三音频相关联的第一音频可以通过余弦相似度确定。可选地,第一音频的音频特征和第三音频的音频特征之间的余弦相似度可以通过欧几里得点积公式得到,其中,欧几里得点积公式为a·b=‖a‖‖b‖cosθ,那么:如图2b所示,给定两个属性向量:a、b,其余弦
相似性θ由点积和向量长度给出。该余弦相似度范围为[‑1,1],‑1表示两个向量指向的方向截然相反,1表示两个向量指向的方向完全相同,0表示两个向量是互相独立的,除‑1、0和1以外的其他值表示两个向量的相似度。对于音频匹配,属性向量A和B可以是一音频的音频特征和第三音频的音频特征。
[0062] 在一种实现方式中,所述根据所述语气音频库对所述标准音频库进行第一处理,得到所述第一语料库,包括以下步骤:
[0063] 步骤1:通过对每个所述第一音频进行特征分析,得到标准情绪特征库。
[0064] 可以理解的是,若在训练情绪识别模型时仅分析文本的语义或仅分析音频的波形或使用权重来区分文本音频的影响度,将导致训练好的情绪识别模型无法精准反映与相关音频对应的情绪。因此,本申请中的特征分析包括文本识别、情绪标签标注和音频特征离散化处理。标准情绪特征库包括每个第一音频的特征分析结果。以音频特征为波形为例,在对某个第一音频进行特征分析后,可以得到与该第一音频对应的第一音频识别文本、情绪标签和波形离散向量,示例性地:(我好生气啊‑生气‑0.02|0.03|0.05|0.08|0.95),其中,“我好生气啊”为第一音频识别文本,情绪标签为“生气”,“0.02|0.03|0.05|0.08|0.95”为波形离散向量。
[0065] 可选地,在进行音频特征离散化处理时,可以根据训练情况来决定采样步进,采样步进是指相邻两个采样点之间的时间间隔,步进越小可以得到更精准的波形,如图3所示,其采样步进为1。
[0066] 另外,很多种情绪的音频波形都是相似的,比如愤怒的语音波形跟开心的语音波形,可能都存在上升曲线。因此,可以利用以下三种因素进行消歧:
[0067] (1)音频波形的起点分贝。例如,愤怒的起点分贝值是更高的。
[0068] (2)音频的急促特征。该急促特征可以直接体现到波形的导数,也就是单位时间内波形的变化程度。
[0069] (3)语气文本的应用场景。例如,“哈”在表达开心的场景时候使用,“啊”在表达愤怒或惊讶的场景时使用。
[0070] 步骤2:通过对每个所述第二音频进行特征分析,得到语气特征库。
[0071] 其中,对每个所述第二音频进行特征分析的过程与上述步骤1中对第一音频进行特征分析的过程相同,在此不再赘述。
[0072] 步骤3:通过将所述标准情绪特征库和所述语气特征库进行特征融合,得到所述第一语料库。
[0073] 可以理解的是,该特征融合过程是将语气特征做为重要的情绪导向,对标准情绪特征库进行更新,从而得到第一语料库。示例性地,假设标准情绪特征库包括w01‑n1‑x01,w02‑n2‑x02,w03‑n3‑x03...w0m‑nm‑x0m等特征集合,其中,w0m为第一音频识别文本,nm为分类标签,x0m为波形离散向量;以及假设语气特征库包括:a01‑y1‑z01,a02‑y2‑z02,ax03‑y3‑x03...a0b‑yb‑z0b等特征集合,其中,a0b为语气词,yb为情绪标签,z0b为波形离散向量。在某个第一音频识别文本w0m中包括某个语气词a0b的情况下,继续判断该w0m对应的情绪标签是否与语气词a0b的一致,若一致则基于语气词a0b对应的音频特征z0b,对第一音频识别文本w0m对应的音频特征x0m赋予一个权重值,从而实现特征融合。
[0074] 在该实现方式中,在情绪表达上为语气词赋予了更大的权重,使得情绪表达可以通过语气词得到量化,进一步提升了情绪识别的准确率。另外,由于每个音频的识别文本在语义分析的基础上,可能出现歧义,因此可以结合语气音频库,从而实现消歧。
[0075] 进一步地,在另一种实现方式中,所述根据所述语气音频库对所述个性化音频库进行第二处理,得到所述第二语料库,包括:通过对每个所述第三音频进行特征分析,得到个性化情绪特征库;通过将所述个性化情绪特征库和所述语气特征库进行特征融合,得到所述第二语料库。
[0076] 需要说明的是,关于该实现方式的具体描述可以参考上一实现方式,其过程相同,在此不再赘述。
[0077] 可选地,基于上述各个实施例,本申请提供了一种情绪识别模型的训练方法的流程示意图,如图4所示,可以包括以下步骤:
[0078] 步骤1:建立标准音频库和语气音频库。
[0079] 使用标准固定句子格式让多位专业配音演员以不同的情绪语气录音,并通过人工分类标注,可以得到标准音频库。由于语气词在情绪表达中起到重要的基调作用,因此可以使用同样的方式,针对语气词,让配音演员同样使用不同的语气进行配音,生成语气音频库。
[0080] 步骤2:分别对标准音频库和语气音频库进行特征分析,得到标准情绪波形库及语气波形库。
[0081] 针对生成的标准音频库及语气音频库,经过音频波形分析,并对结合人工标注的情绪类型,对波形进行离散化处理,得到标准情绪波形库及语气波形库。
[0082] 步骤3:对所述标准情绪波形库和语气波形库进行特征融合,得到平行语料库。
[0083] 步骤4:建立个性化音频库。
[0084] 由于不同用户说话的语速、音色、语气都不一样,在用户使用该情绪识别模型时,可以让用户根据特定文本录入音频。
[0085] 步骤5:利用朴素贝叶斯网络算法进行参数调优。
[0086] 根据个性化音频库包括的特征集合:“文本‑情绪‑波形条”和平行语料库包括的特征集合“文本‑情绪‑波形库”,通过朴素贝叶斯网络分类算法进行参数调优。
[0087] 在该实施例中,将语气词做为重要的情绪导向,单独为语气词做配音标注,生成个性化的文本音频平行语料库,从而实现了精准且多层次的情绪划分,提升了情绪识别的精准性。
[0088] 可选地,本申请还提供了一种情绪识别装置的结构示意图,如图5所示,包括平台侧510和终端侧520,其中,平台侧包括:数据采集模块511、标签模块512、语料库训练模块513和模型参数预设模块514。终端侧520包括:参数反馈上传模块521、实时信息采集模块
522、模型参数自适应模块523和情绪分析模块524。
[0089] 其中,数据采集模块511,用于采集音频数据。数据采集可以包括三种类型:
[0090] (1)专业配音演员以标准化的情绪语气录入音频,使用专业的音频处理工具生成标准音频库。
[0091] (2)专业配音演员以标准化的情绪语气单独针对语气词进行录入,使用专业的音频处理工具生成语气音频库。
[0092] (3)用户在使用终端侧进行情绪识别之前做前置设置,该前置设置让用户以自然的语言习惯使用不同的情绪语气录入音频,该音频用于做个性化参数的生成依据。
[0093] 标签模块512,用于利用配音演员的标准语气情绪的配音,并在基于人工标注的方式下,利用文件系统,对目录以及音频文件名称进行初步处理,从而生成标签。也就是说,根据文件属性可得知该音频的情绪类型标签。
[0094] 语料库训练模块513,用于基于目标学习库提取音频特征,并结合音频库,生成通用的mlmodel模型文件。在该模块中,可以仅根据音频特征测试输入音频的初步分类,但由于只采用音频特征这一维度,无法精准判断用户在当下表现的情绪值,因此还需通过模型参数预设模块进一步处理。
[0095] 模型参数预设模块514:根据用户输入音频,并通过音频拟合过程进行阈值偏移调整,在用户使用自然音频习惯训练出12种音频的时候,利用采样结果来比对标准模型的结果偏移,然后通过加权平均得到用户的个性化偏移参数。
[0096] 实时信息采集模块522,用于进行语音实时转写,得出用户的语音文本,以及用于利用音频输入进而得到用户实时的“文本‑情绪‑波形条”特征集合。
[0097] 情绪分析模块524,用于利用用户实时的“文本‑情绪‑波形条”特征集合,进一步提取语气词的特征,并为语气词赋予高权重,使得语气特征作为重要的情感导向。
[0098] 模型参数自适应模块523,用于通过下载平台侧训练好的参数用来更新下个时刻所需要的模型参数配置。
[0099] 参数反馈上传模块521,用于通过实时采集信息模块522采集来的信息得到情绪分析结果后,向平台侧进行反馈。
[0100] 图6示出本申请的一个实施例提供的情绪识别装置的结构示意图,如图6所示,该情绪识别装置600可以包括:获取模块610和识别模块620。
[0101] 在该实施例中,获取模块610,用于获取待识别音频;识别模块620,用于通过将所述待识别音频输入训练完成的情绪识别模型中,识别出与所述待识别音频对应的情绪标签;其中,所述情绪识别模型为利用基于标准语气构建的第一语料库和基于个性化语气构建的第二语料库训练得到的,所述第一语料库包括多个第一音频识别文本,每个所述第一音频识别文本对应至少一种情绪标签,每个所述情绪标签对应至少一种音频特征,所述第二语料库包括多个第二音频识别文本,每个所述第二音频识别文本对应一种情绪标签,每个所述情绪标签对应一种音频特征。
[0102] 在一种实现方式中,该情绪识别装置600还可以包括训练模块,用于:获取初始语料库,其中,所述初始语料库包括标准音频库、语气音频库和个性化音频库,所述标准音频库包括至少一个第一音频,所述语气音频库包括与至少一个语气词对应的至少一个第二音频,所述个性化音频库包括至少一个第三音频;根据所述语气音频库对所述标准音频库进行第一处理,得到所述第一语料库,以及根据所述语气音频库对所述个性化音频库进行第二处理,得到所述第二语料库;利用所述第一语料库和所述第二语料库训练所述情绪识别模型。
[0103] 在一种实现方式中,所述通过将所述待识别音频输入训练完成的情绪识别模型中,识别出与所述待识别音频对应的情绪标签,包括:确定与所述待识别音频对应的目标识别文本和目标音频特征;基于所述目标识别文本和所述目标音频特征,确定与所述待识别音频对应的待识别特征;基于所述待识别特征,确定与所述待识别音频对应的情绪标签。
[0104] 在一种实现方式中,所述利用所述第一语料库和所述第二语料库训练所述情绪识别模型,包括:根据所述第一语料库和所述第二语料库,确定偏移参数,其中,所述偏移参数用于表征用户个性化的语气特征;根据所述偏移参数,以及基于所述第一语料库和所述第二语料库训练所述情绪识别模型的损失,并基于所述损失调整所述情绪识别模型的参数值,直至所述情绪识别模型收敛。
[0105] 在一种实现方式中,所述根据所述语气音频库对所述标准音频库进行第一处理,得到所述第一语料库,包括:通过对每个所述第一音频进行特征分析,得到标准情绪特征库;通过对每个所述第一音频进行特征分析,得到标准情绪特征库;通过对每个所述第二音频进行特征分析,得到语气特征库;通过将所述标准情绪特征库和所述语气特征库进行特征融合,得到所述第一语料库。
[0106] 在一种实现方式中,所述根据所述语气音频库对所述个性化音频库进行第二处理,得到所述第二语料库,包括:通过对每个所述第三音频进行特征分析,得到个性化情绪特征库;通过将所述个性化情绪特征库和所述语气特征库进行特征融合,得到所述第二语料库。
[0107] 在一种实现方式中,所述基于所述目标识别文本和所述目标音频特征,确定与所述待识别音频对应的待识别特征,包括:对所述目标识别文本进行分词处理,并确定每个分词对应的语义向量;对所述目标音频特征进行离散化处理,得到与所述目标音频特征对应的离散向量;通过将所述语义向量和所述离散向量进行融合,得到所述待识别特征。
[0108] 在一种实现方式中,该情绪识别装置600还可以包括更新模块,用于:根据与所述待识别音频对应的情绪标签更新所述情绪识别模型的参数值。
[0109] 在一种实现方式中,该情绪识别装置600还可以包括构建模块,用于:基于朴素贝叶斯网络算法构建所述情绪识别模型。
[0110] 在一种实现方式中,所述训练模块还用于:获取目标用户输入的训练音频;根据所述训练音频对所述情绪识别模型进行增量训练。
[0111] 本申请实施例提供的一种情绪识别装置能够实现情绪识别方法实施例中实现的各个过程,为避免重复,这里不再赘述。
[0112] 本申请实施例中的情绪识别装置可以是装置,也可以是电子设备中的部件、集成电路、或芯片。本申请实施例不作具体限定。
[0113] 本申请实施例中的情绪识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
[0114] 可选的,如图7所示,本申请实施例还提供一种电子设备700,包括处理器710,存储器720,存储在存储器720上并可在所述处理器710上运行的程序或指令,该程序或指令被处理器710执行时实现上述情绪识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0115] 本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述情绪识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0116] 其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
[0117] 本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述情绪识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0118] 应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0119] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0120] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
[0121] 上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。