首页 / 情绪识别系统及情绪识别方法

情绪识别系统及情绪识别方法实质审查 发明

技术领域

[0001] 本发明大体上涉及推断声音中表现出的情绪的技术。

相关背景技术

[0002] 人的声音中包含的情绪信息在人彼此的交流中起到重要的作用。由于是否达成了交流的目的有可能能够根据情绪的动态来判断,所以产生了对交流中的情绪进行分析的需求。在日常的经营活动、呼叫中心中的应对等商业场合中,需要对基于许多声音的交流中的情绪进行分析,所以希望进行基于机器的声音情绪识别。
[0003] 声音情绪识别对于被输入的声音,输出该声音中包含的情绪的类别或每种情绪类别的程度。作为其机制,有基于预先设定的规则根据声音信号的特征进行分类或进行回归分析的方法、通过机器学习求出其规则的方法。
[0004] 近年来,公开了能够容易地进行与用户对应的情绪识别的声音对话装置(参照专利文献1)。
[0005] 专利文献1:日本特开2018-132623号公报

具体实施方式

[0023] (I)第1实施方式
[0024] 以下,详细叙述本发明的一实施方式。但是,本发明并不限定于实施方式。
[0025] 在以往的技术中,还有可能因所输入的声音的讲话者特性的变动因素、所输入的声音的环境特性的变动因素等的影响而规则不正确地发挥功能,所以输出不想要的结果。近来,随着深度学习的出现,能够通过机器学习来处置更复杂的规则,为解决该问题付出了巨大的努力,并提高了精度,但还不能说充分地解决了问题。
[0026] 关于这一点,有关本实施方式的情绪识别系统在个人之间不进行声音数据的比较,而进行个人内的声音数据的比较来识别声音情绪。声音情绪是指喜怒哀乐、负面情绪或正面情绪等该人的内心层面作为声音表现出来的情绪。本情绪识别系统不是使用听某个人的单体的声音而赋予的情绪的标签(将某个人现在高兴、悲伤这样的情绪数值化的绝对评价的标签),而是使用听相同的人的两个声音而赋予的情绪的标签(将根据某个人的两个声音掌握的情绪数值化的差分评价(相对评价)的标签),加标签者容易加标签,差分评价的标签相比于绝对评价的标签可靠性更高。另外,本情绪识别系统在推断情绪时使用的两个声音是同一讲话者的声音,但不需要是连续的声音。但是,优选的是使用在相同日期及/或相同场所取得的声音。
[0027] 根据本情绪识别系统,能够比以往抑制讲话者特性及环境特性的影响而识别基于同一人物的声音的差分的声音情绪。
[0028] 接着,基于附图说明本发明的实施方式。以下的记载及附图是用来说明本发明的例示,为了使说明明确而适当进行了省略及简略化。本发明也能够以其他各种形态实施。只要没有特别限定,各构成要素既可以是单个也可以是多个。另外,在以下的说明中,在图中对于相同的要素赋予相同的标号,并适当省略说明。
[0029] 另外,本说明书等中的“第1”、“第2”、“第3”等表述是为了识别构成要素而赋予的,并不一定是限定数量或顺序。此外,用于识别构成要素的编号是按每个场景而使用的,在1个场景中使用的编号在其他场景中并不一定表示相同的结构。此外,不限制由某个编号识别的构成要素兼具备由其他编号识别的构成要素的功能。
[0030] 图1是表示有关本实施方式的差分情绪识别装置101的处理流程的一例的图。
[0031] 首先,在学习阶段110中,使用者102准备学习用声音数据111和学习用差分情绪标签数据112。接着,使用者102使用差分情绪识别装置101,通过学习而生成差分情绪识别模型113。
[0032] 接着,在推断阶段120中,使用者102将连续声音数据121输入到差分情绪识别装置101,取得情绪推移数据122。
[0033] 图2是表示学习用声音数据111的一例(学习用声音表200)的图。
[0034] 学习用声音表200保存多个声音波形(声音数据)。对于多个声音波形分别赋予声音ID和讲话者ID。声音ID是唯一地识别声音波形的代码。讲话者ID是对声音波形的讲话者赋予的代码,是唯一地识别讲话者的代码。此外,在学习用声音表200中保存有多个人物的多个声音波形。
[0035] 图3是表示学习用差分情绪标签数据112的一例(学习用差分情绪标签表300)的图。
[0036] 学习用差分情绪标签表300保存多个差分情绪。差分情绪是由加标签者赋予的标签,并且是以第1声音ID的声音波形的声音(第1声音)为基准的、将第2声音ID的声音波形的声音(第2声音)的情绪数值化的标签。第1声音ID和第2声音ID示出与学习用声音数据111的声音ID对应的声音波形。
[0037] 假设第1声音ID及第2声音ID是由同一讲话者ID给出的。两个输入中的情绪的标签(差分值)是由加标签者附加的。另外,也可以如以往那样对于1个声音的情绪的绝对值被加上标签(保持在学习用声音数据111中),在学习时使用绝对值的差分作为差分值。例如,在学习用声音表200中保存有表示声音ID“1”的声音的情绪的绝对值“0.1”、保存有表示声音ID“2”的声音的情绪的绝对值“0.2”的情况下,作为与第1声音ID的绝对值“0.1”及第2声音ID的绝对值“0.2”对应的差分情绪也可以计算出差分值“0.1”。
[0038] 此外,学习用差分情绪标签表300也可以保存由多个加标签者给出的差分情绪,在此情况下,在学习中使用由多个加标签者给出的差分情绪的平均值等的统计值。此外,情绪类别也可以不是1个而设为多个,在此情况下,学习用差分情绪标签表300不是保存标量值而是保存向量值作为差分情绪。
[0039] 图4是表示差分情绪识别装置101的结构的一例的图。
[0040] 差分情绪识别装置101与通常的PC(PersonalComputer)的结构同样,具备存储装置400、CPU401、显示器402、键盘403及鼠标404作为组件。各个组件能够经由总线405收发数据。
[0041] 存储装置400具备学习程序411及差分情绪识别程序421作为程序。这些程序在启动时由CPU401通过存在于存储装置400内的未图示的OS(操作系统)读入并执行。
[0042] 差分情绪识别模型113例如为输入层的状态数是第1声音的特征量“512”和第2声音的特征量“512”的共计“1024”个状态、隐藏层是1层且状态数是“512”个状态、输出层的状态数是“1”个状态的神经网络。对于输入层的输入{xi(i=1…1024)},通过(式1)计算隐藏层的值{hj(j=1…512)}。
[0043] [数式1]
[0044]
[0045] 输出层的输出y是以第1声音为基准的第2声音的情绪的差分值,通过(式2)计算。
[0046] [数式2]
[0047]
[0048] 这里,s是激活函数,例如是Sigmoid函数,W是权重,b是偏置项。
[0049] 作为根据第1声音及第2声音求出特征量的方法,可以使用在下述的文献1中记载的对于时间序列的LLD(Low-LevelDescriptors:低级描述符)的统计量等。
[0050] 文献:铃木「音声に含まれる感情の認識(声音中包含的情绪的识别)」,日本音响学会志71卷9号(2015)pp.484-489
[0051] 另外,本实施方式并不限定神经网络的构造,可以使用任意的神经网络的构造及激活函数。此外,差分情绪识别模型113并不限定于神经网络,可以使用任意的模型。
[0052] 差分情绪识别装置101的功能(学习程序411、差分情绪识别程序421等)例如既可以通过由CPU401将程序读出到存储装置400中并执行(由软件)来实现,也可以由专用的电路等的硬件实现,也可以将软件与硬件组合来实现。另外,也可以将差分情绪识别装置101的1个功能分为多个功能,也可以将多个功能集中为1个功能。例如,差分情绪识别程序421也可以包括输入部422、处理部423、输出部424而构成。此外,差分情绪识别装置101的功能的一部分也可以作为其他的功能设置,也可以包含在其他的功能中。此外,差分情绪识别装置101的功能的一部分也可以由能够与差分情绪识别装置101连接的其他的计算机实现。例如,也可以将学习程序411设置在第1PC中,将差分情绪识别程序421设置在第2PC中。
[0053] 图5是表示学习程序411的流程图的一例的图。
[0054] 首先,学习程序411对差分情绪识别模型113的参数Wij1、bi1、Wi2、bi2赋予初始值(S501)。学习程序411给出用来使神经网络的学习容易推进的随机值作为初始值。
[0055] 接着,学习程序411从学习用声音数据111及学习用差分情绪标签数据112读入数据(S502)。
[0056] 接着,学习程序411将差分情绪识别模型113的参数更新(S503)。作为更新方法,可以使用神经网络中的反向传播(backpropagation)法。
[0057] 接着,学习程序411判定学习是否收敛了(S504)。收敛判定在执行了所设定的一定的次数、误差函数的值低于所设定的阈值等的条件下进行。
[0058] 图6是表示差分情绪识别程序421的流程图的一例的图。
[0059] 在执行差分情绪识别程序421前,由使用者102等将分析对象的声音作为连续声音数据121保存在存储装置400中。
[0060] 首先,差分情绪识别程序421读入1帧量的连续声音数据121,在将连续声音数据121读入完毕的情况下结束程序(S601)。
[0061] 接着,差分情绪识别程序421判定是否检测到声音区间(S602)。声音区间的检测可以使用已知的方法。例如是如下的方法:在音量为一定值以上的帧连续一定数量后,音量为一定值以下的帧连续一定数量时,将到此为止的帧群看作声音区间。在没有检测到声音区间的情况下,处理回到S601。另外,声音区间既可以是检测到声音的区间(一系列的帧群),也可以是包含检测到声音的区间之前的帧及/或之后的帧的区间。
[0062] 接着,差分情绪识别程序421将检测到的声音区间的信息保存到情绪推移数据122中(S603)。另外,在S603中将声音区间ID和声音区间数据保存到情绪推移数据122中,在S606中保存情绪推移。
[0063] 接着,差分情绪识别程序421判定是否能够选择声音区间的对(S604)。所选择的声音区间的对例如是在情绪推移数据122中在时间上相邻的对,可以设为在对之中的1个中包含没有计算出情绪推移的声音区间。这里,差分情绪识别程序421为了使情绪推移的计算稳健,也可以将相邻的对设为规定时间以内的多个对。此外,差分情绪识别程序421也可以进行将包含较短的声音区间、音量小的声音区间等认为难以进行情绪识别的声音区间在内的对排除的处理。
[0064] 接着,差分情绪识别程序421将所选择的声音区间的对(两个声音区间的声音数据)输入到差分情绪识别模型113,得到从差分情绪识别模型113输出的差分情绪(S605)。
[0065] 接着,差分情绪识别程序421基于差分情绪计算情绪推移,保存到情绪推移数据122中(S606)。为了求出某个声音区间的情绪推移,例如可以对于全部的对,求出对于与该声音区间成对的另1个声音区间的情绪推移加上所求出的差分情绪所得到的值,并取该值的平均值。最初的声音区间的情绪推移可以设为平均值“0”。然后,处理回到S601。
[0066] 在图6中,列举将从连续声音数据121中检测到的声音区间的对输入到差分情绪识别模型113而取得差分情绪的结构为例,但并不限于该结构。例如,差分情绪识别程序421也可以是将由使用者指定的两个声音数据输入到差分情绪识别模型113而取得差分情绪的结构。
[0067] 图7是表示情绪推移数据122的一例(情绪推移表700)的图。
[0068] 情绪推移表700按每个声音区间保存情绪推移。声音区间ID是唯一地识别声音区间的代码。声音区间数据是表示声音区间是从连续声音数据121的哪个位置到哪个位置的信息(例如,时刻区间信息)。情绪推移是由差分情绪识别程序421得到的声音区间的情绪推移值。
[0069] 图8是表示差分情绪识别装置101的用户接口的一例的图。
[0070] 使用者102从显示器402得到能够选择要输入的连续声音文件这样的信息。如果使用者102对键盘403及/或鼠标404进行操作,按下声音文件选择按钮801而选择保存在差分情绪识别装置101内的声音文件,则该声音文件的声音作为波形810在显示器402上被可视化,并且作为连续声音数据121保存到存储装置400中。使用者102通过接着按下分析开始按钮802,能够使差分情绪识别程序421执行。如果生成情绪推移数据122,则情绪推移值作为曲线图820在显示器402上被可视化。
[0071] 另外,由于情绪推移值是按每个声音区间来计算,所以在曲线图820中,情绪推移值被平滑地连结,以时间序列表示情绪推移。此外,被可视化的数据并不限于情绪推移值,也可以是情绪的类别,也可以是每种情绪类别的程度(差分情绪值)。
[0072] 如果用由以上说明的内容构成情绪识别系统,则使用者通过由对声音的情绪表现的差分值进行学习而得到的模型构成的差分情绪识别器,能够容易地确认特定的讲话者的声音的情绪的推移。
[0073] (II)第2实施方式
[0074] 在被设计为对于所输入的声音输出绝对的情绪评价值(情绪的绝对值)的以往的系统中,使用者有可能采取如下使用方式:输入不同的人物的声音,基于其情绪评价值进行对各人物的情绪方面的评价。如上述那样,情绪识别器的输出反映了少数的主观,并且精度也不能说是充分的,所以这样的使用在有些时候不能说是适当的使用。作为主要的用途,多数情况下对于同一人物的声音将情绪表现的起伏可视化等只要能够看到相对的情绪的变化就足够,但没有提供限定于这样的用途的机制。
[0075] 对于这一点,本实施方式的差分情绪识别装置901判定被输入的两个声音数据是否是同一讲话者的声音数据。另外,在本实施方式中,对于与第1实施方式相同的结构使用相同的标号,并省略其说明。
[0076] 图9是表示有关本实施方式的差分情绪识别装置901的处理流程的一例的图。
[0077] 本实施方式的差分情绪识别模型911包括同一讲话者识别部,作为输出层除了输出y以外还具有输出z。输出z是同一讲话者判定值,在第1声音和第2声音是同一讲话者的情况下输出“1”,在不是同一讲话者的情况下输出“0”。输出z通过(式3)计算。
[0078] [数式3]
[0079]
[0080] 另外,差分情绪识别模型911的参数为Wij1、bi1、Wi2、bi2、Wi3、bi3。
[0081] 在学习程序411中,在使用与第1实施方式同样的学习用声音数据111及学习用差分情绪标签数据112进行学习的情况下,标签z为“1”。除此以外,从学习用声音数据111取出讲话者ID不同的任意的两个声音数据,将标签y设为随机值(与学习用差分情绪标签数据112的差分情绪无关的值),将标签z设为“0”来更新参数。
[0082] 在差分情绪识别程序421中计算情绪推移时,在同一讲话者判定值小于阈值的情况下判断为不是同一讲话者,在被判定为不是同一讲话者的差分情绪值为整体的对的一定以上的比例的情况下,将情绪推移设为无效值。在由显示器402进行的情绪推移的可视化中,关于无效值的声音区间的结果,显示情绪识别是无效的。此外,差分情绪识别程序421在将情绪推移设为无效值的情况下也可以中止分析。
[0083] 另外,本实施方式并不限于差分情绪识别模型911包含同一讲话者识别部的结构。例如,也可以是在差分情绪识别装置901中设有差分情绪识别模型113和同一讲话者识别部(例如,神经网络的同一讲话者识别模型)的结构。
[0084] 如果用以上说明的内容构成情绪识别系统,则在使用者想要实施包含不同讲话者的声音的情绪识别的情况下不再能够得到其结果。由此,能够避免基于输入了不同人物的声音时的情绪评价值看作对于各人物的情绪方面的评价这样的使用方法。
[0085] (III)附记
[0086] 在上述的实施方式,例如包含以下这样的内容。
[0087] 在上述的实施方式中,对将本发明应用于情绪识别系统的情况进行了叙述,但本发明并不限于此,能够广泛地应用于其他各种系统、装置、方法、程序。
[0088] 此外,在上述的实施方中,有以“程序”为主语来说明处理的情况,由于程序通过被处理器部执行,一边适当地使用存储部(例如存储器)及/或接口部(例如通信端口)等一边进行所设定的处理,所以处理的主语也可以为处理器。以程序为主语说明的处理也可以设为处理器部或具有该处理器部的装置进行的处理。此外,处理器部也可以包括进行处理的一部分或全部的硬件电路(例如FPGA(Field-Programmable Gate Array)或ASIC(Application Specific Integrated Circuit))。
[0089] 此外,在上述的实施方式中,也可以将程序的一部分或全部从程序源安装到实现差分情绪识别装置的计算机那样的装置中。程序源例如也可以是用网络连接的程序分发服务器或计算机可读取的记录介质(例如非暂时性的记录介质)。此外,在上述的说明中,也可以将两个以上的程序作为1个程序实现,也可以将1个程序作为两个以上的程序实现。
[0090] 此外,在上述的实施方式中,各表的结构是一例,也可以将1个表分割为两个以上的表,也可以两个以上的表的全部或一部分为1个表。
[0091] 此外,在上述的实施方式中,图示及说明的画面是一例,只要受理的信息相同,则怎样的设计都可以。
[0092] 此外,在上述的实施方式中,图示及说明的画面是一例,只要提示的信息相同,则怎样的设计都可以。
[0093] 此外,在上述的实施方式中,对使用平均值作为统计值的情况进行了说明,但统计值并不限于平均值,也可以是最大值、最小值、最大值与最小值之差、众数、中位数、标准偏差等其他的统计值。
[0094] 此外,在上述的实施方式中,信息的输出并不限于向显示器的显示。信息的输出也可以是基于扬声器的声音输出,也可以是向文件的输出,也可以是印刷装置对纸介质等的印刷,也可以是投影机对屏幕等的投影,也可以是其他的形态。
[0095] 此外,在上述的说明中,可以将实现各功能的程序、表、文件等的信息放置到存储器、硬盘、SSD(Solid State Drive)等存储装置、或IC卡、SD卡、DVD等记录介质中。
[0096] 上述的实施方式例如具有以下的特征性的结构。
[0097] (1)情绪识别系统(例如,差分情绪识别装置101、差分情绪识别装置901、具备差分情绪识别装置101及能够与差分情绪识别装置101通信的计算机的系统、具备差分情绪识别装置901及能够与差分情绪识别装置901通信的计算机的系统)具备:输入部(例如,差分情绪识别程序421、输入部422、电路),输入第1声音数据和第2声音数据;以及处理部(例如,差分情绪识别程序421、处理部423、电路),向推断两个声音数据中的差分情绪的差分情绪识别模型(例如,差分情绪识别模型113、差分情绪识别模型911)输入上述第1声音数据和上述第2声音数据,从上述差分情绪识别模型取得表示上述第1声音数据和上述第2声音数据中的差分情绪的差分情绪信息。另外,第1声音数据和第2声音数据既可以包含在1个声音数据(例如,连续声音数据121)中,也可以是不同的声音数据。
[0098] 根据上述结构,例如根据两个声音数据来推断差分情绪(即,相对情绪),所以能够使情绪识别系统识别的情绪比根据1个声音数据推断的情绪(即,绝对情绪)更接近于实际的使用者的印象。
[0099] (2)上述情绪识别系统具备:判定部(例如,包括判定部的差分情绪识别程序421、判定部、电路),向推断两个声音数据的讲话者是否是同一讲话者的同一讲话者识别部(例如,差分情绪识别模型911、同一讲话者识别部)输入上述第1声音数据和上述第2声音数据,从上述同一讲话者识别部取得表示上述第1声音数据的讲话者和上述第2声音数据的讲话者是同一讲话者的判定信息(例如,既可以是表示不是同一讲话者的“0”或表示是同一讲话者的“1”,也可以是“0”~“1”的数值),按照所取得的判定信息,判定上述第1声音数据的讲话者和上述第2声音数据的讲话者是否是同一讲话者;以及输出部(例如,包括判定部的差分情绪识别程序421、输出部424、电路),输出与上述判定部的判定结果相应的信息。
[0100] 根据上述结构,可判定两个声音数据的讲话者是否是同一讲话者,所以例如能够避免输入不同的人的声音并评价各人的情绪的错误的使用方式。
[0101] (3)上述输出部在由上述判定部判定为是同一讲话者的情况下,输出由上述处理部取得的差分情绪信息(例如,曲线图820),在由上述判定部判定为不是同一讲话者的情况下,输出不是同一讲话者的声音的消息(例如,“存在不是同一讲话者的声音区间。该声音区间的曲线图不进行显示。”)。
[0102] 根据上述结构,能够提供例如拒绝不同人物间的声音的比较的机制。
[0103] (4)上述输入部输入连续声音数据(例如,连续声音数据121);上述处理部根据由上述输入部输入的连续声音数据检测声音区间,按每个声音区间从上述连续声音数据提取声音数据,从提取出的声音数据中选择一个声音数据和相对于上述一个声音数据处于规定时间以内的其他声音数据,向上述差分情绪识别模型输入上述一个声音数据和上述其他声音数据,取得表示上述一个声音数据和上述其他声音数据中的差分情绪的差分情绪信息(例如,参照图6)。
[0104] 根据上述结构,在被输入了连续声音数据的情况下,例如依次取得表示相邻的两个声音数据中的差分情绪的差分情绪信息,所以使用者能够掌握情绪的推移。
[0105] (5)上述差分情绪识别模型是使用同一人物的两个声音数据和表示上述两个声音数据中的差分情绪的差分情绪信息进行学习的(参照图5)。
[0106] 根据上述结构,由于进行对于同一人物的两个声音数据的加标签,所以例如加标签者容易推测情绪,能够减少标签依赖于加标签者的主观的状况。
[0107] (6)在上述同一讲话者识别部使用两个声音数据、表示上述两个声音数据中的差分情绪的差分情绪信息、以及表示上述两个声音数据的讲话者是否相同的信息进行学习时,在上述两个声音数据是不同人物的声音数据的况下,将表示上述两个声音数据中的差分情绪的差分情绪信息变更为与上述差分情绪信息无关的值(例如,随机值)来进行学习。
[0108] 根据上述结构,例如能够使差分情绪识别模型和同一讲话者识别部使用共通的数据进行学习,所以能够减轻准备用于学习的数据的负担。
[0109] (7)上述差分情绪识别模型是神经网络。
[0110] 根据上述结构,由于差分情绪识别模型是神经网络,所以能够减少因声音容易含糊的人、声音较高的人之类的讲话者特性、回响较大之类的环境特性等的变动因素的影响而规则不正确地发挥功能的状况,使推断的精度提高。
[0111] 此外,关于上述的结构,在不超过本发明的主旨的范围中也可以适当变更、改组、组合或省略。
[0112] “A、B及C中的至少1个”这样的形式的包含在列表中的项目,请理解为可以意味着(A)、(B)、(C)、(A及B)、(A及C)、(B及C)或(A、B及C)。同样,在“A、B或C中的至少1个”的形式中列出的项目,可以意味着(A)、(B)、(C)、(A及B)、(A及C)、(B及C)或(A、B及C)。

当前第1页 第1页 第2页 第3页
相关技术
系统情绪相关技术
识别方法相关技术
住吉贵志发明人的其他相关专利技术