首页 / 情感识别方法及系统

情感识别方法及系统实质审查 发明

技术领域

[0001] 本发明实施例涉及信息识别技术领域,尤其涉及一种情感识别方法及系统。

相关背景技术

[0002] 随着社交媒体和电商平台的快速发展,人们在网络上发布短文本信息,如微博、评论等,此类短文本包含了丰富的情感信息,包括积极、消极、中性等不同情感极性,而此类情感信息的准确识别便于对用户体验、品牌声誉、市场营销等方面提供决策依据。
[0003] 短文本情感识别分类分为基于机器学习的方法和基于深度学习的方法。其中基于机器学习的方法包括传统的基于机器学习的方法,在短文本情感识别中有一定的应用,例如支持向量机、朴素贝叶斯、最大熵模型等,但此类方法需要手动构建并提取特征,依赖于特征的构建。近年来,深度学习在自然语言处理领域取得了很大的成功,也在短文本情感识别中得到了广泛的应用,例如基于卷积神经网络、循环神经网络、注意力机制等的模型。此类方法可以自动从数据中学习特征,但基于深度学习的方法需要大量的训练数据,所以在实际应用中可能存在一些限制。传统的情感分析方法通常基于整篇文章或文档的情感识别,但此类方法难以处理短文本中的细粒度情感信息。同时网络用语、表情符号、新词等都影响判断短文本信息的情感意图。

具体实施方式

[0053] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0054] 本发明实施例中的用语“包括”和“具有”用以表示开放式的包括在内的意思,并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。此外,附图中的不同元件和区域只是示意性示出,因此本发明不限于附图中示出的尺寸或距离。
[0055] 为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
[0056] 图1为本发明实施例提供的一种情感识别方法的流程示意图。根据图1提供的示图,情感识别方法具体包括:
[0057] S101、获取目标文本对应的初始数据,初始数据是由目标文本经过预处理得到的。
[0058] 本发明应用于信息识别技术领域,尤其设计情感识别。通过将采集到的目标文本进行预处理,得到初始数据;再通过设定的针对短文本数据情感识别的细粒度规则,按照文本长短将初始数据整理成多个不同类型的文本。再根据不同长度的文本类型,分配不同的情感识别模型,更加有针对性的对不同长度的文本分别进行情感识别,最终得到更加准确的情感识别结果,实现短文本情感识别的技术效果。
[0059] 这里说的目标文本可以理解为短文本信息,如微博、评论对话等。这里说的初始数据可以理解为经过预处理后得到的指定格式的文本数据。这里说的预处理可以理解为对目标文本进行去重、整理或数据抽取处理。
[0060] 进一步地,通过网页搜索或下载获取大量目标文本,再通过一些数据预处理方式对目标文本进行预处理,得到指定数据格式的初始数据。
[0061] S102、设定初始数据的细粒度规则,得到初始数据对应不同长度的类别文本。
[0062] 这里说的细粒度规则可以理解为针对短文本进行识别的规则,用于确定目标文本的长短类型。这里说的类别文本可以理解为不同长度类别的文本数据。
[0063] 进一步地,在得到初始数据后,根据初始数据的信息量大小,进行设定类别,按照细粒度规则设定划分初始数据的文本大小,得到不同长度的类别文本,为下一步分配识别模型做准备。
[0064] S103、根据细粒度规则和类别文本,确定不同长度的类别文本对应的不同类别的情感识别模型。
[0065] 这里说的情感识别模型可以理解为用于识别文本信息中携带情感色彩内容的模型。通过情感识别模型识别文本表征的情感类别,例如积极情感或消极情感。
[0066] 进一步地,按照设定的细粒度规则得到不同类别文本,再通过将不同类别文本按照细粒度规则划分为不同的识别模型,进而确定每一种类别文本对应的情感识别模型,为下一步分别对类别文本进行情感识别做准备。
[0067] S104、将类别文本输入到对应的情感识别模型中进行识别处理,得到目标文本的情感识别结果。
[0068] 这里说的情感识别结果可以理解为每一种类别文本对应的情感类型。
[0069] 进一步的,在确定了每一种类被文本对应的情感识别模型后,将每一种类别文本分别放入对应情感识别模型中,根据不同类型的情感识别模型的不同,运用不同的识别处理,得到每一中类别文本对应的情感识别结果,进而达到通过设定细粒度规则识别短文本的目的,实现对短文本的情感识别处理的技术效果。
[0070] 本发明实施例提供的情感识别方法,通过获取目标文本对应的初始数据,初始数据是由目标文本经过预处理得到的;设定初始数据的细粒度规则,得到初始数据对应不同长度的类别文本;根据细粒度规则和类别文本,确定不同长度的类别文本对应的不同类别的情感识别模型;将类别文本输入到对应的情感识别模型中进行识别处理,得到目标文本的情感识别结果。通过对获得到初始数据按照设定的细粒度规则进行设定分类,确定情感识别模型,通过识别处理得到情感识别结果,由此方案,可以更加准确地表达和识别用户的情感倾向和理解用户情感,更好地支持情感分析应用,更好地支持舆情分析,实现对短文本的情感识别处理的技术效果。
[0071] 图2为本发明实施例提供的另一种情感识别方法的流程示意图。图2是在上一种实施例的基础上进行介绍的。参考图2提供的示图,情感识别方法具体还包括:
[0072] S201、获取目标文本中的对话文本。
[0073] 本发明应用于信息识别技术领域,尤其设计情感识别。通过将采集到的目标文本进行预处理,得到初始数据;再通过设定的针对短文本数据情感识别的细粒度规则,按照文本长短将初始数据整理成多个不同类型的文本。再根据不同长度的文本类型,分配不同的情感识别模型,更加有针对性的对不同长度的文本分别进行情感识别,最终得到更加准确的情感识别结果,实现短文本情感识别的技术效果。
[0074] S202、对对话文本进行信息提取的预处理,得到预设格式的初始数据,初始数据携带有对话发布人、对话内容、对话时间和对话主题。
[0075] 这里说的目标文本可以理解为短文本信息,如微博、评论对话等。这里说的初始数据可以理解为经过预处理后得到的指定格式的文本数据。这里说的预处理可以理解为对目标文本进行去重、整理或数据抽取处理。
[0076] 进一步地,通过网页搜索或下载获取大量目标文本,再通过一些数据预处理方式对目标文本进行预处理,得到有对话发布人、对话内容、对话时间和对话主题等信息的指定数据格式的初始数据。
[0077] 在一种可能的实例场景中,设定目标文本的预处理方式按照表1的格式进行预处理,得到初始数据。
[0078] 表1
[0079] 序号 对话发布人 对话内容 对话发布时间 对话主题         
[0080] 其中,对话主题可以按照对话内容进行提取、例如:爱国、社会热点、某类主题事件等,如无明显的主题倾向,作为无明显实际意义作为标记。
[0081] S203、根据初始数据的对话时间和对话主题,设定细粒度规则。
[0082] S204、根据细粒度规则设定周期性的初始数据,得到周期性文本。
[0083] S205、根据细粒度规则设定随机性的初始数据,得到随机性文本。
[0084] S206、根据细粒度规则设定主题性的初始数据,得到主题性文本。
[0085] S207、按照时、日、周和月的周期性文本,得到短周期文本、中周期文本和长周期文本,短周期文本表征短文本,中周期文本表征中文本,长周期文本表征长文本。
[0086] S208、按照设定时间范围内获取不同时间的随机性文本,得到随机性短文本、随机性中文本和随机性长文本,随机性短文本表征短文本,随机性中文本表征中文本,随机性长文本表征长文本。
[0087] S209、将主题性文本设定为长文本。
[0088] 这里说的周期性文本可以理解为按照设定周期时间定时采集目标文本后得到初始数据。例如,按照时、日、周和月方式采集目标文本后得到周期性文本。这里说的随机性文本可以理解为随机选定多个时间内对应的目标文本,按照对话主题和随机性采集对话时间得到的初始数据。这里说的主题性文本可以理解为按照初始数据中采集到的多个对话主题的不同进行分类,得到主体性文本。这里说的短文本可以理解为文本内容按照设定规则属于短文本类型的文本数据。这里说的中文本可以理解为文本内容按照设定规则属于中文本类型的文本数据。这里说的长文本可以理解为文本内容按照设定规则属于长文本类型的文本数据。
[0089] 进一步地,按照目标文本中包含的对话发布时间、对话主题进行细粒度规则设置。根据短文本对话的主题特点和对话发布时间,设置三个规则。
[0090] 1‑周期性文本
[0091] 按照细粒度规则将周期性文本记为Periodic_short_text,依据目标文本中记载的对话发布时间,将目标文本对应的初始数据按照小时、日、周、月等维度进行划分和短文本内容拼接。并将拼接后的周期性文本进行对话主题的标注和提取。
[0092] 周期性文本的格式具体参照表2:
[0093] 表2
[0094]周期 短文本内容 主题
小时    
日    
周    
月    
[0095] 其中,按照时、日的时间周期得到短周期文本,按照时周时间周期的初始数据长度得到中周期文本,按照月周期的初始数据长度得到长周期文本,短周期文本表征短文本,中周期文本表征中文本,长周期文本表征长文本。
[0096] 2‑随机性文本
[0097] 按照细粒度规则将随机性文本记为Random_short_text,依据初始数据中包含的对话发布时间,对当日内初始数据间隔大于B分钟的文本进行拼接,其中B取值范围在[1‑60]分钟之间。对拼接后的初始数据进行对话主题的标注和提取。
[0098] 周期性文本的格式具体参照表3:
[0099] 表3
[0100]周期 短文本内容 主题
B分钟    
[0101] 在一种可能的实例场景中,选定随机性B分钟为60分钟,按照设定的【0,20】分钟时间范围内获取的初始数据作为随机性短文本,按照设定的(20,40】分钟时间范围内获取的初始数据作为随机性中文本,按照设定的(40,60】分钟时间范围内获取的初始数据作为随机性长文本,随机性短文本表征短文本,随机性中文本表征中文本,随机性长文本表征长文本。
[0102] 3‑主题性文本
[0103] 按照细粒度规则将主题性文本记为Thematic_short_text,依据初始数据中包含的对话内容的主题提取,并根据主题种类,形成部分主题性文本。
[0104] 主题性文本的格式具体参照表4:
[0105] 表4
[0106]主题类型 短文本内容 时间
主题1    
主题2    
[0107] 根据主题性文本包含的数据信息量多,按照细粒度规则将主体性文本设定为长文本,进而完成细粒度规则对初始数据的类别划分。
[0108] S210、根据细粒度规则,确定短文本对应的情感识别模型为情感词典识别模型,确定中文本对应的情感识别模型为传统识别模型,以及确定长文本对应的情感识别模型为深度识别模型。
[0109] 这里说的情感词典识别模型可以理解为一种同义词或相近词的识别模型。这里说的传统识别模型可以理解为基于机器学习(朴素贝叶斯、最大熵、SVM、LR、树模型等)的方法可以从数据中自动学习Pattern的模型。这里说的深度识别模型可以理解为通过深度神经网络处理的识别模型。
[0110] 进一步地,根据细粒度规则,将周期性文本、随机性文本和主体性文本划分为短文本、中文本和长文本,在根据文本长度的不同,指定不同的识别模型,将短文本对应的情感识别模型设定为情感词典识别模型,将中文本对应的情感识别模型设定为传统识别模型,以及将长文本对应的情感识别模型设定为深度识别模型,为下一步分别识别文本情感类别做准备。
[0111] S211、将短文本输入到情感词典识别模型中进行识别处理,得到短文本对应的情感识别结果。
[0112] 这里通过词典识别模型进行情感识别的过程,具体步骤包括:
[0113] S301、创建短文本对应的情感词典的词汇文本;
[0114] S302、对词汇文本进行分词处理,得到文本句子;
[0115] S303、将文本句子与情感词典进行比对,得到比对结果;
[0116] S304、根据比对结果确定短文本的情感识别结果。
[0117] 在一种可能的实例场景中,基于情感词典Hownet和NTUSD两个情感词典,同时按照如下表5格式构建常用词典和生僻字、相近词。
[0118] 表5
[0119]主题类型 词典词汇 变形词汇
主题1    
主题2    
[0120] 根据表5的格式抽取数据信息,创建短文本对应的情感词典的词汇文本。然后利用jieba分词手段,对词汇文本进行分词处理,得到文本句子;
[0121] 然后将得到的文本句子与情感词典进行对比计算,得到比对结果;再通过tf‑idf的词频逆文档频率和LDA等犯方法进行对比计算,输出短文本情感识别结果,表征短文本的情感倾向。
[0122] S212、将中文本输入到传统识别模型中进行识别处理,得到中文本对应的情感识别结果。
[0123] 这里通过传统识别模型进行情感识别的过程,具体步骤包括:
[0124] 步骤1:将中文本输入到机器学习模型进行自动学习处理,得到自动学习结果;
[0125] 步骤2:根据自动学习结果确定中文本的情感识别结果。
[0126] 通过机器学习模型对中文本数据进行自动学习处理,得到自动学习结果,根据自动学习结果,分析得到中文本的情感识别结果。
[0127] 在一种可能的实例场景中,传统识别模型包括朴素贝叶斯、最大熵、SVM、LR、决策树模型等实现,具体实现方式在这里就不再赘述。
[0128] S213、将长文本输入到深度识别模型中进行识别处理,得到长文本对应的情感识别结果。
[0129] 这里通过深度识别模型进行情感识别的过程,具体步骤包括:
[0130] 步骤一:将长文本输入到神经网络模型中进行多层卷积处理,以及迭代处理,得到情感分类结果;
[0131] 步骤二:根据情感分类结果确定长文本对应的情感识别结果。
[0132] 在一种可能的实例场景中,深度识别模型可以是但不限于是TextCNN网络、LSTM网络、Attention网络或HAN模型等。将长文本输入到神经网络模型中进行多层卷积处理,以及迭代处理,得到长文本对应的情感识别结果,其他具体实现方式在这里就不再赘述。
[0133] S214、获取初始数据对应周期性文本、随机性文本和主题性文本的得分。
[0134] 这里说的得分可以理解为通过计算周期性文本、随机性文本和主题性文本的情感识别结果在整个事件中的识别成功的比例得到的分值。
[0135] S215、将周期性文本、随机性文本和主题性文本的得分进行加权平均处理,得到目标文本的情感综合分值。
[0136] 进一步地,按照周期性文本、随机性文本和主题性文本的情感识别结果在整个事件中的识别成功的比例得到的分值,再根据得到三者的比例系数,对三者进行加权平均计算,得到目标文本的情感综合分值。
[0137] S216、根据情感综合分值的大小确定目标文本的情感分类结果,情感分类结果包含积极情感或消极情感。
[0138] 进一步地,根据得到的情感综合得分,确定最终情感类别,同时提高目标文本的情感识别准确性。
[0139] 在一种可能的实例场景中,按照不同短文本细粒度构建规则,构建基于随机性短文本、周期性短文本、主题性短文本的加权情感识别分类器。
[0140] 采用加权公式1,计算目标文本的情感综合得分,将计算目标文本的情感综合得分记为Affective_composite_score,加权公式1如下:
[0141] 情感综合得分(Affective_composite_score)
[0142] =αPeriodic_short_text+βRandom_short_text
[0143] +γThematic_short_text
[0144] 其中,α、β和γ作为比例系数进行归一化处理,从而全方面对主题类文本的情感类别进行准确识别和判断。
[0145] 对目标文本内容进行情感识别和分类,确定文本的情感倾向是积极情感、消极情感、爱国情感或政治导向情感。同时设计目标文本加权策略,对主题类短文本的情感进行识别和分类,从而增加对主题类文本情感的用户识别。
[0146] 本发明实施例提供的另一种情感识别方法,通过对目标文本预处理得到初始数据,再根据设定的细粒度规则对初始数据进行类别划分,得到周期性短文本、周期性中文本和周期性长文本,同时对随机性文本进行划分得到随机性短文本、随机性中文本和随机性长文本,以及将主题性文本设定为长文本;再将短文本通过情感词典识别模型进行情感识别,对中文本进行传统识别模型进行情感识别,以及将长文本经过深度识别模型进行情感识别,得到对应的识别结果;再通过加权平均的方式进行打分,得到目标文本的情感综合得分,根据情感综合得分判断目标文本的情感倾向,可以更加准确地表达和识别用户的情感倾向和理解用户情感,更好地支持情感分析应用,更好地支持舆情分析,实现对短文本的情感识别处理的技术效果。
[0147] 图4为本发明实施例提供的一种情感识别系统的结构示意图。参考图4提供的示图,情感识别系统具体包括:
[0148] 获取模块41,用于获取目标文本对应的初始数据,初始数据是由目标文本经过预处理得到的;
[0149] 规则确定模块42,用于设定初始数据的细粒度规则,得到初始数据对应不同长度的类别文本;
[0150] 模型确定模块43,用于根据细粒度规则和类别文本,确定不同长度的类别文本对应的不同类别的情感识别模型;
[0151] 识别模块44,用于将类别文本输入到对应的情感识别模型中进行识别处理,得到目标文本的情感识别结果。
[0152] 本实施例提供的情感识别系统可以是如图4中所示的情感识别系统,可执行如图1‑2中情感识别方法的所有步骤,进而实现图1‑2所示情感识别方法的技术效果,具体请参照图1‑2相关描述,为简洁描述,在此不作赘述。
[0153] 以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页
相关技术
方法系统相关技术
识别方法相关技术
吕东发明人的其他相关专利技术