首页 / 文本分类方法及装置

文本分类方法及装置有效专利 发明

技术领域

[0001] 本申请实施例涉及数据处理技术领域,尤其是一种文本分类方法及装置。

相关背景技术

[0002] 文本分类问题是自然语言处理领域中一个非常重要的问题,随着统计学习方法的发展,解决大规模文本分类问题主要是采用人工特征工程以及浅层分类模型,整个文本分类问题就拆分成了特征工程和分类器两部分。
[0003] 利用CNN(Convolutional Neural Networks,卷积神经网络)或者RNN(Recurrent Neural Network,递归神经网络)等网络结构自动获取特征表达能力,去掉繁杂的人工特征工程。现有通过神经网络模型在softmaxs层分类,通过神经网络模型抽取的数字特征,通过softmax层做分类,但是由于CNN的softmax层使用交叉熵损失,对小样本容易过拟合,需要大量训练数据,而数据量比较大,IOU(Intersectionover Union,是一种测量在特定数据集中检测相应物体准确度的一个标准)过严的话训练数据时间长且不易收敛,为了降低训练时长加快收敛而调低IOU又会使得模型分类准确率不高。

具体实施方式

[0064] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0065] 在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0066] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0067] 本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
[0068] 具体请参阅图1,图1为本实施例文本分类方法的基本流程示意图。
[0069] 如图1所示,一种文本分类方法,包括:
[0070] S1100、获取待处理的目标文本;
[0071] 目标文本是待分类处理的文本,目标文本可以由多个字或者词条组成,在实施时,目标文本中包括至少一个特征词,特征词可以表征目标文本的文本类型,以目标文本为“唐诗三百首”为例,该目标文本中的特征词为“唐诗”,则该特征词表征目标文本为唐诗类型,根据文本中携带的相关信息可以对文本进行分类。
[0072] S1200、通过卷积神经网络中的卷积层,提取所述目标文本的文本分类特征。
[0073] 对目标文本进行分类,需要先获取该目标文本的文本分类特征,可以通过卷积神经网络来提取目标文本的文本分类特征,在实施时,通过使用卷积神经网络(Convolutional Neural Network,CNN)对目标文件进行文本分类,其中,卷积神经网络的卷积层能抽取目标文本的文本分类特征。当然,在实施时,还可以采用其它特征提取模型,例如Word2vec模型,word2vec模型使用文档中每个词语的平均数来将文档转换为向量,然后这个向量可以作为预测的特征,来计算文档相似度。通过Word2vec模型提取目标文本中的特征词并转换为向量,然后将该向量与上述的数字特征进行拼接即为文本分类特征。
[0074] S1300、根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息。
[0075] 系统通过卷积神经网络对目标文本进行特征提取得到文本分类特征,并由支持向量机(Support Vector Machine,SVM)对该文本分类特征做分类,从而得到与目标文本对应的文本分类信息,在实施时,神经网络包括卷积层和输出层(softmax层),其中,神经网络的卷积层能抽取目标文本的文本分类特征,再由神经网络中的输出层做分类。由于神经网络的softmax层使用交叉熵损失,对小样本容易过拟合,需要大量训练数据,而数据量比较大,IOU过严的话训练数据时间长且不易收敛,本申请文本分类方法通过使用支持向量机替代卷积神经网络中的softmax层,支持向量机这种机制是由于其适用于小样本训练,通过SVM代替了CNN的softmaxs层,来对CNN的卷机层提取的特征做分类,其中,CNN的卷积过程在训练的过程,是一个对线性不可分的数据增加其线性可分程度的过程,当CNN的feature(特征)提取生效之后,原本线性不可分的分类样本趋于线性可分的时候,SVM只用抽取的部分样本特征的分类性能就比CNN的softmax层分类的精确率高。
[0076] 本实施例通过获取待处理的目标文本,并通过卷积神经网络提取目标文本的文本分类特征,然后使用支持向量机对提取的文本分类特征做分类,由支持向量机代替了卷积神经网络中的输出层对文本分类特征做分类,支持向量机只用部分文本分类特征就能实现对目标文本的分类功能,将卷积神经网络提取特征准确的特性和支持向量机适用于小样本训练的特性进行结合,能有效提高分类的准确率。
[0077] 在一些可选实施例中,请参照图2,图2是本申请一个实施例提取文本分类特征的基本流程示意图。
[0078] 如图2所示,获取待处理的目标文本之后,所述方法包括:
[0079] S1210、提取所述目标文本的特征向量,并提取所述目标文本中多个目标特征词的特征词加权值;
[0080] 在实施时,系统通过CNN模型抽取目标文本的特征向量,以目标文本为“你吃饭了吗”为例,假设设置目标文本的特征向量维数为5,(一般设置为100维左右,为方便举例在此设置为5)对该目标文本进行数字特征抽取之后的特征向量为:“0.0,1.4505149,0.0,0.030232668,1.4103324”,在该实施例中,上述特征向量与目标文本的字数无关,目标文本无论字数为多少,都映射到统一的固定维数特征向量中。
[0081] 目标文本由多个字或者多个词条组成,其中,目标文本中的部分单字或者部分词条可以组成该目标特征词,系统提取目标特征词的特征词加权值可以通过传统算法模型来实现,在实施时,传统算法模型可以对目标文本抽取可理解的特征词作为目标特征词,例如可以通过使用卡方(CHI),词频(tf),信息增益(IG),互信息(MI)以及交叉熵模型中的至少一种对目标文本进行特征词抽取得到目标特征词,并获取目标特征词对应的tf-idf值,该tf-idf值即特征词加权值,tf-idf(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,其中,tf是指词频(Term Frequency),idf是指逆文本频率(Inverse Document Frequency),通过获取目标特征词的词频和逆文本频率即可计算出该目标特征词的特征词加权值。
[0082] S1220、将所述特征向量和所述特征词加权值进行拼接生成所述文本分类特征;
[0083] 系统将特征向量和特征词加权值进行拼接可以采用将特征词加权值并入特征向量的方式,还是以上述的目标文本为“你吃饭了吗”为例,该目标文本的特征维数为5,对该目标文本进行数字特征抽取之后的特征向量为:“0.0,1.4505149,0.0,0.030232668,1.4103324”,对目标文本抽取特征词集:(“你”,“吃饭”),其中,目标特征词“你”和“吃饭”的特征词加权值分别为0.32和0.45,系统将特征向量和特征词加权值进行拼接的结果为:
“0.0,1.4505149,0.0,0.030232668,1.4103324,0.32,0.45”,其中,前五位为神经网络抽取的特征向量,后两位为传统算法模型抽取的两个目标特征词对应的特征词加权值,该拼接结果即目标文本的文本分类特征。
[0084] 通过将所述特征向量和所述特征词加权值进行拼接生成所述文本分类特征,与直接通过卷积神经网络中的卷积层获取的特征向量,使得文本分类特征更加准确,且增加了文本分类的可调节性。
[0085] 在一些可选实施例中,请参阅图3,图3是本申请一个实施例抽取目标特征词的基本流程示意图。
[0086] 如图3所示,所述提取所述目标文本中多个目标特征词的特征词加权值之前,包括:
[0087] S1201、将所述目标文本进行分词处理得到多个文本词条;
[0088] 分词是指将连续的字序列按照一定的规范重新组合成词序列的过程,在实施时,可以使用分词算法对目标文本进行分词,分词算法包括:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。以基于字符串匹配的分词方法为例,基于字符串匹配的分词方法又叫做机械分词方法,其是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,识别出一个词,通过对目标文本件分词从而得到多个组成该目标文本的文本词条。
[0089] S1202、根据预设的语言模型在所述多个文本词条中进行特征词抽取得到所述目标特征词。
[0090] 语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。在实施时,所述语言模型包括但不限于卡方(CHI),词频(tf),信息增益(IG),互信息(MI)以及交叉熵模型。以互信息为例,从文本中提取特征可以通过计算文档中的词项(目标特征词)与文档类别的互信息MI,MI度量的是词项的存在与否给文档类别带来的信息量,如果某个词项均匀的分布在各个类别,那么,当某词项总是出现在当前类别,而在其他类别中很少出现时,就会比较大,使用互信息能够保留具有信息含量的词项的同时,去掉那些没有信息含量的词项,从而提高正确率。
[0091] 在一些可选实施例中,请参阅图4,图4是本申请一个实施例提取特征词加权值的基本流程示意图。
[0092] 如图4所示,所述提取所述目标文本中多个目标特征词的特征词加权值,包括:
[0093] S1211、获取目标特征词的词频信息和逆文本频率;
[0094] 目标文本中包括多个目标特征词,每个目标特征词包括对应的词频信息和逆文本频率,其中,词频(Term Frequency,TF)指某个词在文本中的出现频率,词频的计算公式为:逆文本频率(Inverse Document Frequency,IDF)
的大小与一个词的常见程度成反比,计算逆文本频率IDF需要一个语料库(corpus),用来模拟语言的使用环境,逆文本频率的计算公式为:
如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0,分母要加1以避免分母为
0(即所有文档都不包含该词)的情况,log表示对得到的值取对数。
[0095] S1212、将所述词频信息和逆文本频率作为相应目标特征词的特征词加权值。
[0096] 特征词加权值是指TF-IDF值,每个目标特征词均有对应的特征词加权值,特征词加权值的计算公式为:TF-IDF=TF*IDF,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。以《中国的蜜蜂养殖》一文为例,假定该文长度为1000个词,其中,"中国"、"蜜蜂"、"养殖"各出现20次,则这三个词的"词频"(TF)都为0.02。通过网络搜索发现,包含"的"字的网页共有250亿张,以这就是语料库的文档总数为例,包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张,则它们的逆文档频率(IDF)和TF-IDF如图9所示,"蜜蜂"的TF-IDF值为0.0543,"养殖"的TF-IDF值为0.0482,"中国"的TF-IDF值为0.0121。
[0097] 在一个可选实施例中,请参阅图5,图5是本申请一个实施例计算文本偏好信息的基本流程示意图。
[0098] 如图5所示,所述根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息之后,包括:
[0099] S1400、获取预设时间段内所述支持向量机的输出历史记录,其中,所述输出历史记录中包括多个所述文本分类信息;
[0100] 系统对文本进行分类后会生成对应的记录,系统通过获取预设时间段内支持向量机的输出历史记录来计算分类得到较多的文档类型,其中,预设时间是系统内预先设置的一个时间阈值,例如预设时间为3天、15天或者30天,若该预设时间段内卷积神经网络输出多条文本分类信息,则该输出历史记录中包括与多个文本分别对应的文本分类信息。
[0101] S1500、根据多个所述文本分类信息进行整合生成文本偏好信息。
[0102] 系统将这些文本分类信息进行整合得到文本爱好信息,在实施时,整合的原理为提取文本分类信息中对应文本类型数量最多的作为文本偏好信息,以预设时间为7天为例,系统获取7天内进行文本分类的全部记录,并提取记录中携带的文本分类信息以及与文本分类信息对应的文本类型,在一些实施例中,以目标文本包括文本1、文本2、文本3和文本4为例,其中,文本1、文本2、文本3和文本4对应的文本类型分别为“金融”、“股票”、“体育”和“金融”,系统获取卷积神经网络输出的对应文本1、文本2、文本3和文本4的文本分类信息,并将这些文本分类信息中的文本类型进行整合生成对应“金融”的文本偏好信息。系统可以进一步根据该文本偏好信息向用户推荐有关金融方面的文章或者新闻。
[0103] 在一个可选实施例中,请参阅图6,图6是本申请一个实施例验证文本分类准确率的基本流程示意图。
[0104] 如图6所示,所述根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息之后,包括:
[0105] S1600、获取所述目标文本中预设的类型校验信息;
[0106] 在实施时,目标文本中携带有类型校验信息,该类型校验信息是预先设置且该类型校验信息表征目标文本的文本类型。
[0107] S1700、将所述类型校验信息和所述文本分类信息进行比对;
[0108] S1800、当所述类型校验信息和所述文本分类信息不相匹配时,将所述目标文本和所述文本分类信息进行收录生成分类异常日志。
[0109] 系统提取目标文本的类型校验信息并与支持向量机输出的文本分类信息进行比对,当类型校验信息与文本分类信息不相匹配时,说明对目标文本的分类不准确,此时系统收录该目标文本和文本分类信息生成分类异常日志,以方便后期根据该分类异常日志调整和改进分类方法,提高分类准确率。
[0110] 为解决上述技术问题,本申请实施例还提供一种文本分类装置。
[0111] 具体请参阅图7,图7为本实施例文本分类装置基本结构示意图。
[0112] 如图7所示,一种文本分类装置,包括:第一获取模块2100、第一处理模块2200和第一执行模块2300,其中,第一获取模块2100用于获取待处理的目标文本;第一处理模块2200用于通过卷积神经网络中的卷积层,提取所述目标文本的文本分类特征;第一执行模块2300用于根据所述文本分类特征,通过所述预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息。
[0113] 本实施例通过获取待处理的目标文本,并通过卷积神经网络提取目标文本的文本分类特征,然后使用支持向量机对提取的文本分类特征做分类,由支持向量机取代了原来卷积神经网络中的softmax层对文本特征进行分类,支持向量机只用部分文本分类特征就能实现对目标文本的分类功能,将卷积神经网络提取特征准确的特性和支持向量机适用于小样本训练的特性进行结合,能有效提高分类的准确率。
[0114] 在一些实施方式中,文本分类装置还包括:第一获取子模块和第一执行子模块,其中,第一获取子模块用于提取所述目标文本的特征向量,并提取所述目标文本中多个目标特征词的特征词加权值;第一执行子模块用于将所述特征向量和所述特征词加权值进行拼接生成所述文本分类特征。
[0115] 在一些实施方式中,文本分类装置还包括:第一处理子模块和第二执行子模块,其中,第一处理子模块用于将所述目标文本进行分词处理得到多个文本词条;第二执行子模块用于根据预设的语言模型在所述多个文本词条中进行特征词抽取得到所述目标特征词。
[0116] 在一些实施方式中,所述语言模型包括CHI、tf、IG、MI、交叉熵模型中的至少一种。
[0117] 在一些实施方式中,文本分类装置还包括:第二获取子模块和第二处理子模块,其中,第二获取子模块用于获取目标特征词的词频信息和逆文本频率;第二处理子模块用于将所述词频信息和逆文本频率作为相应目标特征词的特征词加权值。
[0118] 在一些实施方式中,文本分类装置还包括:第二获取模块和第二执行模块,其中,第二获取模块用于获取预设时间段内所述卷积神经网络的输出历史记录,其中,所述输出历史记录中包括多个所述文本分类信息;第二执行模块用于根据多个所述文本分类信息进行整合生成文本偏好信息。
[0119] 在一些实施方式中,文本分类装置还包括:第三获取模块、第二处理模块和第三执行模块,其中,第三获取模块用于获取所述目标文本中预设的类型校验信息;第二处理模块用于将所述类型校验信息和所述文本分类信息进行比对;第三执行模块用于当所述类型校验信息和所述文本分类信息不相匹配时,将所述目标文本和所述文本分类信息进行收录生成分类异常日志。
[0120] 关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0121] 在一些可选实施例中还提供一种电子设备,如图8所示,图8所示的电子设备6000包括:处理器6001和存储器6003。其中,处理器6001和存储器6003相连,如通过总线6002相连。可选地,电子设备6000还可以包括收发器6004。需要说明的是,实际应用中收发器6004不限于一个,该电子设备6000的结构并不构成对本申请实施例的限定。
[0122] 处理器6001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器6001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
[0123] 总线6002可包括一通路,在上述组件之间传送信息。总线6002可以是PCI总线或EISA总线等。总线6002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0124] 存储器6003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
[0125] 存储器6003用于存储执行本申请方案的应用程序代码,并由处理器6001来控制执行。处理器6001用于执行存储器6003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
[0126] 其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
[0127] 本申请还提供一种计算机可读存储介质,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述任意实施例所述的文本分类方法的步骤。与现有技术相比,本申请实施例中,通过获取待处理的目标文本,并通过卷积神经网络提取目标文本的文本分类特征,然后使用支持向量机对提取的文本分类特征做分类,由支持向量机取代了原来卷积神经网络中的softmax层对文本特征进行分类,支持向量机只用部分文本分类特征就能实现对目标文本的分类功能,将卷积神经网络提取特征准确的特性和支持向量机适用于小样本训练的特性进行结合,能有效提高分类的准确率。
[0128] 本申请公开了A1、一种文本分类方法,包括:
[0129] 获取待处理的目标文本;
[0130] 通过卷积神经网络中的卷积层,提取所述目标文本的文本分类特征;
[0131] 根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息。
[0132] A2.根据A1所述的文本分类方法,获取待处理的目标文本之后,所述方法包括:
[0133] 提取所述目标文本的特征向量,并提取所述目标文本中多个目标特征词的特征词加权值;
[0134] 将所述特征向量和所述特征词加权值进行拼接生成所述文本分类特征。
[0135] A3.根据A2所述的文本分类方法,所述提取所述目标文本中多个目标特征词的特征词加权值之前,包括:
[0136] 将所述目标文本进行分词处理得到多个文本词条;
[0137] 根据预设的语言模型在所述多个文本词条中进行特征词抽取得到所述目标特征词。
[0138] A4.根据A3所述的文本分类方法,所述语言模型包括CHI、tf、IG、MI、交叉熵模型中的至少一种。
[0139] A5.根据A2所述的文本分类方法,所述提取所述目标文本中多个目标特征词的特征词加权值,包括:
[0140] 获取目标特征词的词频信息和逆文本频率;
[0141] 将所述词频信息和逆文本频率作为相应目标特征词的特征词加权值。
[0142] A6.根据A1所述的文本分类方法,所述根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息之后,包括:
[0143] 获取预设时间段内所述支持向量机的输出历史记录,其中,所述输出历史记录中包括多个所述文本分类信息;
[0144] 根据多个所述文本分类信息进行整合生成文本偏好信息。
[0145] A7.根据A1所述的文本分类方法,所述根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息之后,包括:
[0146] 获取所述目标文本中预设的类型校验信息;
[0147] 将所述类型校验信息和所述文本分类信息进行比对;
[0148] 当所述类型校验信息和所述文本分类信息不相匹配时,将所述目标文本和所述文本分类信息进行收录生成分类异常日志。
[0149] 本申请还公开了B8.一种文本分类装置,包括:
[0150] 第一获取模块,用于获取待处理的目标文本;
[0151] 第一处理模块,用于卷积神经网络中的卷积层,提取所述目标文本的文本分类特征;
[0152] 第一执行模块,用于根据所述文本分类特征,通过所述预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息。
[0153] B9.根据B8所述的文本分类装置,还包括:
[0154] 第一获取子模块,用于提取所述目标文本的特征向量,并提取所述目标文本中多个目标特征词的特征词加权值;
[0155] 第一执行子模块,用于将所述特征向量和所述特征词加权值进行拼接生成所述文本分类特征。
[0156] B10.根据B9所述的文本分类装置,还包括:
[0157] 第一处理子模块,用于将所述目标文本进行分词处理得到多个文本词条;
[0158] 第二执行子模块,用于根据预设的语言模型在所述多个文本词条中进行特征词抽取得到所述目标特征词。
[0159] B11.根据B10所述的文本分类装置,所述语言模型包括CHI、tf、IG、MI、交叉熵模型中的至少一种。
[0160] B12.根据B9所述的文本分类装置,还包括:
[0161] 第二获取子模块,用于获取目标特征词的词频信息和逆文本频率;
[0162] 第二处理子模块,用于将所述词频信息和逆文本频率作为相应目标特征词的特征词加权值。
[0163] B13.根据B8所述的文本分类装置,还包括:
[0164] 第二获取模块,用于获取预设时间段内所述卷积神经网络的输出历史记录,其中,所述输出历史记录中包括多个所述文本分类信息;
[0165] 第二执行模块,用于根据多个所述文本分类信息进行整合生成文本偏好信息。
[0166] B14.根据B8所述的文本分类装置,还包括:
[0167] 第三获取模块,用于获取所述目标文本中预设的类型校验信息;
[0168] 第二处理模块,用于将所述类型校验信息和所述文本分类信息进行比对;
[0169] 第三执行模块,用于当所述类型校验信息和所述文本分类信息不相匹配时,将所述目标文本和所述文本分类信息进行收录生成分类异常日志。
[0170] 本申请还公开了C15.一种电子设备,其包括:
[0171] 处理器、存储器和总线;
[0172] 所述总线,用于连接所述处理器和所述存储器;
[0173] 所述存储器,用于存储操作指令;
[0174] 所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请A1~A7所示的文本分类方法对应的操作。
[0175] 本申请还公开了D16.一种计算机可读存储介质,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行本申请A1至A7所示的文本分类方法。
[0176] 应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0177] 以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页 第1页 第2页 第3页
相关技术
文本分类相关技术
方法装置相关技术
李冉发明人的其他相关专利技术