首页 / 文本分类模型训练方法、文本分类方法、装置

文本分类模型训练方法、文本分类方法、装置实质审查 发明

技术领域

[0001] 本申请的实施例涉及文本挖掘技术领域,尤其涉及一种文本分类模型训练方法、文本分类方法、装置。

相关背景技术

[0002] 呼叫中心的投诉处理是客户服务的核心工作之一,随着人工智能技术的发展,呼叫中心引入了智能投诉处理,智能投诉处理要解决的技术问题是投诉文本的全量分类,投诉文本往往是大篇幅的文本,目前的文本分类处理技术很难实现全量投诉文本的分类。

具体实施方式

[0021] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0022] 需要说明的是,本申请实施例提供的文本分类模型训练方法及文本分类方法,可以由电子设备执行,该电子设备可以为服务器也可以为终端设备,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。
[0023] 图1示出了根据本申请的实施例的文本分类模型训练方法的流程图。在一些实施例中,图1所示文本分类模型训练方法可以由上述电子设备执行。如图1所示,该方法包括步骤101、步骤102、步骤103、步骤104、步骤105和步骤106,其中:步骤101,确定当前分类模型的种类。
[0024] 在本申请实施例中,分类模型的种类为正则表达式或神经网络模型。
[0025] 需要说明的是,正则表达式可以为包括关键词的数量和关键词之间的逻辑关系,需要注意的是,正则表达式可以不包括具体的关键词。还需要说明的是,神经网络模型可以为简单的神经网络模型,也可以为复杂的神经网络模型。简单的神经网络模型例如可以为二分类模型、三分类模型等,复杂的神经网络模型例如可以为Bert模型,当然,本申请实施例中提到的神经网络模型不限于上述列举的模型,只要能实现文本分类的模型均可。在本申请实施例中,神经网络模型为未经训练的神经网络模型。在选用简单的神经网络时,用户在训练该神经网络模型时,只需要输入标注好的数据,无需复杂的操作,从而可以方便操作人员的操作。
[0026] 在一种可实现的方式中,当检测到用户触发的确定分类模型的种类的请求信息时,基于请求信息从模型数据库(模型数据库中存储有多个正则表达式和多个神经网络模型)中随机获取一个分类模型。在另一种可实现的方式中,用户可指定分类模型的种类,基于用户指定的分类模型,从模型数据库中获取相应的分类模型。
[0027] 步骤102,基于当前分类模型对未分类的样本数据进行分类。
[0028] 在本申请实施例中,在基于当前分类模型对未分类的样本数据进行分类时,若选用正则表达式来进行分类,则该正则表达式为已经填入关键词的表达式,若选用神经网络模型来进行分类,则该神经网络模型为已经训练完成的神经网络模型。需要说明的是,对于正则表达式的构造和神经网络模型的训练将在下文中进行介绍。
[0029] 在本申请实施例中,未分类的样本数据可以为电信呼叫中心、商品售后服务中心等的投诉文本。该未分类的样本数据可以是上一个分类模型未分类所剩余的投诉文本,也可以是历史投诉文本。
[0030] 需要说明的是,选用正则表达式或神经网络模型对投诉文本进行分类的具体实现方式此处不再赘述。
[0031] 步骤103,根据分类后的样本数据和未分类的样本数据,确定是否增加下一个分类模型。
[0032] 在本申请实施例中,由于要对投诉文本进行全量分类(可以理解为对全部投诉文本进行分类),若未对未分类的样本数据全部分类,则确定需要增加下一个分类模型。
[0033] 当然,在实际操作中,为了提高分类的效率,可不全部对未分类的样本数据进行分类。
[0034] 在一种可实现的方式中,可以通过判断分类后的样本数据在未分类的样本数据中所占的比值是否达到第一预设阈值来确定是否增加下一个分类模型。具体地,若分类后的样本数据在未分类的样本数据中所占的比值小于第一预设阈值,则增加下一个分类模型;若分类后的样本数据在未分类的样本数据中所占的比值大于等于第一预设阈值,则不增加下一个分类模型。
[0035] 在另一种可实现的方式中,可以通过判断剩余的未分类的样本数据在未分类的样本数据中所占的比值是否达到第二预设阈值来确定是否增加下一个分类模型。具体地,若剩余的未分类的样本数据在未分类的样本数据中所占的比值大于等于第二预设阈值,则增加下一个分类模型;若剩余的未分类的样本数据在未分类的样本数据中所占的比值小于第二预设阈值,则不增加下一个分类模型。
[0036] 需要说明的是,第一预设阈值和第二预设阈值的具体取值,本申请实施例不做限制,本领域技术人员可以根据实际需要来灵活地设置。
[0037] 步骤104,在确定增加下一个分类模型时,则确定下一个分类模型的种类。
[0038] 在本申请实施例中,下一个分类模型的种类的确定方式与上述的当前分类模型的确定方式相同,此处不再赘述。
[0039] 步骤105,基于下一个分类模型对剩余的未分类的样本数据进行分类,直至确定无需增加新的分类模型。
[0040] 在本申请实施例中,基于下一个分类模型对剩余的未分类的样本数据进行分类的方式,与基于当前分类模型对未分类的样本数据进行分类的方式相同。并且,确定是否需要增加新的分类模型的方式与上述的确定方式相同,此处均不再赘述。
[0041] 步骤106,按照确定分类模型的种类的顺序,将分类模型进行组合以形成文本分类模型。
[0042] 在本申请实施例中,可以按照确定分类模型的种类的顺序形成一个队列,将训练完成的神经网络模型或编辑完成的正则表达式,按照确定其种类的顺序加入至队列中进行保存,从而形成文本分类模型。
[0043] 在一些实施例中,若分类模型为正则表达式,则分类模型包括关键词、关键词之间的逻辑关系以及正则表达式的分类结果;若分类模型为神经网络模型,则分类模型包括神经网络模型的参数、置信度阈值以及神经网络模型的分类结果。
[0044] 那么,按照确定分类模型的种类的顺序将分类模型进行组合以形成文本分类模型具体可以采用如下方式:每次确定的分类模型的种类均为正则表达式:按照确定分类模型的种类的顺序形成一个队列,将每次确定出的正则表达式对应的关键词、关键词之间的逻辑关系以及正则表达式的分类结果保存至队列相应位置。
[0045] 每次确定的分类模型的种类均为神经网络模型:按照确定分类模型的种类的顺序形成一个队列,将每次确定出的神经网络模型的参数、置信度阈值以及神经网络模型的分类结果保存至队列相应位置。
[0046] 确定出的分类模型的种类即有正则表达式,又有神经网络模型:按照确定分类模型的种类的顺序形成一个队列,在队列中,若某次确定的分类模型为正则表达式,则将正则表达式对应的关键词、关键词之间的逻辑关系以及正则表达式的分类结果保存至相应位置;若某次确定的分类模型为神经网络模型,则将神经网络模型的参数、置信度阈值以及神经网络模型的分类结果保存至队列相应位置。
[0047] 在一种可实施的方式中,神经网络模型分类的结果还需要结合置信度阈值来进行确定,即计算神经网络模型分类结果的置信度,并和置信度阈值进行比较,大于等于置信度阈值的结果作为神经网络模型的分类结果。采用此种方式时,在将分类模型组合形成文本分类模型时,还需要保存神经网络模型对应的置信度阈值至队列中。
[0048] 根据本申请实施例,首先确定当前分类模型的种类,然后基于当前分类模型对未分类的样本数据进行分类,并根据分类后的样本数据和未分类的样本数据确定是否增加下一个分类模型,在需要增加时增加下一个分类模型,并在下一个分类模型的基础上判断是否还需要再增加分类模型,直到不需要再增加分类模型时,按照确定分类模型的种类的顺序,将分类模型进行组合以形成文本分类模型,采用此种方式训练得到的文本分类模型,能够实现对样本数据进行全量分类。
[0049] 需要说明的是,若确定不增加下一个分类模型,则执行步骤106,否则执行步骤104,在执行步骤106时,即按照确定分类模型的种类的顺序,将当前分类模型和在当前分类模型之前的分类模型进行组合以形成文本分类模型。
[0050] 在一些实施例中,在基于当前分类模型对未分类的样本数据进行分类之前,若分类模型为正则表达式,则需要构造相应的正则表达式,若分类模型为神经网络模型,则需要训练相应的神经网络模型。
[0051] 构造正则表达式时,由于正则表达式包括关键词的数量和关键词之间的逻辑关系,在构造时只需填入相应数量的关键词,使之符合相应的逻辑关系,并给出正则表达式的分类结果即可。
[0052] 训练神经网络模型时,对未分类的样本数据添加标签,根据添加标签后的未分类的样本数据来训练神经网络模型。在一种可实施的方式中,为增强神经网络模型的准确性,可对未分类的样本数据进行数据增强。
[0053] 进一步地,还可以将添加标签后的未分类的样本数据划分为训练集和测试集,采用训练集来训练神经网络模型,采用测试集来测试训练完成的神经网络模型。
[0054] 在一些实施例中,为了提高文本分类模型的分类结果的准确率,可以在根据分类后的样本数据和未分类的样本数据,确定是否增加下一个分类模型之前,向用户展示当前分类模型对未分类的样本数据的分类结果,由用户查看该分类结果,在确认该分类结果准确后,执行确定是否增加下一个分类模型的步骤。在一种可实施的方式中,可以响应于用户的确认信息,来执行是否增加下一个分类模型的步骤。
[0055] 在一些实施例中,在确定了文本分类模型之后,又获取到新的未分类的样本数据,则基于新的未分类的样本数据确定新的文本分类模型,其具体实现方式与上述确定文本分类模型的方式相同,此处不再赘述。在确定出新的文本分类模型之后,将其按照先后顺序进行组合以形成最终的文本分类模型。
[0056] 需要说明的是,最终的文本分类模型可以是由多次确定出的文本分类模型组合形成的,值得注意的是,在将其组合时按照文本分类模型确定的先后顺序进行组合即可。
[0057] 图2示出了根据本申请的实施例的文本分类方法的流程图。在一些实施例中,图2所示文本分类方法可以由上述电子设备执行。如图2所示,该方法包括步骤201和步骤202,其中:步骤201,获取待分类文本数据;
步骤202,通过文本分类模型对待分类文本数据进行分类。
[0058] 在本申请实施例中,文本分类模型包括多个按照特定顺序进行排序的子模型,每个子模型的种类可以为正则表达式,也可以为神经网络模型。特定顺序,即子模型的种类被确定的顺序。
[0059] 需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
[0060] 以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
[0061] 图3示出了根据本申请的实施例的文本分类模型训练装置的方框图。在一些实施例中,图3所示文本分类模型训练装置可以被实现为上述电子设备。如图3所示,该装置包括种类确定模块301、第一分类模块302、第一确定模块303、第二确定模块304、第二分类模块305和模型组合模块306,其中:
种类确定模块301,用于确定当前分类模型的种类,分类模型的种类为正则表达式或神经网络模型。
[0062] 第一分类模块302,用于基于当前分类模型对未分类的样本数据进行分类。
[0063] 第一确定模块303,用于根据分类后的样本数据和未分类的样本数据,确定是否增加下一个分类模型。
[0064] 第二确定模块304,用于在确定增加下一个分类模型时,确定下一个分类模型的种类。
[0065] 第二分类模块305,用于基于下一个分类模型对剩余的未分类的样本数据进行分类,直至确定无需增加新的分类模型。
[0066] 模型组合模块306,用于按照确定分类模型的种类的顺序,将分类模型进行组合以形成文本分类模型。
[0067] 在一些实施例中,若分类模型为正则表达式,分类模型包括关键词、关键词之间的逻辑关系以及正则表达式的分类结果;若分类模型为神经网络模型,分类模型包括神经网络模型的参数、置信度阈值以及神经网络模型的分类结果;模型组合模块306具体用于:按照确定分类模型的种类的顺序,将关键词、关键词之间的逻辑关系以及正则表达式的分类结果,和/或,神经网络模型的参数、置信度阈值以及神经网络模型的分类结果,进行组合以得到文本分类模型。
[0068] 在一些实施例中,该装置还包括:模型训练模块,该模型训练模块用于在当前分类模型为神经网络模型时,根据未分类的样本数据对神经网络模型进行训练,将训练完成的神经网络模型作为当前分类模型。
[0069] 在一些实施例中,该装置还包括结果展示模块,该结果展示模块用于展示当前分类模型对未分类的样本数据的分类结果。
[0070] 在一些实施例中,在获取到新的未分类的样本数据时,该装置还用于基于新的未分类的样本数据确定新的文本分类模型;按照先后顺序,将文本分类模型和新的文本分类模型进行组合。
[0071] 图4示出了根据本申请的实施例的文本分类装置的方框图。如图4所示,文本分类装置包括数据获取模块401和文本分类模块402,其中:数据获取模块401,用于获取待分类文本数据。
[0072] 文本分类模块402,用于文本分类模型对待分类文本数据进行分类。
[0073] 在本申请实施例中,文本分类模型包括多个按照特定顺序进行排序的子模型,每个子模型的种类可以为正则表达式,也可以为神经网络模型。特定顺序,即子模型的种类被确定的顺序。
[0074] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0075] 图5示出了适于用来实现本申请实施例的电子设备的结构图。
[0076] 如图5所示,图5所示的电子设备500包括:处理器501和存储器503。其中,处理器501和存储器503相连,如通过总线502相连。可选地,电子设备500还可以包括收发器504。需要说明的是,实际应用中收发器504不限于一个,该电子设备500的结构并不构成对本申请实施例的限定。
[0077] 处理器501可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application Specific Integrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
[0078] 总线502可包括一通路,在上述组件之间传送信息。总线502可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0079] 存储器503可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、CD‑ROM(Compact Disc Read Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
[0080] 存储器503用于存储执行本申请方案的应用程序代码,并由处理器501来控制执行。处理器501用于执行存储器503中存储的应用程序代码,以实现前述方法实施例所示的内容。
[0081] 其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
[0082] 本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请实施例中,首先确定当前分类模型的种类,然后基于当前分类模型对未分类的样本数据进行分类,并根据分类后的样本数据和未分类的样本数据确定是否增加下一个分类模型,在需要增加时增加下一个分类模型,并在下一个分类模型的基础上判断是否还需要再增加分类模型,直到不需要再增加分类模型时,按照确定分类模型的种类的顺序,将分类模型进行组合以形成文本分类模型,采用此种方式训练得到的文本分类模型,能够实现对样本数据进行全量分类。
[0083] 应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0084] 以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页 第1页 第2页 第3页