技术领域
[0001] 本申请属于互联网及电子商务技术领域,具体涉及一种通过产品标题得到商标过滤分类结果的方法及系统。
相关背景技术
[0002] 随着科技的发展,信息处理技术、商标分析技术和计算机科学等领域的应用越来越广泛。其中,商标的处理和分析是这些领域的重要组成部分。这些数据的处理和分析可以帮助我们更好地理解和利用这些数据,从而提高我们的工作效率和质量。
[0003] 现有的技术主要是通过人工的方式对商标进行处理和分析。这种方式虽然可以得到一定的结果,但是效率低下,且容易出错。此外,还有一些技术是通过传统的机器学习方法,如支持向量机(SVM)、决策树等,对这些数据进行处理和分析。然而,这些方法的处理能力和准确性有限,无法满足现在的需求。
具体实施方式
[0011] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0012] 本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、系统、产品或设备固有的其他步骤或单元。
[0013] 在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0014] 商标国际分类(Nice分类)是一套为商标申请和管理而设计的系统,由30个大类组成,每个大类有多个小类,总共超过100个小类,每个小类又有多个子类,共计近5000个商品或服务项目。
[0015] Locarno中文是洛迦诺分类(LOC)一种工业品外观设计注册用国际分类,由《洛迦诺协定》(1968年)建立。洛迦诺分类第十版于2014年1月1日生效。
[0016] 下面介绍本申请实施例涉及存储系统的构架示意图。
[0017] 参阅图1,图1为本申请提供的一种分类过滤系统的结构示意图,如图1所示,上述分类系统包括多个终端,每个终端包括:至少一个处理器(processor)以及随机存取存储器RAM,还可以包括通信接口(Communications Interface)和存储器(例如硬盘)。其中,处理器、RAM、通信接口以及存储器均可以通过总线完成相互间的通信。通信接口可以传输信息,上述通信接口可以具有无线通信功能,上述无线通信功能可以为近距离无线通信或远距离通信功能(例如NR方式)。处理器可以调用存储器中的逻辑指令,以执行或支持本申请实施例中的方法。
[0018] 参阅图2,图2提供了一种通过产品标题得到商标过滤分类结果的方法的流程示意图,如图2所示,上述方法在如图1所示的分类过滤系统内执行,上述方法包括如下步骤:步骤S201、采集并标记海量产品标题数据,将海量产品标题数据进行分类得到商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库;
示例的,上述商标对商标分类数据库具体可以为:商标与Nice分类数据库,当然还可以为商标与LOC分类数据库等等。
[0019] 上述产品标题对产品分类数据库具体可以为:产品标题与电子商务类别的数据库,以手机为例,例如某某手机,其对应的产品分类即为手机,电子商务类别可以为电子商务公司自行定义的类别。
[0020] 上述商标与产品分类数据库具体可以为:商标分类与产品电子商务分类的数据库。
[0021] 步骤S202、将海量标题数据作为训练数据输入到待训练模型执行多轮迭代训练得到训练后的模型,一轮迭代训练具体包括:商标对商标分类数据库内标记数据作为第一训练数据组输入到待训练的模型执行第一轮训练得到第一训练模型,将产品标题对产品分类数据库内标记数据作为第二训练数据组输入到第一训练模型执行第二轮训练得到第二训练模型,将产品分类数据库作为第三训练数据组输入到第二训练模型得到第三训练模型完成一轮迭代训练。
[0022] 上述将训练数据分成3个数据库,并且每一轮迭代训练均按顺序训练是为了降低训练模型的过拟合,因为若所有的训练数据混合在一起训练,各个数据集之间属于随机的,对于海量的数据来说,这一次训练可能调整的是商标对商标分类数据对应的部分权重值,但是下一次训练到产品分类数据库中,可能将上述的部分权重值又调整回来,这样来回调整,可能导致权重值始终不能达到较好的数值,分数据库训练,相当于在一轮的训练中,先对商标分类数据库的权重值重点训练,然后对产品标题对产品分类数据库对应的权重值重点训练,最后对产品分类数据库对应的权重值重点训练,这样能够让商标与产品分类能够更好的匹配,通过训练数据来看,其训练的效果相对于混合训练能够提升3%左右的准确率。
[0023] 上述对于海量标题数据进行分数据库标记以及训练主要目的是针对商标与产品标题之间的区别,对于商标来说,其具有一种产品分类,例如尼斯分类,但是此种分类属于商标的分类,在电子商务领域,各个电子商务网站并没有将产品的分类执行到这么细节,以产品标题“山东苹果”、“苹果15代”这2个为例,对于“山东苹果”中的苹果属于水果,对于“苹果15代”中的苹果属于商标,此种方式需要对模型训练首先使得“山东苹果”与“苹果15代”不在一个分类数据中,这样就能够使得商标“苹果”不会与水果中的“苹果”产生混淆,基于这样的原因,本申请的技术方案通过3个数据库来达到对应区分的目的。
[0024] 步骤S203、获取待处理的产品标题数据,对产品标题数据执行关键词提取、关键句子提取和数据增强处理后得到输入数据,将该输入数据输入到训练后的模型得到该输入数据的商标过滤分类结果。
[0025] 上述关键词提取、关键句子提取和数据增强处理均可以采用现有的方式,例如通过自然语言算法对关键词提取,关键句子提取,当然还可以采用其他的算法来执行上述关键词提取、关键句子提取和数据增强处理的方式,本申请的技术方案主要是针对模型训练的针对性的优化。
[0026] 本申请提供的技术方案采集并标记海量产品标题数据,将海量产品标题数据进行分类得到商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库;将海量标题数据作为训练数据输入到待训练模型执行多轮迭代训练得到训练后的模型,一轮迭代训练具体包括:商标对商标分类数据库内标记数据作为第一训练数据组输入到待训练的模型执行第一轮训练得到第一训练模型,将产品标题对产品分类数据库内标记数据作为第二训练数据组输入到第一训练模型执行第二轮训练得到第二训练模型,将产品分类数据库作为第三训练数据组输入到第二训练模型得到第三训练模型完成一轮迭代训练。获取待处理的产品标题数据,对产品标题数据执行关键词提取、关键句子提取和数据增强处理后得到输入数据,将该输入数据输入到训练后的模型得到该输入数据的商标过滤分类结果。上述方案通过执行三类数据库分步骤训练的方式来提高训练的效果,进而提高识别的准确度。
[0027] 在一种可选的技术场景中,上述方法在步骤S201与步骤S202之间还可以包括:提取原始训练模型的层数n,从商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库中分别提取设定比例(例如1/10、1/8等等)的部分数据,得到商标对商标分类部分数据库、产品标题对产品分类部分数据库和商标与产品分类部分数据库;将商标对商标分类部分数据库、产品标题对产品分类部分数据库和商标与产品分类部分数据库作为初始训练数据;确定原始训练模型开放训练的层数x,其中x<n/2,将原始训练模型按开放训练的层数值划分为第一原始训练模型、第二原始训练模型…第x原始训练模型,其中,第一原始训练模型、第二原始训练模型…第x原始训练模型中每个原始训练模型的第n层均为开放层,剩余开放层为随机选择的开放层,所述开放层为训练时,权值数据参与迭代更新的层,相对于的若为非开放层,则在训练时非开放层对应的权值数据不参与迭代更新;将初始训练数据分别输入到第一原始训练模型、第二原始训练模型…第x原始训练模型分别执行训练得到训练后的第一训练模型、第二训练模型…第x训练模型,获取第一训练模型、第二训练模型…第x训练模型对应的第一置信率、第二置信率…第x置信率,提取第一置信率、第二置信率…第x置信率中的最大值第i置信率对应的第i原始模型,以i为放开层数量,对不同的层级开放组合得到y个原始模型,y个原始模型中每个模型的开放层数量为i层且第n层均为开放层,将初始训练数据分别输入到y个原始模型中训练得到y个训练模型,获取y个训练模型对应的y个置信率,提取y个置信率中最大值对应的第i’原始模型,将第i’原始模型确定为该待训练模型。
[0028] 上述技术方案是对待训练模型的开放层数量以及具体那个层级进行开放进行确认,对于训练模型来说,其具有多层,例如,以Bert模型为例,其具有12层,即n=12,但是在实际训练中,若12层全部为放开层,则在训练中很容易过拟合,因此需要找到合适的开放层,因此首先依据经验确定最大放开层数x,以12层为例,x=4,在取x时,一般x需要小于n/2,这样先随机选择开放层为1、2…x的原始模型执行训练,然后确定训练后的模型的最大置信率,这样就能够初步确定开放层的具体数量i,然后在开放层数量i不变的情况下,调整i个开放层的位置得到y个原始模型,然后从y个原始模型中选择最高置信率的原始模型作为待训练的模型。
[0029] 以i=2,n=12为例,上述y个原始模型具体可以11个模型,分别为:开放层1、12层原始模型、开放层2、12层原始模型、开放层3、12层原始模型、开放层4、12层原始模型、开放层5、12层原始模型、开放层6、12层原始模型、开放层7、12层原始模型、开放层8、12层原始模型、开放层9、12层原始模型、开放层10、12层原始模型、开放层11、12层原始模型。因为最后一层为输出结果层,因此最后一层一定需要放开训练,因此在选择开放层时,只用选择另一个开放层的具体位置进行验证即可,这样达到实现训练的方案。
[0030] 在一种可选的技术场景中,上述获取第一训练模型、第二训练模型…第x训练模型对应的第一置信率、第二置信率…第x置信率具体可以包括:从商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库中分别提取w份数据得到3w份样本数据,将3w份样本数据作为输入数据分别输入到第一训练模型、第二训练模型…第x训练模型得到第一置信率、第二置信率…第x置信率,具体包括:
将3w份样本数据作为输入数据第一训练模型执行计算得到3w个置信率,确定第一置信率为3w个置信率的平均值,遍历剩余x‑1个训练模型得到第二置信率…第x置信率。
[0031] 在一种可选的技术场景中,上述将3w份样本数据作为输入数据第一训练模型执行计算得到3w个置信率具体可以包括:提取3w份样本数据中的第一样本数据,将第一样本数据作为输入数据输入到第一训练模型执行计算得到多个分类结果和多个分类结果对应的多个置信率,从多个分类结果中查询与第一样本数据的标记结果对应的第一分类结果,提取第一分类结果对应的置信率确定为3w个置信率中的第一样本数据的置信率,遍历3w份样本数据得到3w个置信率。
[0032] 参阅图3,图3提供一种通过产品标题得到商标过滤分类结果的系统的结构框图,如图3所示,上述系统包括:采集分类单元301,用于采集并标记海量产品标题数据,将海量产品标题数据进行分类得到商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库;
训练单元302,用于将海量标题数据作为训练数据输入到待训练模型执行多轮迭代训练得到训练后的模型,一轮迭代训练具体包括:商标对商标分类数据库内标记数据作为第一训练数据组输入到待训练的模型执行第一轮训练得到第一训练模型,将产品标题对产品分类数据库内标记数据作为第二训练数据组输入到第一训练模型执行第二轮训练得到第二训练模型,将产品分类数据库作为第三训练数据组输入到第二训练模型得到第三训练模型完成一轮迭代训练;
执行单元303,用于获取待处理的产品标题数据,对产品标题数据执行关键词提取、关键句子提取和数据增强处理后得到输入数据,将该输入数据输入到训练后的模型得到该输入数据的商标过滤分类结果。
[0033] 在一种可选的技术场景中,所述系统还包括:处理单元304,用于提取原始训练模型的层数n,从商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库中分别提取设定比例的部分数据,得到商标对商标分类部分数据库、产品标题对产品分类部分数据库和商标与产品分类部分数据库;
将商标对商标分类部分数据库、产品标题对产品分类部分数据库和商标与产品分类部分数据库作为初始训练数据;确定原始训练模型开放训练的层数x,其中x<n/2,将原始训练模型按开放训练的层数值划分为第一原始训练模型、第二原始训练模型…第x原始训练模型,其中,第一原始训练模型、第二原始训练模型…第x原始训练模型中每个原始训练模型的第n层均为开放层,剩余开放层为随机选择的开放层,所述开放层为训练时,权值数据参与迭代更新的层;将初始训练数据分别输入到第一原始训练模型、第二原始训练模型…第x原始训练模型分别执行训练得到训练后的第一训练模型、第二训练模型…第x训练模型,获取第一训练模型、第二训练模型…第x训练模型对应的第一置信率、第二置信率…第x置信率,提取第一置信率、第二置信率…第x置信率中的最大值第i置信率对应的第i原始模型,以i为放开层数量,对不同的层级开放组合得到y个原始模型,y个原始模型中每个模型的开放层数量为i层且第n层均为开放层,将初始训练数据分别输入到y个原始模型中训练得到y个训练模型,获取y个训练模型对应的y个置信率,提取y个置信率中最大值对应的第I’原始模型,将第i’原始模型确定为所述待训练模型。
[0034] 在一种可选的技术场景中,处理单元304,具体用于从商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库中分别提取w份数据得到3w份样本数据,将3w份样本数据作为输入数据分别输入到第一训练模型、第二训练模型…第x训练模型得到第一置信率、第二置信率…第x置信率,具体包括:将3w份样本数据作为输入数据第一训练模型执行计算得到3w个置信率,确定第一置信率为3w个置信率的平均值,遍历剩余x‑1个训练模型得到第二置信率…第x置信率。
[0035] 在一种可选的技术场景中,处理单元304,具体用于提取3w份样本数据中的第一样本数据,将第一样本数据作为输入数据输入到第一训练模型执行计算得到多个分类结果和多个分类结果对应的多个置信率,从多个分类结果中查询与第一样本数据的标记结果对应的第一分类结果,提取第一分类结果对应的置信率确定为3w个置信率中的第一样本数据的置信率,遍历3w份样本数据得到3w个置信率。
[0036] 在一种可选的技术场景中,上述模型为Bert模型。
[0037] 上述处理单元还可以用于执行如图2所示方法实施例的细化或拓展方案,这里不再赘述。
[0038] 本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0039] 上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
[0040] 本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
[0041] 本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
[0042] 应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
[0043] 在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0044] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0045] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0046] 上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、磁碟、光盘、易失性存储器或非易失性存储器。其中,非易失性存储器可以是只读存储器(read‑only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。等各种可以存储程序代码的介质。
[0047] 虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,可轻易想到变化或替换,均可作各种更动与修改,包含上述不同功能、实施步骤的组合,包含软件和硬件的实施方式,均在本发明的保护范围。