首页 / 通过产品标题得到商标过滤分类结果的方法及系统

通过产品标题得到商标过滤分类结果的方法及系统有效专利 发明

具体技术细节

[0004] 本申请提供了一种通过产品标题得到商标过滤分类结果的方法及系统,能够通过电子商务中产品标题得到商标过滤结果,提高准确性的同时,提高了效率。
[0005] 第一方面,本申请提供了一种通过产品标题得到商标过滤分类结果的方法,所述方法包括如下步骤:采集并标记海量产品标题数据,将海量产品标题数据进行分类得到商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库;
将海量标题数据作为训练数据输入到待训练模型执行多轮迭代训练得到训练后
的模型,一轮迭代训练具体包括:商标对商标分类数据库内标记数据作为第一训练数据组输入到待训练的模型执行第一轮训练得到第一训练模型,将产品标题对产品分类数据库内标记数据作为第二训练数据组输入到第一训练模型执行第二轮训练得到第二训练模型,将产品分类数据库作为第三训练数据组输入到第二训练模型得到第三训练模型完成一轮迭代训练;
获取待处理的产品标题数据,对产品标题数据执行关键词提取、关键句子提取和数据增强处理后得到输入数据,将该输入数据输入到训练后的模型得到该输入数据的商标过滤分类结果。
[0006] 第二方面,提供一种通过产品标题得到商标过滤分类结果的系统,所述系统包括:采集分类单元,用于采集并标记海量产品标题数据,将海量产品标题数据进行分类得到商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库;
训练单元,用于将海量标题数据作为训练数据输入到待训练模型执行多轮迭代训练得到训练后的模型,一轮迭代训练具体包括:商标对商标分类数据库内标记数据作为第一训练数据组输入到待训练的模型执行第一轮训练得到第一训练模型,将产品标题对产品分类数据库内标记数据作为第二训练数据组输入到第一训练模型执行第二轮训练得到第二训练模型,将产品分类数据库作为第三训练数据组输入到第二训练模型得到第三训练模型完成一轮迭代训练;
执行单元,用于获取待处理的产品标题数据,对产品标题数据执行关键词提取、关键句子提取和数据增强处理后得到输入数据,将该输入数据输入到训练后的模型得到该输入数据的商标过滤分类结果。
[0007] 第三方面,本申请提供了一种计算机存储介质,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如本申请第一方面所描述的部分或全部步骤。
[0008] 本申请实施例具有以下有益效果:本申请提供的技术方案采集并标记海量产品标题数据,将海量产品标题数据进行分类得到商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库;
将海量标题数据作为训练数据输入到待训练模型执行多轮迭代训练得到训练后的模型,一轮迭代训练具体包括:商标对商标分类数据库内标记数据作为第一训练数据组输入到待训练的模型执行第一轮训练得到第一训练模型,将产品标题对产品分类数据库内标记数据作为第二训练数据组输入到第一训练模型执行第二轮训练得到第二训练模型,将产品分类数据库作为第三训练数据组输入到第二训练模型得到第三训练模型完成一轮迭代训练。获取待处理的产品标题数据,对产品标题数据执行关键词提取、关键句子提取和数据增强处理后得到输入数据,将该输入数据输入到训练后的模型得到该输入数据的商标过滤分类结果。上述方案通过执行三类数据库分步骤训练的方式来提高训练的效果,进而提高识别的准确度。

法律保护范围

涉及权利要求数量10:其中独权2项,从权-2项

1.一种通过产品标题得到商标过滤分类结果的方法,其特征在于,所述方法包括如下步骤:
采集并标记海量产品标题数据,将海量产品标题数据进行分类得到商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库;
将海量标题数据作为训练数据输入到待训练模型执行多轮迭代训练得到训练后的模型,一轮迭代训练具体包括:商标对商标分类数据库内标记数据作为第一训练数据组输入到待训练的模型执行第一轮训练得到第一训练模型,将产品标题对产品分类数据库内标记数据作为第二训练数据组输入到第一训练模型执行第二轮训练得到第二训练模型,将产品分类数据库作为第三训练数据组输入到第二训练模型得到第三训练模型完成一轮迭代训练;
获取待处理的产品标题数据,对产品标题数据执行关键词提取、关键句子提取和数据增强处理后得到输入数据,将该输入数据输入到训练后的模型得到该输入数据的商标过滤分类结果。
2.根据权利要求1所述的通过产品标题得到商标过滤分类结果的方法,其特征在于,所述方法在将海量标题数据作为训练数据输入到待训练模型执行多轮迭代训练得到训练后的模型之前,还包括:
提取原始训练模型的层数n,从商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库中分别提取设定比例的部分数据,得到商标对商标分类部分数据库、产品标题对产品分类部分数据库和商标与产品分类部分数据库;将商标对商标分类部分数据库、产品标题对产品分类部分数据库和商标与产品分类部分数据库作为初始训练数据;确定原始训练模型开放训练的层数x,其中x<n/2,将原始训练模型按开放训练的层数值划分为第一原始训练模型、第二原始训练模型…第x原始训练模型,其中,第一原始训练模型、第二原始训练模型…第x原始训练模型中每个原始训练模型的第n层均为开放层,剩余开放层为随机选择的开放层,所述开放层为训练时,权值数据参与迭代更新的层;将初始训练数据分别输入到第一原始训练模型、第二原始训练模型…第x原始训练模型分别执行训练得到训练后的第一训练模型、第二训练模型…第x训练模型,获取第一训练模型、第二训练模型…第x训练模型对应的第一置信率、第二置信率…第x置信率,提取第一置信率、第二置信率…第x置信率中的最大值第i置信率对应的第i原始模型,以i为放开层数量,对不同的层级开放组合得到y个原始模型,y个原始模型中每个模型的开放层数量为i层且第n层均为开放层,将初始训练数据分别输入到y个原始模型中训练得到y个训练模型,获取y个训练模型对应的y个置信率,提取y个置信率中最大值对应的第I’原始模型,将第i’原始模型确定为所述待训练模型。
3.根据权利要求2所述的通过产品标题得到商标过滤分类结果的方法,其特征在于,所述获取第一训练模型、第二训练模型…第x训练模型对应的第一置信率、第二置信率…第x置信率具体包括:
从商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库中分别提取w份数据得到3w份样本数据,将3w份样本数据作为输入数据分别输入到第一训练模型、第二训练模型…第x训练模型得到第一置信率、第二置信率…第x置信率,具体包括:
将3w份样本数据作为输入数据第一训练模型执行计算得到3w个置信率,确定第一置信率为3w个置信率的平均值,遍历剩余x‑1个训练模型得到第二置信率…第x置信率。
4.根据权利要求3所述的通过产品标题得到商标过滤分类结果的方法,其特征在于,所述将3w份样本数据作为输入数据第一训练模型执行计算得到3w个置信率具体包括:
提取3w份样本数据中的第一样本数据,将第一样本数据作为输入数据输入到第一训练模型执行计算得到多个分类结果和多个分类结果对应的多个置信率,从多个分类结果中查询与第一样本数据的标记结果对应的第一分类结果,提取第一分类结果对应的置信率确定为3w个置信率中的第一样本数据的置信率,遍历3w份样本数据得到3w个置信率。
5.根据权利要求1‑4任意一项所述的通过产品标题得到商标过滤分类结果的方法,其特征在于,
所述模型为Bert模型。
6.一种通过产品标题得到商标过滤分类结果的系统,其特征在于,所述系统包括:
采集分类单元,用于采集并标记海量产品标题数据,将海量产品标题数据进行分类得到商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库;
训练单元,用于将海量标题数据作为训练数据输入到待训练模型执行多轮迭代训练得到训练后的模型,一轮迭代训练具体包括:商标对商标分类数据库内标记数据作为第一训练数据组输入到待训练的模型执行第一轮训练得到第一训练模型,将产品标题对产品分类数据库内标记数据作为第二训练数据组输入到第一训练模型执行第二轮训练得到第二训练模型,将产品分类数据库作为第三训练数据组输入到第二训练模型得到第三训练模型完成一轮迭代训练;
执行单元,用于获取待处理的产品标题数据,对产品标题数据执行关键词提取、关键句子提取和数据增强处理后得到输入数据,将该输入数据输入到训练后的模型得到该输入数据的商标过滤分类结果。
7.根据权利要求6所述的通过产品标题得到商标过滤分类结果的系统,其特征在于,所述系统还包括:
处理单元,用于提取原始训练模型的层数n,从商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库中分别提取设定比例的部分数据,得到商标对商标分类部分数据库、产品标题对产品分类部分数据库和商标与产品分类部分数据库;将商标对商标分类部分数据库、产品标题对产品分类部分数据库和商标与产品分类部分数据库作为初始训练数据;确定原始训练模型开放训练的层数x,其中x<n/2,将原始训练模型按开放训练的层数值划分为第一原始训练模型、第二原始训练模型…第x原始训练模型,其中,第一原始训练模型、第二原始训练模型…第x原始训练模型中每个原始训练模型的第n层均为开放层,剩余开放层为随机选择的开放层,所述开放层为训练时,权值数据参与迭代更新的层;将初始训练数据分别输入到第一原始训练模型、第二原始训练模型…第x原始训练模型分别执行训练得到训练后的第一训练模型、第二训练模型…第x训练模型,获取第一训练模型、第二训练模型…第x训练模型对应的第一置信率、第二置信率…第x置信率,提取第一置信率、第二置信率…第x置信率中的最大值第i置信率对应的第i原始模型,以i为放开层数量,对不同的层级开放组合得到y个原始模型,y个原始模型中每个模型的开放层数量为i层且第n层均为开放层,将初始训练数据分别输入到y个原始模型中训练得到y个训练模型,获取y个训练模型对应的y个置信率,提取y个置信率中最大值对应的第I’原始模型,将第i’原始模型确定为所述待训练模型。
8.根据权利要求7所述的通过产品标题得到商标过滤分类结果的系统,其特征在于,所述处理单元,具体用于从商标对商标分类数据库、产品标题对产品分类数据库和商标与产品分类数据库中分别提取w份数据得到3w份样本数据,将3w份样本数据作为输入数据分别输入到第一训练模型、第二训练模型…第x训练模型得到第一置信率、第二置信率…第x置信率,具体包括:
将3w份样本数据作为输入数据第一训练模型执行计算得到3w个置信率,确定第一置信率为3w个置信率的平均值,遍历剩余x‑1个训练模型得到第二置信率…第x置信率。
9.根据权利要求8所述的通过产品标题得到商标过滤分类结果的系统,其特征在于,所述处理单元,具体用于提取3w份样本数据中的第一样本数据,将第一样本数据作为输入数据输入到第一训练模型执行计算得到多个分类结果和多个分类结果对应的多个置信率,从多个分类结果中查询与第一样本数据的标记结果对应的第一分类结果,提取第一分类结果对应的置信率确定为3w个置信率中的第一样本数据的置信率,遍历3w份样本数据得到3w个置信率。
10.根据权利要求6‑9任意一项所述的通过产品标题得到商标过滤分类结果的系统,其特征在于,
所述模型为Bert模型。

当前第2页 第1页 第2页 第3页
相关技术
分类方法相关技术
商标过滤相关技术
陈占锋发明人的其他相关专利技术