一种文本扩展、关键词模型训练、关键词生成方法和装置

一种文本扩展、关键词模型训练、关键词生成方法和装置实质审查发明

技术领域

[0001] 本发明涉及数据处理领域，特别是涉及一种文本扩展、关键词模型训练、关键词生成方法和装置。

具体实施方式

[0037] 下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0038] 实施例1

[0039] 如图1所示，本发明提供一种文本扩展方法，包括：

[0040] 步骤101，获取文本‑关键词集和待扩展文本。

[0041] 在本实施例中，待扩展文本为文本‑关键词集中的文本；或者，待扩展文本与文本‑关键词集中的文本交集为空集。

[0042] 步骤102，从文本‑关键词集中获取与待扩展文本相似的至少一个相似文本。

[0043] 在本实施例中，通过步骤102获取至少一个相似文本的具体过程可以包括：获取待扩展文本对应的待扩展向量；获取文本‑关键词集中每个文本对应的文本向量；根据待扩展向量和每个文本对应的文本向量，获取文本‑关键词集中除待扩展文本之外的每个文本与待扩展文本的相似度；根据所述文本‑关键词集中除所述待扩展文本之外的每个文本与所述待扩展文本的相似度，获取与所述待扩展文本相似的至少一个相似文本。

[0044] 其中，获取待扩展文本对应的待扩展向量，包括：使用词频‑逆文本频率指数TF‑IDF或者基于转换器的双向编码特征Bert获取待扩展文本对应的待扩展向量；

[0045] 获取文本‑关键词集中每个文本对应的文本向量，包括：使用词频‑逆文本频率指数TF‑IDF或者基于转换器的双向编码特征Bert获取文本‑关键词集中每个文本对应的文本向量；

[0046] 根据待扩展向量和每个文本对应的文本向量，获取文本‑关键词集中除待扩展文本之外的每个文本与待扩展文本的相似度，包括：采用向量间距离算法分别获取待扩展向量和每个文本对应的文本向量之间的距离；向量间距离算法包括余弦cos距离或者杰卡德Jaccard系数；根据待扩展向量和每个文本对应的文本向量之间的距离，确定文本‑关键词集中除待扩展文本之外的每个文本与待扩展文本的相似度。

[0047] 根据所述文本‑关键词集中除所述待扩展文本之外的每个文本与所述待扩展文本的相似度，获取与所述待扩展文本相似的至少一个相似文本，可以为将相似度大于预设阈值的至少一个文本作为与所述待扩展文本相似的至少一个相似文本；当不存在相似度大于预设阈值的至少一个文本时，可以将相似度较高的预设个数的文本作为与所述待扩展文本相似的至少一个相似文本。

[0048] 步骤103，根据每个相似文本的关键词，获取待扩展文本的缺失关键词。

[0049] 在本实施例中，通过步骤103获取待扩展文本的缺失关键词的过程包括：分别获取每个相似文本对应的关键词；根据每个相似文本及其对应的关键词获取每个相似文本的缺失关键词；根据每个相似文本的缺失关键词，获取待扩展文本的缺失关键词。

[0050] 其中，根据每个相似文本的缺失关键词，获取待扩展文本的缺失关键词，包括：根据所有相似文本的缺失关键词的并集，获取待扩展文本的缺失关键词；或者，根据所有相似文本的缺失关键词的交集，获取待扩展文本的缺失关键词；或者，根据所有相似文本的缺失关键词的出现次数，获取待扩展文本的缺失关键词。相似文本的缺失关键词指该相似文本的关键词中不属于该相似文本的词语。

[0051] 步骤104，在待扩展文本之前或之后拼接待扩展文本的缺失关键词，得到待扩展文本对应的扩展文本。

[0052] 在本实施例中，通过步骤104拼接关键词时，可以直接将关键词拼接在待扩展文本之前或之后；为了方便划分，还可以在拼接时和/或在多个关键词之间插入分隔符如“；”等。特别的，通过步骤104拼接的缺失关键词，具体可以为待扩展文本的缺失关键词中不属于该待扩展文本的词语。

[0053] 具体的，以待扩展文本为“小明获得了联赛总冠军啊”为例，假设文本‑关键词集包含以下内容“小强获得了联赛总冠军啊‑‑小强、联赛、总冠军、体育、篮球”、“小明在联赛中绝杀‑‑小明、联赛、绝杀、体育、篮球”、“这款手机游戏很好玩‑‑游戏、好玩、手游”；通过步骤102获取至少一个相似文本“小强获得了联赛总冠军啊”和“小明在联赛中绝杀”；通过步骤
103获取“小强获得了联赛总冠军啊”文本的关键词为“小强、联赛、总冠军、体育、篮球”、“小明在联赛中绝杀”文本的关键词为“小明、联赛、绝杀、体育、篮球”；进而获取“小强获得了联赛总冠军啊”文本的缺失关键词为“体育、篮球”，“小明在联赛中绝杀”文本的缺失关键词为“体育、篮球”；对两个文本的缺失关键词取交集/并集或者根据两个文本的缺失关键词的出现次数，获取待扩展文本的缺失关键词“体育、篮球”；通过步骤104拼接该缺失关键词，可以得到扩展文本“体育篮球小明获得了联赛总冠军啊”或者“小明获得了联赛总冠军啊体育篮球”。

[0054] 综上，本发明实施例提供的技术方案，由于对待扩展文本进行扩展时拼接了缺失关键词，使得本发明实施例提供的技术方案在生成关键词时无需理解语义，直接从扩展文本中抽取关键词即可，降低了生成缺失关键词的难度，解决了现有技术中生成缺失关键词时需要理解语义才能获得，关键词的生成过程比较复杂问题。另外，该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上，还能够提高缺失关键词的覆盖范围且提升准确率。

[0055] 实施例2

[0056] 如图2所示，本发明实施例提供一种关键词模型训练方法，包括：

[0057] 步骤201，获取多个扩展文本。

[0058] 在本实施例中，通过步骤201获取多个扩展文本的方式，与本发明实施例1提供的相似，在此不再一一赘述。

[0059] 步骤202，分别获取每个扩展文本对应的关键词。

[0060] 在本实施例中，步骤202获取每个扩展文本对应的关键词的具体过程可以为：首先每个扩展文本对应的待扩展文本的原始关键词；然后将待扩展文本的原始关键词作为扩展文本对应的关键词。

[0061] 综上，本发明实施例提供的技术方案，由于对待扩展文本进行扩展时拼接了缺失关键词，使得本发明实施例提供的技术方案在生成关键词时无需理解语义，直接从扩展文本中抽取关键词即可，降低了生成缺失关键词的难度，解决了现有技术中生成缺失关键词时需要理解语义才能获得，关键词的生成过程比较复杂问题。另外，该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上，还能够提高缺失关键词的覆盖范围且提升准确率。

[0062] 实施例3

[0063] 如图3所示，本实施例提供一种关键词模型训练方法，包括：

[0064] 步骤301，对文本‑关键词集中每个文本进行数据增强，得到增强文本‑关键词集。

[0065] 在本实施例中，步骤301中数据增强方式包括数据复制、数据删除、数据替换、数据交换等方式中的一种或多种。

[0066] 步骤302，获取多个扩展文本。

[0067] 在本实施例中，通过步骤302获取多个扩展文本的方式，与本发明实施例1提供的相似，在此不再一一赘述。

[0068] 步骤303，分别获取每个扩展文本对应的关键词。

[0069] 在本实施例中，步骤303获取每个扩展文本对应的关键词的具体过程可以为：首先每个扩展文本对应的待扩展文本的原始关键词；然后将待扩展文本的原始关键词作为扩展文本对应的关键词。

[0070] 步骤304，通过增强文本‑关键词集以及多个扩展文本和对应关键词对预设初始关键词模型进行训练，得到预先训练的关键词模型。

[0071] 在本实施例中，通过步骤304对预设初始关键词模型进行训练的具体过程包括：随机从增强文本‑关键词集以及多个扩展文本和对应关键词获取预设数量的文本和对应关键词作为正样本；获取负样本，负样本为增强文本‑关键词集以及多个扩展文本和对应关键词中除正样本以外的文本和对应关键词；获取所述正样本和负样本经对比学习得到的第一损失；将所述增强文本‑关键词集以及所述多个扩展文本和对应关键词输入初始关键词模型，获取生成关键词时产生的第二损失；根据第一损失和第二损失获取总损失，并判断当前总损失是否大于预设损失阈值；如果大于，根据当前总损失更新当前初始关键词模型后，重复正样本获取步骤；如果不大于，将不大于损失阈值时使用的初始关键词模型作为预先训练的关键词模型。

[0072] 其中，可以对第一损失和第二损失按照比例阈值相加，得到总损失；即总损失＝a*第一损失+(1‑a)*第二损失，a为预设比例阈值，0

[0073] 综上，本发明实施例提供的技术方案，由于对待扩展文本进行扩展时拼接了缺失关键词，使得本发明实施例提供的技术方案在生成关键词时无需理解语义，直接从扩展文本中抽取关键词即可，降低了生成缺失关键词的难度，解决了现有技术中生成缺失关键词时需要理解语义才能获得，关键词的生成过程比较复杂问题。另外，该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上，还能够提高缺失关键词的覆盖范围且提升准确率。

[0074] 实施例4

[0075] 如图4所示，本发明实施例提供一种关键词生成方法，包括：

[0076] 步骤401，获取待生成文本。

[0077] 步骤402，将待生成文本输入预先训练的关键词模型中，得到待生成文本对应的关键词。

[0078] 在本实施例中，步骤402中预先训练的关键词模型的获取方式，与本发明实施例2或3提供的相似，在此不再一一赘述。

[0079] 综上，本发明实施例提供的技术方案，由于对待扩展文本进行扩展时拼接了缺失关键词，使得本发明实施例提供的技术方案在生成关键词时无需理解语义，直接从扩展文本中抽取关键词即可，降低了生成缺失关键词的难度，解决了现有技术中生成缺失关键词时需要理解语义才能获得，关键词的生成过程比较复杂问题。另外，该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上，还能够提高缺失关键词的覆盖范围且提升准确率。

[0080] 实施例5

[0081] 如图5所示，本发明实施例提供一种文本扩展装置，包括：

[0082] 待扩展文本获取模块501，用于获取文本‑关键词集和待扩展文本；

[0083] 相似文本获取模块502，与待扩展文本获取模块相连，用于从文本‑关键词集中获取与待扩展文本相似的至少一个相似文本；

[0084] 缺失关键词获取模块503，分别与待扩展文本获取模块和相似文本获取模块相连，用于根据每个相似文本的关键词，获取待扩展文本的缺失关键词；

[0085] 文本扩展模块504，与缺失关键词获取模块相连，用于在待扩展文本之前或之后拼接待扩展文本的缺失关键词，得到待扩展文本对应的扩展文本。

[0086] 在本实施例中，通过上述模块实现文本扩展的过程，与本发明实施例1提供的相似，在此不再一一赘述。

[0087] 本实施例提供的文本扩展装置中，相似文本获取模块，包括：

[0088] 第一向量获取子模块，用于获取待扩展文本对应的待扩展向量；

[0089] 第二向量获取子模块，用于获取文本‑关键词集中每个文本对应的文本向量；

[0090] 相似度计算子模块，分别与第一向量获取子模块和第二向量获取子模块相连，用于根据待扩展向量和每个文本对应的文本向量，获取文本‑关键词集中除待扩展文本之外的每个文本与待扩展文本的相似度；

[0091] 相似文本获取子模块，与相似度计算子模块相连，用于根据所述文本‑关键词集中除所述待扩展文本之外的每个文本与所述待扩展文本的相似度，获取与所述待扩展文本相似的至少一个相似文本。

[0092] 本实施例提供的文本扩展装置中，相似度计算子模块包括：

[0093] 距离计算单元，用于采用向量间距离算法分别获取待扩展向量和每个文本对应的文本向量之间的距离；向量间距离算法包括余弦cos距离或者杰卡德Jaccard系数；

[0094] 相似度计算单元，与距离计算单元相连，用于根据待扩展向量和每个文本对应的文本向量之间的距离，确定文本‑关键词集中除待扩展文本之外的每个文本与待扩展文本的相似度。

[0095] 本实施例提供的文本扩展装置中，缺失关键词获取模块，包括：

[0096] 第一关键词获取子模块，用于分别获取每个相似文本对应的关键词；

[0097] 第二关键词获取子模块，与第一关键词获取子模块相连，用于根据每个相似文本及其对应的关键词获取每个相似文本的缺失关键词；

[0098] 第三关键词获取子模块，与第二关键词获取子模块相连，用于根据每个相似文本的缺失关键词，获取待扩展文本的缺失关键词。

[0099] 综上，本发明实施例提供的技术方案，由于对待扩展文本进行扩展时拼接了缺失关键词，使得本发明实施例提供的技术方案在生成关键词时无需理解语义，直接从扩展文本中抽取关键词即可，降低了生成缺失关键词的难度，解决了现有技术中生成缺失关键词时需要理解语义才能获得，关键词的生成过程比较复杂问题。另外，该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上，还能够提高缺失关键词的覆盖范围且提升准确率。

[0100] 实施例6

[0101] 如图6所示，本实施例提供一种关键词模型训练装置，包括：

[0102] 扩展文本获取模块601，用于通过文本扩展装置获取多个扩展文本；

[0103] 关键词获取模块602，与扩展文本获取模块相连，用于分别获取每个扩展文本对应的关键词；

[0104] 模型训练模块603，与关键词获取模块相连，用于通过多个扩展文本和对应关键词对预设初始关键词模型进行训练，得到预先训练的关键词模型。

[0105] 在本实施例中，通过上述模块实现关键词模型训练的过程与本发明实施例2提供的相似，其中使用的文本扩展装置与实施例5提供的相似，在此不再一一赘述。

[0106] 综上，本发明实施例提供的技术方案，由于对待扩展文本进行扩展时拼接了缺失关键词，使得本发明实施例提供的技术方案在生成关键词时无需理解语义，直接从扩展文本中抽取关键词即可，降低了生成缺失关键词的难度，解决了现有技术中生成缺失关键词时需要理解语义才能获得，关键词的生成过程比较复杂问题。另外，该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上，还能够提高缺失关键词的覆盖范围且提升准确率。

[0107] 实施例7

[0108] 如图7所示，本发明实施例提供一种关键词模型训练装置，包括：

[0109] 数据增强模块701，用于对文本‑关键词集中每个文本进行数据增强，得到增强文本‑关键词集；

[0110] 扩展文本获取模块702，用于通过文本扩展装置获取多个扩展文本；

[0111] 关键词获取模块703，与扩展文本获取模块相连，用于分别获取每个扩展文本对应的关键词；

[0112] 模型训练模块704，分别与数据增强模块和关键词获取模块相连，用于通过增强文本‑关键词集以及多个扩展文本和对应关键词对预设初始关键词模型进行训练，得到预先训练的关键词模型。

[0113] 在本实施例中，通过上述模块实现关键词模型训练的过程与本发明实施例3提供的相似，其中使用的文本扩展装置与实施例5提供的相似，在此不再一一赘述。

[0114] 本实施例提供的关键词模型训练装置中模型训练模块，包括：

[0115] 正样本获取子模块，用于随机从增强文本‑关键词集以及多个扩展文本和对应关键词获取预设数量的文本和对应关键词作为正样本；

[0116] 负样本获取子模块，与正样本获取子模块相连，用于获取负样本，负样本为增强文本‑关键词集以及多个扩展文本和对应关键词中除正样本以外的文本和对应关键词；

[0117] 第一损失获取子模块，分别与所述正样本获取子模块和所述负样本获取子模块相连，用于获取所述正样本和负样本经对比学习得到的第一损失；

[0118] 第二损失获取子模块，将所述增强文本‑关键词集以及所述多个扩展文本和对应关键词输入初始关键词模型，获取生成关键词时产生的第二损失；

[0119] 损失判断子模块，分别与所述第一损失获取子模块和第二损失获取子模块相连，用于根据第一损失和第二损失获取总损失，并判断当前总损失是否大于预设损失阈值；如果大于，执行模型更新子模块；否则，执行模型获取子模块；

[0120] 所述模型更新子模块，分别与所述第二损失获取子模块和所述正样本获取子模块相连，用于根据当前总损失更新当前初始关键词模型后，通过所述正样本获取子模块重复正样本获取步骤；

[0121] 模型获取子模块，与损失判断子模块相连，用于将不大于损失阈值时使用的初始关键词模型作为预先训练的关键词模型。

[0122] 综上，本发明实施例提供的技术方案，由于对待扩展文本进行扩展时拼接了缺失关键词，使得本发明实施例提供的技术方案在生成关键词时无需理解语义，直接从扩展文本中抽取关键词即可，降低了生成缺失关键词的难度，解决了现有技术中生成缺失关键词时需要理解语义才能获得，关键词的生成过程比较复杂问题。另外，该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上，还能够提高缺失关键词的覆盖范围且提升准确率。

[0123] 实施例8

[0124] 如图8所示，本发明实施例提供一种关键词生成装置，包括：

[0125] 文本获取模块801，用于获取待生成文本；

[0126] 关键词获取模块802，与文本获取模块相连，用于将待生成文本输入通过关键词模型训练装置获取的预先训练的关键词模型中，得到待生成文本对应的关键词。

[0127] 在本实施例中，通过上述模块生成关键词的过程，与本发明实施例4提供的相似，其中使用的关键词模型训练装置与实施例6或7提供的相似，在此不再一一赘述。

[0128] 综上，本发明实施例提供的技术方案，由于对待扩展文本进行扩展时拼接了缺失关键词，使得本发明实施例提供的技术方案在生成关键词时无需理解语义，直接从扩展文本中抽取关键词即可，降低了生成缺失关键词的难度，解决了现有技术中生成缺失关键词时需要理解语义才能获得，关键词的生成过程比较复杂问题。另外，该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上，还能够提高缺失关键词的覆盖范围且提升准确率。

[0129] 以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

查看完整全部详细技术资料

当前第1页第1页第2页第3页