[0073] 综上,本发明实施例提供的技术方案,由于对待扩展文本进行扩展时拼接了缺失关键词,使得本发明实施例提供的技术方案在生成关键词时无需理解语义,直接从扩展文本中抽取关键词即可,降低了生成缺失关键词的难度,解决了现有技术中生成缺失关键词时需要理解语义才能获得,关键词的生成过程比较复杂问题。另外,该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上,还能够提高缺失关键词的覆盖范围且提升准确率。
[0074] 实施例4
[0075] 如图4所示,本发明实施例提供一种关键词生成方法,包括:
[0076] 步骤401,获取待生成文本。
[0077] 步骤402,将待生成文本输入预先训练的关键词模型中,得到待生成文本对应的关键词。
[0078] 在本实施例中,步骤402中预先训练的关键词模型的获取方式,与本发明实施例2或3提供的相似,在此不再一一赘述。
[0079] 综上,本发明实施例提供的技术方案,由于对待扩展文本进行扩展时拼接了缺失关键词,使得本发明实施例提供的技术方案在生成关键词时无需理解语义,直接从扩展文本中抽取关键词即可,降低了生成缺失关键词的难度,解决了现有技术中生成缺失关键词时需要理解语义才能获得,关键词的生成过程比较复杂问题。另外,该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上,还能够提高缺失关键词的覆盖范围且提升准确率。
[0080] 实施例5
[0081] 如图5所示,本发明实施例提供一种文本扩展装置,包括:
[0082] 待扩展文本获取模块501,用于获取文本‑关键词集和待扩展文本;
[0083] 相似文本获取模块502,与待扩展文本获取模块相连,用于从文本‑关键词集中获取与待扩展文本相似的至少一个相似文本;
[0084] 缺失关键词获取模块503,分别与待扩展文本获取模块和相似文本获取模块相连,用于根据每个相似文本的关键词,获取待扩展文本的缺失关键词;
[0085] 文本扩展模块504,与缺失关键词获取模块相连,用于在待扩展文本之前或之后拼接待扩展文本的缺失关键词,得到待扩展文本对应的扩展文本。
[0086] 在本实施例中,通过上述模块实现文本扩展的过程,与本发明实施例1提供的相似,在此不再一一赘述。
[0087] 本实施例提供的文本扩展装置中,相似文本获取模块,包括:
[0088] 第一向量获取子模块,用于获取待扩展文本对应的待扩展向量;
[0089] 第二向量获取子模块,用于获取文本‑关键词集中每个文本对应的文本向量;
[0090] 相似度计算子模块,分别与第一向量获取子模块和第二向量获取子模块相连,用于根据待扩展向量和每个文本对应的文本向量,获取文本‑关键词集中除待扩展文本之外的每个文本与待扩展文本的相似度;
[0091] 相似文本获取子模块,与相似度计算子模块相连,用于根据所述文本‑关键词集中除所述待扩展文本之外的每个文本与所述待扩展文本的相似度,获取与所述待扩展文本相似的至少一个相似文本。
[0092] 本实施例提供的文本扩展装置中,相似度计算子模块包括:
[0093] 距离计算单元,用于采用向量间距离算法分别获取待扩展向量和每个文本对应的文本向量之间的距离;向量间距离算法包括余弦cos距离或者杰卡德Jaccard系数;
[0094] 相似度计算单元,与距离计算单元相连,用于根据待扩展向量和每个文本对应的文本向量之间的距离,确定文本‑关键词集中除待扩展文本之外的每个文本与待扩展文本的相似度。
[0095] 本实施例提供的文本扩展装置中,缺失关键词获取模块,包括:
[0096] 第一关键词获取子模块,用于分别获取每个相似文本对应的关键词;
[0097] 第二关键词获取子模块,与第一关键词获取子模块相连,用于根据每个相似文本及其对应的关键词获取每个相似文本的缺失关键词;
[0098] 第三关键词获取子模块,与第二关键词获取子模块相连,用于根据每个相似文本的缺失关键词,获取待扩展文本的缺失关键词。
[0099] 综上,本发明实施例提供的技术方案,由于对待扩展文本进行扩展时拼接了缺失关键词,使得本发明实施例提供的技术方案在生成关键词时无需理解语义,直接从扩展文本中抽取关键词即可,降低了生成缺失关键词的难度,解决了现有技术中生成缺失关键词时需要理解语义才能获得,关键词的生成过程比较复杂问题。另外,该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上,还能够提高缺失关键词的覆盖范围且提升准确率。
[0100] 实施例6
[0101] 如图6所示,本实施例提供一种关键词模型训练装置,包括:
[0102] 扩展文本获取模块601,用于通过文本扩展装置获取多个扩展文本;
[0103] 关键词获取模块602,与扩展文本获取模块相连,用于分别获取每个扩展文本对应的关键词;
[0104] 模型训练模块603,与关键词获取模块相连,用于通过多个扩展文本和对应关键词对预设初始关键词模型进行训练,得到预先训练的关键词模型。
[0105] 在本实施例中,通过上述模块实现关键词模型训练的过程与本发明实施例2提供的相似,其中使用的文本扩展装置与实施例5提供的相似,在此不再一一赘述。
[0106] 综上,本发明实施例提供的技术方案,由于对待扩展文本进行扩展时拼接了缺失关键词,使得本发明实施例提供的技术方案在生成关键词时无需理解语义,直接从扩展文本中抽取关键词即可,降低了生成缺失关键词的难度,解决了现有技术中生成缺失关键词时需要理解语义才能获得,关键词的生成过程比较复杂问题。另外,该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上,还能够提高缺失关键词的覆盖范围且提升准确率。
[0107] 实施例7
[0108] 如图7所示,本发明实施例提供一种关键词模型训练装置,包括:
[0109] 数据增强模块701,用于对文本‑关键词集中每个文本进行数据增强,得到增强文本‑关键词集;
[0110] 扩展文本获取模块702,用于通过文本扩展装置获取多个扩展文本;
[0111] 关键词获取模块703,与扩展文本获取模块相连,用于分别获取每个扩展文本对应的关键词;
[0112] 模型训练模块704,分别与数据增强模块和关键词获取模块相连,用于通过增强文本‑关键词集以及多个扩展文本和对应关键词对预设初始关键词模型进行训练,得到预先训练的关键词模型。
[0113] 在本实施例中,通过上述模块实现关键词模型训练的过程与本发明实施例3提供的相似,其中使用的文本扩展装置与实施例5提供的相似,在此不再一一赘述。
[0114] 本实施例提供的关键词模型训练装置中模型训练模块,包括:
[0115] 正样本获取子模块,用于随机从增强文本‑关键词集以及多个扩展文本和对应关键词获取预设数量的文本和对应关键词作为正样本;
[0116] 负样本获取子模块,与正样本获取子模块相连,用于获取负样本,负样本为增强文本‑关键词集以及多个扩展文本和对应关键词中除正样本以外的文本和对应关键词;
[0117] 第一损失获取子模块,分别与所述正样本获取子模块和所述负样本获取子模块相连,用于获取所述正样本和负样本经对比学习得到的第一损失;
[0118] 第二损失获取子模块,将所述增强文本‑关键词集以及所述多个扩展文本和对应关键词输入初始关键词模型,获取生成关键词时产生的第二损失;
[0119] 损失判断子模块,分别与所述第一损失获取子模块和第二损失获取子模块相连,用于根据第一损失和第二损失获取总损失,并判断当前总损失是否大于预设损失阈值;如果大于,执行模型更新子模块;否则,执行模型获取子模块;
[0120] 所述模型更新子模块,分别与所述第二损失获取子模块和所述正样本获取子模块相连,用于根据当前总损失更新当前初始关键词模型后,通过所述正样本获取子模块重复正样本获取步骤;
[0121] 模型获取子模块,与损失判断子模块相连,用于将不大于损失阈值时使用的初始关键词模型作为预先训练的关键词模型。
[0122] 综上,本发明实施例提供的技术方案,由于对待扩展文本进行扩展时拼接了缺失关键词,使得本发明实施例提供的技术方案在生成关键词时无需理解语义,直接从扩展文本中抽取关键词即可,降低了生成缺失关键词的难度,解决了现有技术中生成缺失关键词时需要理解语义才能获得,关键词的生成过程比较复杂问题。另外,该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上,还能够提高缺失关键词的覆盖范围且提升准确率。
[0123] 实施例8
[0124] 如图8所示,本发明实施例提供一种关键词生成装置,包括:
[0125] 文本获取模块801,用于获取待生成文本;
[0126] 关键词获取模块802,与文本获取模块相连,用于将待生成文本输入通过关键词模型训练装置获取的预先训练的关键词模型中,得到待生成文本对应的关键词。
[0127] 在本实施例中,通过上述模块生成关键词的过程,与本发明实施例4提供的相似,其中使用的关键词模型训练装置与实施例6或7提供的相似,在此不再一一赘述。
[0128] 综上,本发明实施例提供的技术方案,由于对待扩展文本进行扩展时拼接了缺失关键词,使得本发明实施例提供的技术方案在生成关键词时无需理解语义,直接从扩展文本中抽取关键词即可,降低了生成缺失关键词的难度,解决了现有技术中生成缺失关键词时需要理解语义才能获得,关键词的生成过程比较复杂问题。另外,该方案仅将缺失关键词转换成已有关键词并拼接在待扩展文档上,还能够提高缺失关键词的覆盖范围且提升准确率。
[0129] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。