技术领域
[0001] 本发明涉及数据分析技术领域,特别是涉及多维度拓展关键词的方法和装置。
相关背景技术
[0002] 由于大多用户是在智能终端中的应用库平台(即应用商店)下载各种APP(app l ication,也称作应用),因此APP开发者为提高自身APP在应用商店的搜索质量,需要做好APP的关键词分析以优化自身APP。
[0003] 基于智能终端应用商店的特定行业知识背景,传统应用商店APP的关键词拓展较多依靠人工进行判断拓展,拓展质量受到人工主观认知水平的影响较大,关键词拓展结果的质量不稳定的缺陷。并且,现有拓展思路通常是基于APP自身的特征进行关键词拓展,因此难以全面拓展关键词。
具体实施方式
[0022] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0023] 在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,字符“/”一般表示前后关联对象是一种“或”的关系。
[0024] 本发明各实施例中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。
[0025] 图1为一实施例的多维度拓展关键词的方法的示意性流程图;如图1所示,本实施例中的多维度拓展关键词的方法包括步骤:
[0026] S11,获取待拓展APP在应用库平台中覆盖的第一关键词,根据各个第一关键词在应用库平台搜索到的APP得到待拓展APP关联的第二APP;获取各第二APP在应用库平台中覆盖的第二关键词,根据各第二关键词在应用库平台搜索到的APP得到待拓展APP关联的第三APP;获取各第三APP在应用库平台中覆盖的关键词,根据各第三APP覆盖的关键词得到第一候选关键词集合;确定各第三APP相对于第二APP集合的相似度,确定第一候选关键词集合中各关键词所占的比重,根据所述相似度以及所述比重计算第一候选关键词集合中各关键词的第一相似度得分;根据所述第一相似度得分从第一候选关键词集合中筛选出第一设定数量的关键词,得到第一拓展关键词集合。
[0027] 本发明实施例中的关键词,包括所有可用于在应用库平台搜索APP的字符,例如汉字、英文单词或者字母、数字或者其他文字符号,还可以是几种字符的组合形式。所述第一关键词可以是通过分析应用库平台的历史搜索信息得到的,所述历史搜索信息中包含关键词与APP的映射关系,也可是根据经验值预先指定的;待拓展APP覆盖的第一关键词为多个,待拓展APP关联的第二APP也为多个。
[0028] 其中,APP覆盖的关键词需满足条件:在该关键词对应的搜索结果中包含有所述APP。即各个第一关键词在应用库平台的搜索结果中,均包含有所述待拓展APP。
[0029] 其中,所述第二关键词可以是通过分析应用库平台的历史搜索信息得到的,也可是根据经验值预先指定的。一个第二APP覆盖的第二关键词,需满足条件:第二关键词在应用库平台的搜索结果中,包含有该第二APP。各第二APP覆盖的第二关键词、第三APP覆盖的关键词均为多个,待拓展APP关联的第三APP也为多个。
[0030] 其中,所述第三APP覆盖的关键词可以是通过分析应用库平台的历史搜索信息得到的,也可是根据经验值预先指定的。一个第三APP覆盖的关键词,需满足条件:所述关键词在应用库平台的搜索结果中,包含有该第三APP。
[0031] 其中,第三APP与相应第二APP的相似度,表示第三APP与对应的第二APP的综合关联度。在一实施例中,若第三APP对应的第二APP为一个,则获取第三APP与对应的第二APP的相似度,作为所述第三APP相对于第二APP集合的相似度;若第三APP对应的第二APP为两个以上,则分别获取第三APP与各个对应的第二APP的相似度,以此计算相似度均值,以所述相似度均值作为所述第三APP相对于第二APP集合的相似度。其中,所述第三APP与单个第二APP的相似度可以是预先确定的,也可以是基于应用平台的搜索记录实时计算的。所述计算相似度均值,既包括计算绝对平均值,也包括计算加权平均值。
[0032] 其中,各关键词在所述第一候选关键词集合中所占的比重是基于关键词对于第三APP的重要度确定的。即关键词对于一个APP的重要度,表征该APP在该关键词的搜索结果中的排名信息。关键词对于APP的重要度,可以是预先通过应用库平台的历史搜索记录数据的数据分析得到的重要度,也可以是预先设定的重要度。若为前者,在一实施例中,还包括根据应用库平台的历史搜索记录信息,预先确定各关键词对于其搜索到APP的重要度的步骤。
[0033] S12,从第一关键词中筛选出重点关键词,根据各个重点关键词在应用库平台搜索到的APP得到待拓展APP关联的第四APP;根据第四APP在应用库平台中覆盖的关键词得到第二候选关键词集合;确定第二候选关键词集合中各关键词相对于重点关键词集合的综合相似度,确定第二候选关键词集合中各个关键词的比重,根据所述比重以及所述综合相似度计算第二候选关键词集合中各关键词的第二相似度得分;根据所述第二相似度得分从所述第二候选关键词集合中筛选出第二设定数量的关键词,得到第二拓展关键词集合。
[0034] 其中,所述重点关键词需满足条件:在重点关键词的搜索结果中,待拓展APP的排名靠前,例如待拓展APP排名在前10位。
[0035] 可选地,本步骤中还包括对每个重点关键词在应用库平台搜索到的APP进行筛选,只选取其中排名在前100位(该数量可具体设定)的APP,由此得到待拓展APP关联的第四APP。例如一个重点关键词在应用库平台可搜索到的500个APP,只选取其中排名在前100位的APP,由此可减少后续关键词拓展的计算复杂度,同时,排名越靠后,表明关键词与APP的关联性越低,因此将排在后面的APP剔除,也可保证关键词拓展的准确度。其中,一个第四APP覆盖的第二级关键词需满足条件:第二级关键词在应用库平台的搜索结果中,包含有该第四APP。
[0036] 其中,第二候选关键词集合中各关键词与单个重点关键词的相似度表示关键词在同一应用平台中的关联度,可反映出各自搜索到APP的重合度,关键词与关键词的相似度可以是预先确定的,也可以是基于应用平台的搜索记录实时计算得到。可选地,所述根据第二候选关键词集合中各关键词对应的重点关键词、各关键词与对应重点关键词的相似度,计算第二候选关键词集合中各关键词相对于重点关键词的综合相似度包括:获取第二候选关键词集合中各关键词对应的重点关键词、各关键词与对应重点关键词的相似度,计算第二候选关键词集合中各关键词与对应的重点关键词的相似度的平均值,作为第二候选关键词集合中各关键词相对于重点关键词集合的综合相似度。所述平均值包括绝对平均值,也包括加权平均值。
[0037] 例如:假设重点关键词:“购物”、“淘宝”;关键词“购物”拓展出APP所覆盖的关键词:[京东,苏宁易购];关键词“淘宝”拓展出APP所覆盖的关键词:[京东,天猫];那么第二候选关键词集合为[京东,苏宁易购,天猫]。
[0038] 其中,第二候选关键词集合中“京东”相对于重点关键词集合的综合相似度为:
[0039] sim(京东)=[sim(购物,京东)+sim(淘宝,京东)]/2。
[0040] 第二候选关键词集合中“苏宁易购”相对于重点关键词集合的综合相似度为:
[0041] sim(苏宁易购)=sim(购物,苏宁易购)。
[0042] 第二候选关键词集合中“天猫”相对于重点关键词集合的综合相似度为:
[0043] sim(天猫)=sim(淘宝,天猫)。
[0044] 其中,各关键词在第二候选关键词集合中所占的比重是基于关键词对于相应APP的重要度确定的,关键词对于一个APP的重要度,表征该APP在该关键词搜索结果中的排名信息。关键词对于APP的重要度,可以是预先通过应用库平台的历史搜索记录数据的数据分析得到的重要度,也可以是预先设定的重要度。若为前者,在一实施例中,还包括根据应用库平台的历史搜索记录信息,预先确定各关键词对于其搜索到APP的重要度的步骤。
[0045] S13,从第一拓展关键词集合和第二拓展关键词集合中选取第三设定数量的关键词,得到待拓展APP的拓展关键词。
[0046] 通过上述实施例的关键词拓展方法,在接收到待拓展APP之后,在接收到待拓展APP之后,一方面确定待拓展APP关联的第二APP(竞品APP),基于第二APP得到得到第一拓展关键词集合;另一方面确定待拓展APP的重点关键词,基于重点关键词得到第二拓展关键词集合;然后在第一拓展关键词集合和第二拓展关键词集合的基础上进行关键词筛选,得到待拓展APP的最终拓展关键词。上述技术方案能够根据对待拓展的APP,基于竞品APP和重点关键词两个维度进行关键词的拓展,能够提高关键词拓展的质量和全面性。
[0047] 在一实施例中,上述步骤S11中,可从第一候选关键词集合中选取所述第一相似度得分由高到低排名在前的设定数量的关键词,得到第一拓展关键词集合。
[0048] 在一实施例中,可从第二候选关键词集合中选取所述第二相似度得分由高到低排名在前的设定数量的关键词,得到第二拓展关键词集合。
[0049] 进一步地,在一实施例中,上述步骤S13中,从第一拓展关键词集合和第二拓展关键词集合中选取第三设定数量的关键词,得到待拓展APP的拓展关键词,包括:分别记第一拓展关键词集合为W(1)、第二拓展关键词集合为W(2),由第一拓展关键词集合、第二拓展关键词集合得到第三拓展关键词集合,记为W(3),对第三拓展关键词集合W(3)中各关键词的第一相似度得分或第二相似度得分进行归一化处理;获取第三拓展关键词集合W(3)中各关键词的搜索指数,根据各关键词的搜索指数以及归一化处理后的相似度得分,计算W(3)中各关键词的最终相似度得分;根据最终相似度得分从W(3)中选取设定数量的关键词,得到待拓展APP的拓展关键词。
[0050] 可选地,采用如下方式对W(3)中第i个关键词的第一相似度得分或第二相似度得分进行归一化处理:
[0051]
[0052] 其中,si为W(3)中第i个关键词的第一相似度得分或第二相似度得分,smin与smax分别表示W(3)中相似度得分的最小值与最大值,si′为W(3)中第i个关键词归一化后的相似度得分。
[0053] 可选地,对计算各关键词的最终相似度得分的方法为:
[0054] 查询W(3)中各关键词的搜索指数,按上述相似度得分归一化的原理对W(3)中各关键词的搜索指数进行归一化处理,得到各关键词的搜索指数修正值p′;采用如下方式计算各关键词的最终相似度得分:
[0055] scorei(1)=α·s′i+(1-α)p′
[0056] 其中,预设权重系统α∈[0,1]。
[0057] 所述根据最终相似度得分从W(3)中选取设定数量的关键词,得到待拓展APP的拓展关键词包括:从W(3)中选取最终相似度得分由高到低排名在前的设定数量的关键词,得到待拓展APP的拓展关键词;或者,还可根据最终相似度得分由高到低的顺序,从W(3)中选取设定数目的关键词词组,各关键词词组中包含多个关键词,得到待拓展APP的多组拓展关键词。可见,通过上述实施例的关键词拓展方法,还便于批量导出待拓展的APP对应的关键词拓词方案,实现效率也得到较大提升;既实现量产,同时又可保证拓展质量。
[0058] 在一实施例中,上述步骤S11中,获取待拓展APP在应用库平台中覆盖的第一关键词的过程可包括:根据应用库平台的历史搜索记录获取待拓展APP覆盖的全部关键词;对待拓展APP覆盖的全部关键词进行异常筛选,以删除其中的异常关键词,得到待拓展APP覆盖的第一关键词。其中,所述异常关键词包括:搜索指数异常、关键词搜索结果数据异常、APP在搜索结果中排名异常、字符数异常中的至少一种特征的关键词。其中,搜索指数是根据设定统计时间内采用该关键词在应用库平台进行APP搜索的累计次数(搜索量),同时考虑搜索量级等因素计算得到的,搜索指数与搜索量两者是呈现正向关系,从经验上大致估计,搜索指数对应的搜索量如下:
[0059]
[0060] 其中,P为搜索指数,f(x)代表搜索指数与搜索量两者关系已非单纯的线性增长关系。搜索指数异常指的是,搜索指数小于设定数值;搜索结果异常指的是,关键词搜索到的APP数量小于设定数量;重要度异常指的是,在关键词的搜索结果中APP排名较为靠后;字数异常指的是,字数过短或者过长。
[0061] 相应地,所述获取各第二APP覆盖的第二关键词的过程可包括:根据应用库平台的历史搜索记录获取各第二APP覆盖的全部关键词;对各第二APP覆盖的全部关键词进行异常筛选,以删除其中的异常关键词,得到所述第二APP覆盖的第二关键词。以及,所述获取各第三APP在应用库平台中覆盖的关键词的过程可包括:根据应用库平台的历史搜索记录获取各第三APP覆盖的全部关键词;对各第三APP覆盖的全部关键词进行异常筛选,以删除其中的异常关键词,得到所述第三APP覆盖的关键词。
[0062] 上述关键词过滤处理的目的在于对关键词进行异常筛选,例如关键词搜索结果太少、搜索指数过低、搜索排名靠后、字数过短或过长等均属于关键词异常情况,将其剔除,以防止异常数据对后续拓展的干扰,提高关键词拓展的准确度。
[0063] 在一实施例中,在上述步骤S11之前还包括预先确定关键词对于相应APP的重要度的步骤,该步骤具体包括:根据关键词搜索结果中APP的排名信息,对关键词对于APP的重要度赋值:
[0064] V_2(w)=(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0.5)
[0065] V_3(r)=(0,1,3,6,10,16,22,30,40,50,65,80,100,120,150,200,∞)
[0066] wi=V_2(w)t;V_3(r)t<rank≤V_3(r)t+1
[0067] 其中,i∈[1,16];V-2(w)为重要度权重向量;V-3(r)为排名区间向量;∞表示排名正无穷大;rank表示搜索结果中APP的排名;wi表示关键词ki对APP的重要度。例如,APP在关键词ki的搜索结果中排名为第2,则关键词ki对所述APP的重要度为wi=V_2(w)2=14;V_3(r)2<rank≤V_3(r)3。其中,V_2(w)、V_3(r)可根据不同的应用库平台预先设置。
[0068] 在一实施例中,上述步骤S12中,从待拓展APP覆盖的第一关键词中筛选出重点关键词的具体过程包括:获得各个第一关键词对于待拓展APP的重要度,选取重要度大于或等于第一设定重要度阈值的第一关键词,作为待拓展APP覆盖的重点关键词;其中,关键词对于待拓展APP的重要度,表征待拓展APP在该关键词的搜索结果中的排名信息。
[0069] 在一可选实施例中,根据应用库平台的历史搜索记录信息获取待拓展APP覆盖的关键词之前,还包括对应用库平台的历史搜索记录信息进行预处理的步骤。例如基于最近一周在所述应用库平台发生的搜索记录信息,历史搜索记录信息包括用于搜索的关键词信息以及各关键词对应的搜索结果信息。例如最近一周的关键词搜索结果、APP信息(可包括APPID、APP名称、所属榜单等维度)、关键词信息(包括关键词ID、关键词、搜索指数、搜索结果等维度)。
[0070] 在一可选实施例中,对应用库平台的历史搜索记录信息进行预处理的步骤可包括:获取应用库平台在设定时间段的历史搜索记录信息,根据所述历史搜索记录信息确定各关键词对应的第一映射关系;所述第一映射关系中包括关键词对应的APP信息,以及APP在所述关键词的多次搜索结果中的排名信息。然后,根据所述历史搜索记录信息中多个关键词的所述第一映射关系,确定各APP对应的第二映射关系;所述第二映射关系中包括APP对应的关键词,还包括各个关键词对于所述APP的重要度,所述重要度用于表示APP在所述关键词的搜索结果中的排名信息,APP在关键词的搜索结果中排名越前,该关键词对于该APP的重要度越大。进一步的,根据所述第一映射关系和第二映射关系建立所述应用库平台对应的数据映射库。
[0071] 基于所述数据映射库,所述根据应用库平台的历史搜索记录信息获取待拓展APP对应的第一关键词可包括:查询所述数据映射库,获取待拓展APP对应的第二映射关系,根据所述第二映射关系得到待拓展APP对应的第一关键词,以及所述第一关键词的重要度。所述获取各个第一级重点关键词在应用库平台覆盖到的APP信息可包括:查询所述数据映射库,获取各个第一级重点关键词对应的第一映射关系,根据所述第一映射关系得到各个第一级重点关键词覆盖的APP信息。所述获取各个重点关键词在应用库平台搜索到的APP可包括:查询所述数据映射库,获得各个重点关键词对应的第一映射关系,根据所述第一映射关系得到各个重点关键词覆盖的APP信息。
[0072] 在一实施例中,上述步骤S11中,根据各个第一关键词在应用库平台搜索到的APP得到待拓展APP关联的第二APP包括:根据历史搜索记录中各第一关键词在设定历史时段内的多次搜索结果,得到该第一关键词对应的多次搜索结果中APP的频次排序信息;获取频次排序排在前的设定数量的APP,作为各第一关键词搜索到的APP信息。根据全部第一关键词、各个第一关键词搜索到的APP信息得到一APP矩阵;统计该APP矩阵中各APP的出现频次,选取该APP矩阵中出现频次大于或等于第一设定频次的APP,作为待拓展APP关联的第二APP。
[0073] 在一实施例中,上述步骤S11中,所述根据各第二关键词搜索到的APP得到待拓展APP关联的第三APP包括:根据历史搜索记录中各第二关键词在设定历史时段内的多次搜索结果,得到该第二关键词对应的多次搜索结果中APP的频次排序信息;获取频次排序排在前的设定数量的APP,作为各第二关键词搜索到的APP信息;根据全部第二关键词、各个第二关键词搜索到的APP信息得到一APP矩阵;统计该APP矩阵中各APP的出现频次,选取该APP矩阵中出现频次大于或等于第二设定频次的APP,作为所述第二APP关联的第三APP。
[0074] 在一实施例中,上述步骤S12中,所述根据重点关键词搜索到的APP得到第四APP包括:根据历史搜索记录中各重点关键词在设定历史时段内的多次搜索结果,得到所述重点关键词对应的多次搜索结果中APP的频次排序信息;获取频次排序排在前的设定数量的APP,作为所述重点关键词搜索到的APP;根据全部重点关键词、各个重点关键词搜索到的APP得到一APP矩阵;统计该APP矩阵中各APP的出现频次,选取该APP矩阵中出现频次大于或等于设定频次的APP,得到第四APP。
[0075] 由于同一个关键词在设定历史时段内(例如一周内)可能会被多次搜索,且搜素结果随着搜索时间的变化而变化。对搜索结果进行统计汇总,最终得到关键词k0对应的APP集合A(k0)以及频次排序向量V(k0),
[0076] A(k0)=(appid1,appid2,…,appidn)
[0077] V(k0)=(count1,count2,…,countn)
[0078] 其中k0表示关键词,countn表示在设定历史时段内用关键词k0搜索出现appidn对应对app的频次。其中,关键词对应的多次搜索结果中APP的频次排序信息指的是频次排序向量V(k0)中所述APP对应的频次。
[0079] 在一实施例中,在得到第二APP之后,获取各第二APP覆盖的第二关键词之前,还包括步骤:获取待拓展APP在应用库平台中所属的应用榜单,删除与待拓展APP属于不同应用榜单的第二APP。可选地,在得到第三APP之后,获取各第三APP覆盖的关键词之前,还包括步骤:获取待拓展APP在应用库平台中所属的应用榜单,删除与待拓展APP属于不同应用榜单的第三APP。可选地,在得到第四APP之后,获取各第四APP覆盖的关键词之前,还包括步骤:获取待拓展APP在应用库平台中所属的应用榜单,删除与待拓展APP属于不同应用榜单的第四APP。由此可提高后续关键词拓展的准确度。
[0080] 在一实施例中,各第三APP与单个第二APP的相似度为实时计算的相似度,具体计算过程包括:根据第二APP覆盖的第二关键词得到第二APP的特征向量,根据各第三APP覆盖的关键词得到各第三APP的特征向量;通过One-Hot编码对第二APP的特征向量以及第三APP的特征向量进行处理,得到第二APP的稀疏特征向量以及第三APP的稀疏特征向量;根据第二APP的稀疏特征向量以及第三APP的稀疏特征向量,计算各第三APP与对应的第二APP的相似度。其中,第二APP的稀疏特征向量与第三APP的稀疏特征向量的维度相等,且满足条件:dV≤m+n;m表示第二APP的特征向量的维度,n表示第三APP的特征向量的维度,dV表示所述稀疏特征向量的维度。
[0081] 例如:比如待拓展APP为APP(1),假设其对应的第二APP包括(APP(2)1、APP(2)2),其中第二APPAPP(2)1覆盖的关键词为(KW(2)1,KW(2)2,KW(2)3),以此作为第二APPAPP(2)1的特征向量,特征向量维度为3;第二APPAPP(2)2覆盖的关键词为(KW(2)2,KW(2)3,KW(2)4,KW(2)5),以此作为第二APPAPP(2)2的特征向量,特征向量维度为4。
[0082] 进一步地,第二APPAPP(2)1对应的第三APP包括(APP(3)1,APP(3)2,APP(3)3);第二(2) (3) (3) (3) (3)APPAPP 2对应的第三APP包括(APP 3,APP 4,APP 5);由此可得到第三APP集合(APP 1,APP(3)2,APP(3)3,APP(3)4,APP(3)5)。在第三APP集合中,APP(3)1对应的第二APP只有APP(2)1,因此,APP(3)1与第二APP的相似度即APP(3)1与APP(2)1的相似度;APP(3)3对应的第二APP有APP(2)1和APP(2)2,因此,分别获取APP(3)3与APP(2)1的相似度、APP(3)3与APP(2)2的相似度,以此计算相(3)
似度均值,以所述相似度均值作为APP 3与第二APP的相似度。
[0083] 进一步地,第三APPAPP(3)1覆盖的关键词为(KW(3)1,KW(3)2,KW(3)3),以此作为第三APPAPP(3)1的特征向量,特征向量维度为3;第三APPAPP(3)2覆盖的关键词为(KW(3)4,KW(3)2,KW(3)3,KW(3)5),以此作为第三APPAPP(3)2的特征向量,特征向量维度为4。其中,KW(3)2与KW(2)2为同一关键词。
[0084] 由此,第二APPAPP(2)1的特征向量(KW(2)1,KW(2)2,KW(2)3)、第三APPAPP(3)1的特征向量(KW(3)1,KW(3)2,KW(3)3),KW(3)2与KW(2)2为同一关键词,因此两者在实数空间构成的特征向量为(KW(2)1,KW(2)2,KW(2)3,KW(3)1,KW(3)3),维度为5<=3+3,得到两者的稀疏特征向量分别为:第二APPAPP(2)1的稀疏特征向量:(1,1,1,0,0),第三APPAPP(3)1的稀疏特征向量:(0,1,0,1,1)。
[0085] 基于上述实施例,可选地,通过以下公式计算各第三APP与单个第二APP的相似度:
[0086]
[0087] 式中,APP(2)t表示第t个第二APP;S(3)i表示第i个第三APP;V(APP(2)t)·V(S(3)i)表示APP(2)t的稀疏特征向量与S(3)i的稀疏特征向量的内积;||V(APP(2)t)||2||V(S(3)i)||2表示APP(2)t的稀疏特征向量与S(3)i的稀疏特征向量的2-范数的乘积。
[0088] 可以理解的,两个APP之间相似度的计算方法,包括但不限于上述的基于余弦相似度计算相似度的算法,还可以采用其他用于计算相似度的算法。
[0089] 在一实施例中,根据各第三APP覆盖的关键词得到第一候选关键词集合,包括:根据第二APP关联的第三APP,以及各第三APP覆盖的关键词,得到第二APP关联的关键词矩阵。3) (3) (3)
对该关键词矩阵中的关键词归并统计,得到第一候选关键词集合KW( =(kw 1,kw 2,…,kw(3)n)以及对应的关键词频次向量为C(3)=(c1,c2,…,cn)。
[0090] 进一步地,第一候选关键词集合KW(3)中的第i个关键词所占的比重为:
[0091]
[0092] 式中,i=1,2,…,n,n表示第一候选关键词集合KW(3)中包含的关键词总数。
[0093] 在一实施例中,所述根据所述相似度以及所述比重计算第一候选关键词集合中各关键词的第一相似度得分包括:根据第一候选关键词集合中关键词的比重、关键词对应的第三APP与第二APP的相似度的乘积,得到第一候选关键词集合中所述关键词的第一相似度得分。具体例如:通过如下公式计算第一候选关键词集合中各关键词的第一相似度得分:
[0094] score(kw(3)i)=V(1)iV(2)i
[0095] 其中,kw(3)i表示第一候选关键词集合KW(3)中的第i个关键词,V(1)i表示kw(3)i对应的第三APP与第二APP的相似度,V(2)i表示kw(3)i所占的比重;i=1,2,…,n,n表示第一候选关(3)键词集合KW 中包含的关键词总数。
[0096] 可以理解的,上述根据第一候选关键词集合中关键词的比重、所述关键词对应的第三APP与第二APP的相似度的乘积,得到第一候选关键词集合中所述关键词的第一相似度得分,即可以是直接乘积,还可以是乘以比例系数之后的乘积。
[0097] 最后根据所述第一相似度得分对第一候选关键词集合进行筛选,得到第一拓展关键词集合。上述实施例能够根据对待拓展的APP,基于竞品APP实现第一拓展关键词集合的拓展,拓展效率高。
[0098] 在一实施例中,上述步骤S12中,还包括确定第二候选关键词集合中各关键词与对应的重点关键词的相似度的步骤,该步骤具体过程包括:
[0099] 根据第二候选关键词集合中每个关键词搜索到的APP得到每个关键词的特征向量,根据每个重点关键词搜索到的APP得到每个重点关键词的特征向量;将第二候选关键词集合中各关键词的特征向量分别与每个重点关键词的特征向量进行One-Hot编码处理,得到第二候选关键词集合中所述关键词的稀疏特征向量以及每个重点关键词的稀疏特征向量;根据第二候选关键词集合中所述关键词的稀疏特征向量以及每个重点关键词的稀疏特征向量,计算第二候选关键词集合中所述关键词与每个重点关键词的相似度。
[0100] 进一步地,可计算第二候选关键词集合中所述关键词与对应的重点关键词的相似度的平均值,作为第二候选关键词集合中所述关键词与相应重点关键词的综合相似度。所述平均值可以是绝对平均值,还可以是加权平均值。
[0101] 可选地,第二候选关键词集合中第i个关键词与对应重点关键词的相似度的确定方式如下:
[0102]
[0103] 式中,KW(1)′表示重点关键词集合,KW(1)′k表示第K个重点关键词;KW(2)′i表示第二候选关键词集合中第i个关键词;V(KW(1)′k)·V(KW(2)′i)表示KW(1)′k的稀疏特征向量与KW(2)′i的稀疏特征向量的内积;||V(KW(1)′k)||2||V(KW(2)′i)||2表示KW(1)′k的稀疏特征向量与KW(2)′i的稀疏特征向量的2-范数的乘积。
[0104] 可以理解的,两个关键词之间相似度的计算方法,包括但不限于上述的基于余弦相似度计算相似度的算法,还可以采用其他用于计算相似度的算法。
[0105] 在一实施例中,上述步骤S12中,根据第四APP覆盖的关键词得到第二候选关键词集合包括:根据全部第四APP覆盖的关键词得到一关键词矩阵;对该关键词矩阵中的关键词(2) (2) (2) (2)归并统计,得到第二候选关键词集合KW =(kw 1,kw2 ,…,kwn ),以及所述第二候选关键词集合对应的关键词频次向量C(2)=(c1,c2,…,cn)。
[0106] 第二候选关键词集合KW(2)中的第i个关键词所占的比重为:
[0107]
[0108] 式中,i=1,2,…,n,n表示第二候选关键词集合KW(2)中包含的关键词总数。
[0109] 在一实施例中,上述步骤S12中,根据所述比重以及所述综合相似度计算第二候选关键词集合中各关键词的第二相似度得分,包括:根据第二候选关键词集合中关键词的比重以及该关键词相对于重点关键词的综合相似度的乘积,得到第二候选关键词集合中该关键词的第二相似度得分。具体例如:可通过如下公式计算第二候选关键词集合中各关键词的第二相似度得分:
[0110] sim(KW(2)i)=weighti·cos′i
[0111] 其中,KW(2)表示第二候选关键词集合中第i个关键词,weighti表示第二候选关键词集合KW(2)中第i个关键词所占的比重,cosi表示第二候选关键词集合KW(2)中第i个关键词的综合相似度。
[0112] 可以理解的,上述根据第二候选关键词集合中关键词的比重以及该关键词与相应重点关键词的综合相似度的乘积,得到第二候选关键词集合中该关键词的第二相似度得分,即可以是直接乘积,还可以是乘以比例系数之后的乘积。
[0113] 最后根据所述第二相似度得分对第二候选关键词集合进行筛选,得到第二拓展关键词集合。上述技术方案能够基于待拓展的APP的重点关键词得到得到第二拓展关键词集合,保证了第二拓展关键词集合拓展的广度并保证关键词拓展质量。
[0114] 下面以苹果应用商店为例,对本发明实施例的关键词拓展过程做进一步的说明,其他应用库平台与之原理相同。
[0115] 参见图2所示,第一拓展关键词集合的拓展过程包括以下步骤。
[0116] 1、关键词内容抓取
[0117] 利用苹果开发者API获取苹果应用商店最近一周的历史搜索记录数据,包括但不限于应用名称、关键词详情、关键词搜索指数、关键词搜索结果、应用榜单等。
[0118] 2、历史关键词搜索记录数据预处理
[0119] 2.1关键词与APP的正向映射关系,记为A(k),表示关键词k的搜索结果,appid的下标索引表示用关键词k搜索APP的实际排名,
[0120] A(k)=(appid1,appid2,…,appidn) (2-1)
[0121] 式中n为正整数。
[0122] 需要说明的是,本发明实施例中,APP可通过appid标识,appid由应用库平台统一分配,用于标识不同的APP。
[0123] 2.2app与关键词的逆向映射关系,记为K(a),表示应用a所覆盖的所有关键词:
[0124] K(a)=(keyword1,...,keywordn) (2-2)
[0125] 式中n为正整数。
[0126] 3、获取竞品APP(即关联的第二APP)
[0127] 3.1记待拓展APP的appid为APP(1);
[0128] 3.2通过K(a)获取APP(1)覆盖的关键词集合K(APP(1)),待拓展APP覆盖的第一关键词;
[0129] 3.3对关键词集合K(APP(1))进行异常筛选。关键词搜索结果太少、搜索指数过低、搜索排名靠后、字数过短或过长都属于数据异常情况,将其剔除;
[0130] 3.4通过A(k)获取关键词集合K(APP(1))中每个关键词对应appid,记为A(K(APP(1)));
[0131] 3.5对A(K(APP(1)))进行归并统计,取其中频次排名前n的appid,记为APP集合S(1)′;
[0132] 3.6剔除APP集合S(1)′中与APP(1)不属于同一应用榜单的APP,最后只取k个作为竞品APP,记为竞品APP集合S(1),即待拓展APP关联的第二APP。
[0133] 4、APP拓展关键词
[0134] 记S(1)i为竞品APP集合S(1)中第i个APP,遍历竞品APP集合S(1),步骤如下:
[0135] 4.1获取关联appid
[0136] 同步骤3中的前5个步骤,得竞品APPS(1)i的关联APP,记为第三APP,对应的集合用S(3)表示:
[0137] A(K(S(1)i))=(appid1,…,appidn) (4-1)
[0138] 进一步地,可得(4-1)所覆盖的关键词矩阵:
[0139]
[0140] 4.2特征向量提取。
[0141] 将竞品APPS(1)i的特征向量与S(3)中各APP所覆盖的特征向量(即与(4-2)中对应一(1) (1) (3)行关键词)进行One-Hot编码,由此得到竞品APPS i的稀疏特征向量V(S i),以及S 中各APP所覆盖的稀疏特征向量V(S(3)i)。
[0142] 4.3计算APP相似度。
[0143] 基于4.2的结果,计算S(3)中各APP与S(1)i的相似度,如下:
[0144]
[0145] 式中,S(3)j表示S(3)中的第j个第三APP;V(S(3)j)·V(S(1)i)表示S(3)j的稀疏特征向量与S(1)i的稀疏特征向量的内积;||V(S(3)j)||2||V(S(1)i)||2表示S(3)j的稀疏特征向量与S(1)i的稀疏特征向量的2-范数的乘积。
[0146] 对(4-2)中的关键词归并统计,得到第一候选关键词集合KW(3)=(kw(3)1,kw(3)2,…,(3) (3)kw n),以及对应的频次向量为C =(c1,c2,…,cn);
[0147] 第一候选关键词集合KW(3)中第i个关键词的比重为:
[0148]
[0149] 式中,i=1,2,…,n,n表示第一候选关键词集合KW(3)中包含的关键词总数。
[0150] 4.4计算第一候选关键词集合中各关键词的第一相似度得分。
[0151] 根据(4-3)的相似度和(4-4)的比重,可计算第一候选关键词集合KW(3)中每个关[0152] 键词的第一相似度得分。
[0153] 最后,对第一候选关键词集合KW(3)中关键词按照第一相似度得分进行倒序(由高到低),取KW(3)中前M个,得到第一拓展关键词集合W(1)。
[0154] 参见图2所示,第二拓展关键词集合的拓展过程包括以下步骤。
[0155] 5、获取重点关键词
[0156] 记待拓展APP的appid为APP(1);同上述第一拓展关键词集合的拓展过程中第一关键词的确定方式,得到待拓展APP覆盖的第一关键词,记为K(APP(1))。
[0157] 对第一关键词K(APP(1))进行异常筛选,关键词搜索结果太少、搜索指数过低、搜索排名靠后、字数过短或过长都属于数据异常情况,将其从第一关键词对应的集合中剔除;然(1)后根据A(k),选取搜索结果中APP 排名在前k的关键词作为重点关键词,记为重点关键词集合KW(1)′;
[0158] 6、关键词拓展关键词
[0159] 记KW(1)′i为重点关键词集合KW(1)′中的第i个关键词,遍历KW(1)′,步骤如下:
[0160] 6.1根据A(k)获取关键词KW(1)′i对应appid,取排名前k的APP,记为A(KW(1)′i);
[0161] 6.2根据K(a)获取A(KW(1)′i)中每个APP所覆盖的关键词,记为K(A(KW(1)′i)),归并统计关键词,得到关键词的频次,取频次靠前的k个关键词,得到第二候选关键词集合为:KW(2)=(kw(2)1,kw2(2),…,kwn(2)),其频次向量为:C(2)=(c1,c2,…,cn);
[0162] 定义第二候选关键词集合KW(2)中第i个关键词的比重为:
[0163]
[0164] 式中,i=1,2,…,n,ci为第二候选关键词集合KW(2)中第i个关键词的频次。
[0165] 6.3根据A(k)获取重点关键词KW(1)′i与第二候选关键词集合KW(2)中每个关键词对应的appid,并以此作为关键词的特征向量,基于One-Hot编码获取各自对应的稀疏特征向量。基于关键词各自对应的稀疏特征向量,可计算重点关键词KW(1)′k与第二候选关键词集合KW(2)中第i个关键词的余弦相似度,记为cosi。
[0166]
[0167] 式中,KW(1)′k表示第K个重点关键词;KW(2)i表示第二候选关键词集合中第i个关键词;V(KW(1)′k)·V(KW(2)i)表示KW(1)′k的稀疏特征向量与KW(2)i的稀疏特征向量的内积;||V(KW(1)′k)||2||V(KW(2)i)||2表示KW(1)′k的稀疏特征向量与KW(2)i的稀疏特征向量的2-范数的乘积。
[0168] 计算第二候选关键词集合中关键词与对应的重点关键词的相似度的平均值,作为第二候选关键词集合中所述关键词与相应重点关键词的综合相似度,关键词的综合相似度记为cosi′。
[0169] 6.4计算第二候选关键词集合中关键词的第二相似度得分为:
[0170] sim(KW(2)i)=weighti·cos′i;
[0171] 其中,KW(2)i表示第二候选关键词集合中第i个关键词,weighti表示第二候选关键词集合KW(2)中第i个关键词所占的比重,cos′i表示第二候选关键词集合KW(2)中第i个关键词的综合相似度。
[0172] 6.5最后,对第二候选关键词集合KW(2)中关键词按照第二相似度得分进行倒序(由(2) (2)高到低),取KW 中前M个关键词,由此得到第二拓展关键词集合W 。
[0173] 7.归一化
[0174] 为消除量纲,将第一拓展关键词集合W(1)与第二拓展关键词集合W(2)中关键词的相似度得分分别按以下公式归一化至区间[0,1],具体包括:
[0175] 由第一拓展关键词集合W(1)、第二拓展关键词集合W(2)得到关键词集合W(3),通过下式对集合W(3)中各关键词的第一相似度得分或第二相似度得分进行归一化处理:
[0176]
[0177] 其中,si为W(3)中第i个关键词的第一相似度得分或第二相似度得分,smin与smax分别
[0178] 表示W(3)中关键词对应的相似度得分的最小值与最大值,s′i为W(3)中第i个关键词归一化后的相似度得分。
[0179] 8.异常筛选
[0180] W(3)中关键词搜索指数太低、长度太小或太大、繁体字、不存在自身APP与竞品APP的覆盖词语等均属于异常情况,剔除。
[0181] 9.计算评分
[0182] 查询W(3)中关键词的搜索指数,基于公式(7-1)的原理进行归一化处理得到W(3)中各关键词的搜索指数修正值p′,设置权重α∈[0,1],按以下公式计算W(3)中各关键词的最终相似度得分:
[0183] scorei(1)=α·s′i+(1-α)p′ (9-1)
[0184] 10.关键词输出方案
[0185] 10.1对W(3)的关键词按最终相似度得分倒序排列;
[0186] 10.2选择是否需要剔除重复值以增加方案信息量;若是,执行步骤10.3,若否,则限制当满足设定字数(例如100字)时便输出关键词方案(按字来算,不按关键词的个数,比如“购物”和“社交”是两个关键词,但是为四个字),以此类推直到输出三套关键词方案,并且确定每套关键词方案的评分为:
[0187]
[0188] 式中,i=1,2,3,m为每套关键词方案中关键词的个数。
[0189] 10.3若需要剔除重复值以增加方案信息量,则先求W(3)中第i个关键词W(3)i与第i+1个关键词W(3)i+1的最大公共字串str(i,i+1),假如str(i,i+1)长度大于设定长度,则将W(3)i的str(i,i+1)替换为W(3)i+1,如“手机淘宝”与“淘宝购物”可组合为“手机淘宝购物”;否则用逗号相隔。同理10.2输出三套关键词方案,确定每套关键词方案的评分。
[0190] 上述步骤中,1~2可以是离线计算,定期更新,比如每周重新更新一遍。步骤3~10是在线计算,对用户输入的每个APP名称查询数据映射库得到对应的appid,进而可从两个维度全面拓展出该APP对应的关键词。
[0191] 需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。此外,还可对上述实施例进行任意组合,得到其他的实施例。
[0192] 基于与上述实施例中的多维度拓展关键词的方法相同的思想,本发明还提供多维度拓展关键词的装置,该装置可用于执行上述多维度拓展关键词的方法。为了便于说明,多维度拓展关键词的装置实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0193] 图3为本发明一实施例的多维度拓展关键词的装置的示意性结构图;如图3所示,本实施例的多维度拓展关键词的装置包括:
[0194] 第一拓词模块,用于获取待拓展APP在应用库平台中覆盖的第一关键词,根据各个第一关键词在应用库平台搜索到的APP得到待拓展APP关联的第二APP;获取各第二APP在应用库平台中覆盖的第二关键词,根据各第二关键词在应用库平台搜索到的APP得到待拓展APP关联的第三APP;获取各第三APP在应用库平台中覆盖的关键词,根据各第三APP覆盖的关键词得到第一候选关键词集合;确定各第三APP相对于第二APP集合的相似度,确定第一候选关键词集合中各关键词所占的比重,根据所述相似度以及所述比重计算第一候选关键词集合中各关键词的第一相似度得分;根据所述第一相似度得分从第一候选关键词集合中筛选出第一设定数量的关键词,得到第一拓展关键词集合;
[0195] 第二拓词模块,用于从第一关键词中筛选出重点关键词,根据各个重点关键词在应用库平台搜索到的APP得到待拓展APP关联的第四APP;根据第四APP在应用库平台中覆盖的关键词得到第二候选关键词集合;确定第二候选关键词集合中各关键词相对于重点关键词集合的综合相似度,确定第二候选关键词集合中各个关键词的比重,根据所述比重以及所述综合相似度计算第二候选关键词集合中各关键词的第二相似度得分;根据所述第二相似度得分从所述第二候选关键词集合中筛选出第二设定数量的关键词,得到第二拓展关键词集合;以及,
[0196] 筛选模块,用于从第一拓展关键词集合和第二拓展关键词集合中选取第三设定数量的关键词,得到待拓展APP的拓展关键词;
[0197] 其中,APP覆盖的关键词需满足条件:在该关键词在应用库平台的搜索结果中包含有所述APP。
[0198] 需要说明的是,上述示例的多维度拓展关键词的装置的实施方式中,各模块之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
[0199] 此外,上述示例的多维度拓展关键词的装置的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述多维度拓展关键词的装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
[0200] 本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,作为独立的产品销售或使用。所述程序在执行时,可执行如上述各实施例的方法的全部或部分步骤。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0201] 据此,在一个实施例中还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种多维度拓展关键词的方法。
[0202] 此外,所述存储介质还可设置与一种计算机设备中,所述计算机设备中还包括处理器,所述处理器执行所述存储介质中的程序时,能够实现上述各实施例的方法的全部或部分步骤。
[0203] 据此,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种多维度拓展关键词的方法。
[0204] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。可以理解,其中所使用的术语“第一”、“第二”等在本文中用于区分对象,但这些对象不受这些术语限制。以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。