一种信息处理方法、装置及计算机可读存储介质

一种信息处理方法、装置及计算机可读存储介质有效专利发明

技术领域

[0001] 本发明实施例涉及计算机技术领域，尤其涉及一种信息处理方法、装置及计算机可读存储介质。

具体实施方式

[0080] 为使本发明实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明实施例的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

[0081] 本发明实施例提供一种信息处理方法，如图1所示，该方法包括：

[0082] 步骤101、服务器根据目标人物的信息获取第一网页集合。

[0083] 在一种示例性实例中，目标人物的信息包括：目标人物的姓名和单位名称，该步骤具体可以通过网页爬虫的方法获取，网页爬虫的爬取模式可以包括以下两种：一种是给定种子网页利用网页链接关系向外扩展爬取越来越多网页，另一种是给定网站爬取网站所有网页内容，其中，网页爬虫具备直译式脚本语言Javascript解析功能，支持动态内容爬取，可以高效爬取新的网页并及时发现已经下线的网页。

[0084] 步骤102、从第一网页集合中获取表示目标人物的经历的第一语句集合。

[0085] 步骤103、根据第一语句集合中语句的信息量和类别，获取目标人物的简历信息。

[0086] 本发明实施例所提供的信息处理方法，服务器根据目标人物的信息获取第一网页集合；从第一网页集合中获取表示目标人物的经历的第一语句集合；根据第一语句集合中语句的信息量和类别，获取目标人物的简历信息。因此实现了目标人物的简历信息的自动获取，从而避免了时间和精力的耗费，提高了简历信息的获取效率。

[0087] 在一种示例性实例中，从第一网页集合中获取表示目标人物的经历的第一语句集合，包括：

[0088] 从第一网页集合中根据网页中语句的所属网页的可靠程度、信息量、质量和信息熵获取第一语句集合。

[0089] 在一种示例性实例中，从第一网页集合中根据网页中语句的所属网页的可靠程度、信息量、质量和信息熵获取第一语句集合，包括：

[0090] 步骤201、基于第一网页集合并利用第一神经网络模型，得到表示目标人物的经历的第二语句集合。

[0091] 步骤202、从第二语句集合中获取语句的所属网页的可靠程度、信息量和质量满足第一预设条件的第三语句集合。

[0092] 在一种示例性实例中，语句的所属网页的可靠程度也是语句的所来源网页的可靠度。

[0093] 步骤203、对第三语句集合中每一条语句进行分词，得到词向量。

[0094] 步骤204、获取第三语句集合中每一条语句对应的词向量的信息熵，作为该语句的信息熵。

[0095] 步骤205、从第三语句集合中获取满足第二预设条件的语句，得到第一语句集合。

[0096] 其中，第二预设条件包括以下至少之一：信息熵大于第一阈值，信息熵从大到小排序在前第一预设位数。

[0097] 在一种示例性实例中，基于第一网页并利用第一神经网络模型之前，还包括：

[0098] 步骤206、获取包含人物经历的语句集合和段落集合，并获取不包含人物经历的语句集合和段落集合。

[0099] 步骤207、将包含人物经历的语句集合和段落集合，以及不包含人物经历的语句集合和段落集合作为训练数据集对预设神经网络模型进行训练，得到第一神经网络模型。

[0100] 在一种示例性实例中，包含人物经历的语句集合和段落集合为正例训练数据集，不包含人物经历的语句集合和段落集合为负例训练数据集。

[0101] 在一种示例性实例中，基于第一网页集合并利用第一神经网络模型，得到表示目标人物的经历的第二语句集合，包括：

[0102] 步骤301、将第一网页集合分为网页的段落数小于或等于预设数值的第二网页集合和网页的段落数大于预设数值的第三网页集合。

[0103] 步骤302、利用第一神经网络模型，以段落为单位处理第二网页集合，得到表示目标人物的经历的第四语句集合。

[0104] 步骤303、利用第一神经网络模型，以语句为单位处理第三网页集合，得到表示目标人物的经历的第五语句集合。

[0105] 步骤304、合并第四语句集合和第五语句集合，得到第二语句集合。

[0106] 在一种示例性实例中，利用第一神经网络模型，以段落为单位处理第二网页集合，得到表示目标人物的经历的第四语句集合，包括：

[0107] 步骤401、将第二网页集合的每一个网页的每一段落文本输入至第一神经网络模型，得到该段落文本是否包含目标人物的经历的第一判定信息。

[0108] 步骤402、从第二网页集合的每一个网页中获取第一判定信息为包含目标人物的经历，且目标人物的姓名出现次数大于其他人物的姓名出现次数的段落。

[0109] 步骤403、将获得的段落按语句进行拆分，得到第四语句集合。

[0110] 在一种示例性实例中，利用第一神经网络模型，以语句为单位处理第三网页集合，得到表示目标人物的经历的第五语句集合，包括：

[0111] 步骤501、将第三网页集合的网页中的内容按语句进行拆分，得到第六语句集合。

[0112] 步骤502、将第六语句集合的每一个语句输入至第一神经网络模型，得到该语句是否包含目标人物的经历的第二判定信息。

[0113] 步骤503、获取第二判定信息为包含目标人物的经历的语句，得到第五语句集合。

[0114] 在一种示例性实例中，从第二语句集合中获取语句的所属网页的可靠程度、信息量和质量满足第一预设条件的第三语句集合，包括：

[0115] 步骤601、获取第二语句集合中每一条语句的所属网页的网页排名，作为该语句的所属网页的可靠程度的得分。

[0116] 在一种示例性实例中，语句的所属网页的网页排名为网页的pagerank值。

[0117] 步骤602、获取第二语句集合中每一条语句分词后生成的词向量的信息熵，作为该语句的信息量的得分。

[0118] 步骤603、获取第二语句集合中每一条语句标点符号和正文长度的比值，作为该语句的质量的得分。

[0119] 步骤604、设置可靠程度的得分的权系数、信息量的得分的权系数和质量的得分的权系数。

[0120] 其中，可靠程度的得分的权系数、信息量的得分的权系数和质量的得分的权系数的和为1。

[0121] 步骤605、将第二语句集合中每一条语句的所属网页的可靠程度的得分、信息量的得分和质量的得分分别与对应权系数进行线性加权，得到每一条语句的综合得分。

[0122] 在一种示例性实例中，假设可靠程度的得分的权系数为0.4，信息量的得分的权系数为0.35，质量的得分的权系数为0.25，将第二语句集合中每一条语句的所属网页的可靠程度的得分、信息量的得分和质量的得分分别与对应权系数进行线性加权，得到每一条语句的综合得分指的是：将第二语句集合中每一条语句的所属网页的可靠程度的得分与0.4相乘，信息量的得分与0.35相乘，质量的得分与0.25相乘，然后将三个相乘得到的结果相加，得到每一条语句的综合得分。

[0123] 步骤606、获取综合得分大于第二阈值的语句，得到第三语句集合。

[0124] 在一种示例性实例中，根据第一语句集合中语句的信息量和类别，获取目标人物的简历信息，包括：

[0125] 步骤701、对第一语句集合中的语句进行聚类，得到若干个语句类。

[0126] 步骤702、采用广度优先和信息熵优先相结合的方式从获得的若干个语句类中获取语句，直到获得的语句数目达到预设条目数，得到目标人物的简历信息。

[0127] 在一种示例性实例中，该步骤指的是按照广度优先的方式遍历语句类，并在每个语句类中按照信息熵优先的方式获取语句，直到获得的语句数目达到预设条目数，得到目标人物的简历信息。

[0128] 假设步骤701得到的语句类有四类，分别是：就职经历语句类、教育经历语句类、投资经历语句类、研究经历语句类，采用广度优先和信息熵优先相结合的方式从获得的若干个语句类中获取语句，直到获得的语句数目达到预设条目数，得到目标人物的简历信息指的是：在第一个语句类(可以是就职经历语句类)中获取信息熵最大的一条语句，在第二个语句类(可以是教育经历语句类)中获取信息熵最大的一条语句，在第三个语句类(可以是投资经历语句类)中获取信息熵最大的一条语句，在第三个语句类(可以是研究经历语句类)中获取信息熵最大的一条语句；然后再在就职经历语句类中获取信息熵最大的一条语句(即除掉第一次获取的信息熵最大的语句后信息熵最大的)，在教育经历语句类中获取信息熵最大的一条语句(即除掉第一次获取的信息熵最大的语句后信息熵最大的)，在投资经历语句类中获取信息熵最大的一条语句(即除掉第一次获取的信息熵最大的语句后信息熵最大的)，在研究经历语句类中获取信息熵最大的一条语句(即除掉第一次获取的信息熵最大的语句后信息熵最大的)，循环往复，直到获得的语句数目达到预设条目数，得到目标人物的简历信息。这样可以确保最终的简历长度适中，信息量足够丰富，也能够将各种经历种类都覆盖，使得获得的简历信息更加完善。

[0129] 在一种示例性实例中，根据目标人物的信息获取第一网页集合，包括：

[0130] 步骤801、根据目标人物的信息获取包含信息的第四网页集合。

[0131] 步骤802、从第四网页集合中根据网页的质量和重要程度获取第一网页集合。

[0132] 在一种示例性实例中，从第四网页集合中根据网页的质量和重要程度获取第一网页集合，包括：

[0133] 步骤901、获取第四网页集合的每一个网页的质量和重要程度。

[0134] 步骤902、根据获得的每一个网页的质量和重要程度获取每一个网页与目标人物的相关程度。

[0135] 步骤903、从第四网页集合中获取相关程度满足第三预设条件的网页，得到第一网页集合。

[0136] 第三预设条件包括以下至少之一：相关程度大于第三阈值，相关程度由高到低排序在前第二预设位数。

[0137] 在一种示例性实例中，获取第一网页集合的每一个网页的质量和重要程度，包括：

[0138] 步骤1001、判断第四网页集合的每一个网页中是否包含地名信息和时间信息。

[0139] 步骤1002、当第四网页集合的网页中包含地名信息和时间信息，统计该网页中姓名和单位名称出现在同一语句中的语句数，作为该网页的质量的得分。

[0140] 步骤1003、获取该网页的网页排名作为该网页的重要程度的得分。

[0141] 在一种示例性实例中，当第四网页集合的网页中不包含地名信息和时间信息，还包括：

[0142] 步骤1004、将该网页的质量的得分记为0。

[0143] 步骤1005、获取该网页的网页排名作为该网页的重要程度的得分。

[0144] 在一种示例性实例中，根据获得的每一个网页的质量和重要程度获取每一个网页与目标人物的相关程度，包括：

[0145] 步骤1101、设置质量的得分的权系数和重要程度的得分的权系数；其中，质量的得分的权系数和重要程度的得分的权系数和为1。

[0146] 步骤1102、将每一个网页的质量的得分和重要程度的得分分别与对应的权系数进行线性加权，得到每一个网页与目标人物的相关程度的得分。

[0147] 在一种示例性实例中，假设质量的得分为0.6，重要程度的得分为0.4，将每一个网页的质量的得分和重要程度的得分分别与对应的权系数进行线性加权，得到每一个网页与目标人物的相关程度的得分指的是：将每一个网页的质量的得分与0.6相乘，重要程度的得分与0.4相乘，然后将两个相乘得到的结果相加，得到每一个网页与目标人物的相关程度的得分。

[0148] 在一种示例性实例中，得到目标人物的简历信息之后，还包括：

[0149] 步骤1201、按照信息类别的不同和信息发生时间由近及远将获得的简历信息进行整合，得到整合后的目标人物的简历信息。

[0150] 在一种示例性实例中，简历信息的信息发生时间可以通过以下方式获取：根据来源网页的时间戳T1以及简历信息中时间信息T2中的最旧时间点信息，来确定该条简历信息的发生时间，比如一个2018.1.1的网页中提到小明出生于1980.9.12，则该简历信息的发生时间为1980.9.12。

[0151] 步骤1202、将整合后的目标人物的简历信息输入至第二神经网络模型，得到符合预设格式的目标人物的简历信息。

[0152] 在一种示例性实例中，将整合后的目标人物的简历信息输入至第二神经网络模型之前，还包括：

[0153] 步骤1301、获取简历信息的格式不符合预设格式的第一信息集合和符合预设格式的第二信息集合；其中，第一信息集合和第二信息集合中的简历信息所对应的人物以及内容都相同。

[0154] 步骤1302、将第一信息集合中的简历信息和第二信息集合中的简历信息作为训练数据集对预设神经网络模型进行训练，得到第二神经网络模型。

[0155] 在一种示例性实例中，第一神经网络模型包括：卷积神经网络模型[0156] 在一种示例性实例中，第二神经网络模型包括：长短期记忆网络模型。

[0157] 本发明实施例提供一种服务器，如图2所示，该服务器2包括：

[0158] 第一处理模块21，用于根据目标人物的信息获取第一网页集合。

[0159] 第二处理模块22，用于从第一网页集合中获取表示目标人物的经历的第一语句集合。

[0160] 第三处理模块23，用于根据第一语句集合中语句的信息量和类别，获取目标人物的简历信息。

[0161] 在一种示例性实例中，第二处理模块22，具体用于从第一网页集合中根据网页中语句的所属网页的可靠程度、信息量、质量和信息熵获取第一语句集合。

[0162] 在一种示例性实例中，第二处理模块22具体用于：

[0163] 基于第一网页集合并利用第一神经网络模型，得到表示目标人物的经历的第二语句集合。

[0164] 从第二语句集合中获取语句的所属网页的可靠程度、信息量和质量满足第一预设条件的第三语句集合。

[0165] 对第三语句集合中每一条语句进行分词，得到词向量。

[0166] 获取第三语句集合中每一条语句对应的词向量的信息熵，作为该语句的信息熵。

[0167] 从第三语句集合中获取满足第二预设条件的语句，得到第一语句集合。其中，第二预设条件包括以下至少之一：信息熵大于第一阈值，信息熵从大到小排序在前第一预设位数。

[0168] 在一种示例性实例中，第二处理模块22具体用于：

[0169] 获取包含人物经历的语句集合和段落集合，并获取不包含人物经历的语句集合和段落集合。

[0170] 将包含人物经历的语句集合和段落集合，以及不包含人物经历的语句集合和段落集合作为训练数据集对预设神经网络模型进行训练，得到第一神经网络模型。

[0171] 在一种示例性实例中，第二处理模块22具体用于：

[0172] 将第一网页集合分为网页的段落数小于或等于预设数值的第二网页集合和网页的段落数大于预设数值的第三网页集合。

[0173] 利用第一神经网络模型，以段落为单位处理第二网页集合，得到表示目标人物的经历的第四语句集合。

[0174] 利用第一神经网络模型，以语句为单位处理第三网页集合，得到表示目标人物的经历的第五语句集合。

[0175] 合并第四语句集合和第五语句集合，得到第二语句集合。

[0176] 在一种示例性实例中，第二处理模块22具体用于：

[0177] 将第二网页集合的每一个网页的每一段落文本输入至第一神经网络模型，得到该段落文本是否包含目标人物的经历的第一判定信息。

[0178] 从第二网页集合的每一个网页中获取第一判定信息为包含目标人物的经历，且目标人物的姓名出现次数大于其他人物的姓名出现次数的段落。

[0179] 将获得的段落按语句进行拆分，得到第四语句集合。

[0180] 在一种示例性实例中，第二处理模块22具体用于：

[0181] 将第三网页集合的网页中的内容按语句进行拆分，得到第六语句集合。

[0182] 将第六语句集合的每一个语句输入至第一神经网络模型，得到该语句是否包含目标人物的经历的第二判定信息。

[0183] 获取第二判定信息为包含目标人物的经历的语句，得到第五语句集合。

[0184] 在一种示例性实例中，第二处理模块22具体用于：

[0185] 获取第二语句集合中每一条语句的所属网页的网页排名，作为该语句的所属网页的可靠程度的得分。

[0186] 获取第二语句集合中每一条语句分词后生成的词向量的信息熵，作为该语句的信息量的得分。

[0187] 获取第二语句集合中每一条语句标点符号和正文长度的比值，作为该语句的质量的得分。

[0188] 设置可靠程度的得分的权系数、信息量的得分的权系数和质量的得分的权系数。其中，可靠程度的得分的权系数、信息量的得分的权系数和质量的得分的权系数的和为1。

[0189] 将第二语句集合中每一条语句的所属网页的可靠程度的得分、信息量的得分和质量的得分分别与对应权系数进行线性加权，得到每一条语句的综合得分。

[0190] 获取综合得分大于第二阈值的语句，得到第三语句集合。

[0191] 在一种示例性实例中，第三处理模块23具体用于：

[0192] 对第一语句集合中的语句进行聚类，得到若干个语句类。

[0193] 采用广度优先和信息熵优先相结合的方式从获得的若干个语句类中获取语句，直到获得的语句数目达到预设条目数，得到目标人物的简历信息。

[0194] 在一种示例性实例中，第一处理模块21具体用于：

[0195] 根据目标人物的信息获取包含信息的第四网页集合。

[0196] 从第四网页集合中根据网页的质量和重要程度获取第一网页集合。

[0197] 在一种示例性实例中，第一处理模块21具体用于：

[0198] 获取第四网页集合的每一个网页的质量和重要程度。

[0199] 根据获得的每一个网页的质量和重要程度获取每一个网页与目标人物的相关程度。

[0200] 从第四网页集合中获取相关程度满足第三预设条件的网页，得到第一网页集合。第三预设条件包括以下至少之一：相关程度大于第三阈值，相关程度由高到低排序在前第二预设位数。

[0201] 在一种示例性实例中，第一处理模块21具体用于：

[0202] 判断第四网页集合的每一个网页中是否包含地名信息和时间信息。

[0203] 当第四网页集合的网页中包含地名信息和时间信息，统计该网页中姓名和单位名称出现在同一语句中的语句数，作为该网页的质量的得分。

[0204] 获取该网页的网页排名作为该网页的重要程度的得分。

[0205] 在一种示例性实例中，当第四网页集合的网页中不包含地名信息和时间信息，第一处理模块21具体用于：

[0206] 将该网页的质量的得分记为0。

[0207] 获取该网页的网页排名作为该网页的重要程度的得分。

[0208] 在一种示例性实例中，第一处理模块21具体用于：

[0209] 设置质量的得分的权系数和重要程度的得分的权系数。其中，质量的得分的权系数和重要程度的得分的权系数和为1。

[0210] 将每一个网页的质量的得分和重要程度的得分分别与对应的权系数进行线性加权，得到每一个网页与目标人物的相关程度的得分。

[0211] 在一种示例性实例中，第一处理模块21具体用于：

[0212] 按照信息类别的不同和信息发生时间由近及远将获得的简历信息进行整合，得到整合后的目标人物的简历信息。

[0213] 将整合后的目标人物的简历信息输入至第二神经网络模型，得到符合预设格式的目标人物的简历信息。

[0214] 在一种示例性实例中，第一处理模块21具体用于：

[0215] 获取简历信息的格式不符合预设格式的第一信息集合和符合预设格式的第二信息集合。其中，第一信息集合和第二信息集合中的简历信息所对应的人物以及内容都相同。

[0216] 将第一信息集合中的简历信息和第二信息集合中的简历信息作为训练数据集对预设神经网络模型进行训练，得到第二神经网络模型。

[0217] 在一种示例性实例中，第一神经网络模型包括：卷积神经网络模型。

[0218] 在一种示例性实例中，第二神经网络模型包括：长短期记忆网络模型。

[0219] 本发明实施例所提供的服务器，根据目标人物的信息获取第一网页集合；从所述第一网页集合中获取表示所述目标人物的经历的第一语句集合；根据所述第一语句集合中语句的信息量和类别，获取所述目标人物的简历信息。因此实现了目标人物的简历信息的自动获取，从而避免了时间和精力的耗费，提高了简历信息的获取效率。

[0220] 在实际应用中，所述第一处理模块21、第二处理模块22和第三处理模块23位于服务器中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。

[0221] 本发明实施例还提供一种信息处理装置，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，处理器执行计算机程序时实现上述实施例中任意一种信息处理方法。

[0222] 本发明实施例一种计算机可读存储介质，存储介质上存储有计算机可执行命令，计算机可执行命令用于执行如上述实施例中任意一种信息处理方法。

[0223] 虽然本发明实施例所揭露的实施方式如上，但所述的内容仅为便于理解本发明实施例而采用的实施方式，并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员，在不脱离本发明实施例所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明实施例的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

查看完整全部详细技术资料

当前第1页第1页第2页第3页