首页 / 一种标书标的物预测处理方法和系统

一种标书标的物预测处理方法和系统无效专利 发明

技术领域

[0001] 本申请涉及到数据预测领域,具体而言,涉及一种标书标的物预测处理方法和系统。

相关背景技术

[0002] 在企业采购的过程中,可以使用招标来进行采购,同时也可能采用固定的供应商来进行产品的供应。对于产品的供应商来说,一般是在企业发布招标公告之后,才开始进行准备。在这种情况下,对于所有参与招标的供应商来说机会均是均等的。
[0003] 在现有技术中,可以每天获取招标信息,从而尽可能在企业发布招标公告之后第一时间就获取到企业的需求信息,这样可以有更多的时间来进行准备。但是,目前几乎所有的产品供应商均会及时关注企业的招标公告,因此,想通过尽早获取招标公告的方式来提前获知企业的需求是不可行的。
[0004] 在现有技术中,并没有相关的技术手段可以解决这个问题。

具体实施方式

[0018] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0019] 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0020] 本实施例提供了一种标书标的物预测处理方法,图1是根据本申请实施例的标书标的物预测处理方法的流程图,如图1所示,该流程包括如下步骤:步骤S102,对第一标书中的标的物进行提取得到第一标的物,其中,所述第一标书为第一时间段内获取到的至少一份标书;
从标书中提取标的物的方式有很多,例如,根据网页地址抓取网页;从所述网页信息中提取所述网页中涉及到的文本内容,其中,所述文本内容是根据所述网页所使用的HTML语言中对应的标签提取的,所述文本内容是显示在网页中的内容,所述文本内容将所述标签对应的文本按照所述标签在所述网页源码中出现的顺序进行拼接得到的; 从所述文本内容确定所述文本内容为招标公告;从所述文本内容中获取关键字并根据所述关键字确定所述招标公告中对应的标的物,其中,所述关键字用于指示标的物,所述关键字为预先配置的。可选地,根据所述网页所使用的HTML语言中对应的标签提取所述网页涉及到的文本内容可以包括:获取所述HTML语言中用于指示文本内容的第一标签内容;将所述第一标签内容中的文本进行提取;获取用于指示所述文本的格式的第二标签内容;根据所述第二标签内容设置所述文本的格式得到所述文本内容。
[0021] 通过这种方式可以自动获取第一标的物。
[0022] 在该步骤中,可以获取当前日期的前一天内收集到的所有标书;将收集到的所有标书作为所述第一标书。
[0023] 步骤S104,在预先生成的标的物对应关系中查找是否存在所述第一标的物,其中,所述对应关系是根据历史上的存在时间先后顺序的标书中出现标的物的规律建立的,所述对应关系中包括第一标的物和第二标的物,所述第一标的物所在标书的时间早于所述第二标的物所在的标书的时间;建立对应关系的方式有很多种,在本实施例中就提供了一种可选的方式。该可选的方式为包括如下步骤:获取预定历史时间段内收集到的所有标书,其中,所述历史时间段为早于所述当前日期的前一天的时间段;从所述所有标书中的每一份标书中提取标的物,并且记录将该标书被获取到的时间作为该标书提取出的标的物的出现时间;对所述所有标书中的标的物根据出现时间的先后进行排列得到标的物队列;获取所述标的物队列中在时间上出现具有规律的多个标的物;建立所述多个标的物之间的所述对应关系。
[0024] 在排列得到队列之后,获取所述队列中出现的第一个标的物,然后,获取第二个标的物,将所述第一个标物和第二个标的物组成标的物对,判断该标的物对在整个队列之中出现的次数,如果次数超过阈值则认为所述第一标的物和所述第二标的物之间存在对应关系。或者,将出现的次数乘以2(第一标的物和所述第二标的物为两个标的物)得到第一数值,将第一数值作为分子将第二数值作为分母得到一个比例值,当该比例值超过预先设置的第一阈值时,则认为所述第一标的物和所述第二标的物之间存在对应关系。其中,所述第二数值为所述队列中的所有的标的物的数量。
[0025] 然后,将第二个标的物和第三个标的物做成标的物对,按照上个段落中的判断方式判断所述第二个标的物和所述第三个标的物是否存在对应关系。依次类推,判断队列中的第N个标的物和第N+1个标的物之间是否存在对应关系。从而得到所有的对应关系对。
[0026] 在另一个可选实施方式中,在判断所述第N个标的物与所述第N+1个标的物之间存在对应关系之后,还判断第N+1个标物是否存在具有对应关系的第N+2个标的物,如果有,则在显示步骤中显示与所述第一标的物具有对应关系的第二标的物,以及与所述第二标的物具有对应关系的第三标的物。
[0027] 可选地,在排列得到队列之后,获取所述队列中连续出现的第N个到第N+K个标的物,并将所述K个标的物组成标的物对,判断该标的物对在整个队列之中出现的次数,如果次数超过阈值则认为所述第一标的物和所述第二标的物之间存在对应关系。或者,将出现的次数乘以K(第一标的物和所述第二标的物为两个标的物)得到第一数值,将第一数值作为分子将第二数值作为分母得到一个比例值,当该比例值超过预先设置的第一阈值时,则认为第N个到第N+K个标的物之间存在对应关系。其中,所述第二数值为所述队列中的所有的标的物的数量。其中,N为自然数,K的取值为1、2、3、4中的任意之一。上述例子中K取值为1。
[0028] 如果是按照甲方来进行排列得到的队列,则可以仅仅在该甲方的队列中确定存在的对应关系。在确定完每个甲方队列中存在的对应关系之后,判断是否存在一种或几种对应关系在所有甲方对应的对应关系中出现的概率是否大于第二阈值,如果大于第二阈值,则认为该一种或几种对应关系为通用的对应关系。通用的对应关系是所有的第一标的物要进行比对的对应关系。
[0029] 步骤S106,在查找到所述第一标的物的情况下,获取所述第一标的物在对应关系中对应的第二标的物;在一个可选方式中,对于对应关系可以按照甲方来进行区分,获取所述每一份标书对应的甲方,其中,所述甲方为该标书的发布方;将每个甲方发布的所有标书中的标的物按照出现时间的先后进行排列得到标的物该甲方对应的队列。可选地,获取所述标的物队列中在时间上出现具有规律的多个标的物包括:对于每个甲方,获取在该甲方对应的标的物队列中在时间上出现具有规律的多个标的物;和/或,获取所有甲方的标的物队列中在时间上出现具有规律的多个标的物。
[0030] 步骤S108,显示所述第二标的物。
[0031] 通过上述步骤解决了现有技术中没有任何技术手段可以提前获取企业需求所导致的问题,从而实现了使用技术手段进行预测,提前了解企业的需求。
[0032] 下面结合一个可选的实施例进行说明。本可选实施例的目的是:发现标的物之间的采购的周期性或相关性规律,预测甲方在某个时间点后会开始采购某标的物,将此情报提供给用户,从而可以提前去联系推销,开展合作。
[0033] 在本实施例中数据准备:将全量数据分成多个领域,例如,可以分为教育、公共事业、医疗、其他四个领域,当然也可以按照其他规则来进行领域区分。每个领域中取全部公司的一定时间的全体招标标书作为准备数据。按最小时间单位非重复地获取本公司在最小时间单位内的全部标的物,统计标的物对的词频。
[0034] 在本实施例采用了如下统计算法:周期性(A‑A)统计全部链路上的A‑A频次。举例,比如此购买序列:A‑B‑A‑A‑A‑A‑A,统计结果标的物对A‑A的词频是5。这表示在第一次标的物为A时候,后续又出现了五次A标的物的情况。
[0035] 相关性(A‑B)只统计A‑B成对出现的次数(去重后)而非统计全部A之后出现的B。举例,比如此购买序列:A‑B‑A‑B‑B,统计结果标的物对A‑B的词频是2。这表示出现标的物为A的时候,在A之后紧跟出现标的物为B,这样A和B作为一组,在上述例子中出现A和B作为一组的次数为2。
[0036] 数据聚合:以标的物对的词频大于设定的阈值为过滤条件,统计标的物对的时间间隔标准差、均值、出现过的机构(即甲方)数、词频。统计标的物在标的物对中作为前一个的词频和后一个的词频。
[0037] 本实施中提供了一种标的物文本语义相似度的计算和训练过程,下面对此过程进行介绍。
[0038] 在本实施例中采用深度学习中的词向量(Word Embedding)的相关技术来计算标的物语义相似度。本实施例中采用word2vec将每一个标的物转换为所对应的向量(当然也可以采用其他方式将标的物转换为所对应的向量,在此不再赘述),也就是将不可计算的非结构化的词转化为可计算的结构化的向量的过程。通过计算向量之间的空间距离,一般是余弦相似度,就可以得到标的物文本的语义相似度。
[0039] 本实施例可以采用多种工具来训练词向量模型,例如,可以采用了开源工具gensim来训练word2vec的词向量模型,将标书中的文本信息作为训练语料,喂入模型中计算得到标的物之间的语义距离。离线数据:对全体标的物对进行离线预测处理,得到预测标的物对。有以下几条规则用来过滤:1.标的物之间的语义相似度;
2. 标的物对出现过的机构个数;
3. 标的物对之间的采购时间间隔的统计学意义上的一些指标。
[0040] 人工检查: 人工去剔除不合理的数据之后,得到预测标的物对结果集。
[0041] 线上流程:每日定时任务,获取前一天的全体标书的全体标的物,匹配预测标的物对结果集,写入预测表中,并写入该标的物对之间的购买记录到预测详情表中。
[0042] a)、加入最长后缀匹配机制,若标书中的标的物能匹配到目标标的物对表中最长的后缀,则将该标的物与表中标的物做一映射,作为预测结果返回。
[0043] b)、加入客户反馈的标的物对字典,同样按照最长后缀匹配机制。
[0044] 在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
[0045] 上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD‑ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
[0046] 这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
[0047] 该本实施例中就提供了这样的一种装置和系统。根据本申请的另一个方面,还提供了一种标书标的物预测处理系统,包括:提取模块,用于对第一标书中的标的物进行提取得到第一标的物,其中,所述第一标书为第一时间段内获取到的至少一份标书;查找模块,用于在预先生成的标的物对应关系中查找是否存在所述第一标的物,其中,所述对应关系是根据历史上的存在时间先后顺序的标书中出现标的物的规律建立的,所述对应关系中包括第一标的物和第二标的物,所述第一标的物所在标书的时间早于所述第二标的物所在的标书的时间;第一获取模块,用于在查找到所述第一标的物的情况下,获取所述第一标的物在对应关系中对应的第二标的物;显示模块,用于显示所述第二标的物。
[0048] 该系统或者装置用于实现上述的实施例中的方法的功能,该系统或者装置中的每个模块与方法中的每个步骤相对应,已经在方法中进行过说明的,在此不再赘述。
[0049] 例如,还包括:第二获取模块,用于获取当前日期的前一天内收集到的所有标书,并将收集到的所有标书作为所述第一标书。
[0050] 又例如,还包括:第三获取模块,用于获取预定历史时间段内收集到的所有标书,其中,所述历史时间段为早于所述当前日期的前一天的时间段;记录模块,拥有从所述所有标书中的每一份标书中提取标的物,并且记录将该标书被获取到的时间作为该标书提取出的标的物的出现时间;排列模块,用于对所述所有标书中的标的物根据出现时间的先后进行排列得到标的物队列;第四获取模块,用于获取所述标的物队列中在时间上出现具有规律的多个标的物;建立模块,用于建立所述多个标的物之间的所述对应关系。
[0051] 又例如,所述排列模块用于:获取所述每一份标书对应的甲方,其中,所述甲方为该标书的发布方;将每个甲方发布的所有标书中的标的物按照出现时间的先后进行排列得到标的物该甲方对应的队列。可选地所述第四获取模块用于:对于每个甲方,获取在该甲方对应的标的物队列中在时间上出现具有规律的多个标的物;和/或,获取所有甲方的标的物队列中在时间上出现具有规律的多个标的物。
[0052] 通过本实施例解决了现有技术中没有任何技术手段可以提前获取企业需求所导致的问题,从而实现了使用技术手段进行预测,提前了解企业的需求。
[0053] 以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页 第1页 第2页 第3页