技术领域
[0001] 本发明涉及互联网技术领域,特别是涉及一种信息采集系统。
相关背景技术
[0002] 传统的爬虫进行任务信息的采集过程中,由于采集的间隔时间较长,导致信息采集耗时长,效率低。
具体实施方式
[0063] 为使本发明技术方案更加清楚,以下结合具体实施例对本发明做进一步详细说明。其中,应当说明的是,以下描述包括帮助理解的各种具体细节,但是这些细节将被视为仅是示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可对本文所述的各种实施例进行各种改变和修改。另外,为了清晰和简洁,公知功能和构造的描述可被省略。
[0064] 以下描述和权利要求书中所使用的术语和词汇不限于文献含义,而是仅由发明人用来使本公开能够被清晰和一致地理解。因此,对于本领域技术人员而言应该明显的是,提供以下对本公开的各种实施例的描述仅是为了示例性目的,而非限制由所附权利要求及其等同物限定的本公开的目的。
[0065] 应该理解,除非上下文明确另外指示,否则单数形式也包括复数指代。因此,例如,对“组件表面”的引用包括对一个或更多个这样的表面的引用。
[0066] 参见图1,作为本发明的信息采集系统100的一具体实施例,其包括采集任务添加模块110和采集爬虫模块120。其中,采集任务添加模块110和采集爬虫模块120均与数据库130进行数据交互。采集任务添加模块110,用于添加多项采集任务信息。采集爬虫模块120,用于获取每项采集任务信息,并采用分布式爬虫技术根据每项采集任务信息获取相应的目的信息。
[0067] 其中,在本发明的信息采集系统100的一具体实施例中,采集任务添加模块110具有任务管理功能、标签管理功能和采集信息管理功能。具体的,任务管理任务管理,主要用来添加需要采集的翻页网址,爬虫会通过这些翻页网址获取对应的详细页网址。标签管理是针对爬虫,爬虫会根据每个页面的信息进行标签截取,获取相应信息。采集信息管理可以对采集到的信息进行查看和人工修改,对信息进行集中处理和纠错。
[0068] 由此,为满足上述采集任务添加模块110的各项功能,参见图2,在上述本发明的信息采集系统100的一具体实施例中,采集任务添加模块110包括任务管理子模块。其中,任务管理子模块,用于添加多项采集任务信息,并将添加的多项采集任务信息上传至数据库。此处,需要说明的是,所添加的多项采集任务信息中包括翻页网址信息。
[0069] 对应的,采集爬虫模块120则包括列表采集子模块(图中未示出)。列表采集子模块,用于实时检索数据库130,由数据库130中获取每项采集任务信息,并采用分布式爬虫技术根据每项采集任务信息采集相应的目的信息,并将采集到的目的信息上传至数据库130中进行存储。也就是说,列表采集子模块是用于通过翻页网址信息获取相应的详细页网址信息的。即,列表采集子模块主要用于从采集任务添加中的翻页地址获取其中的每条信息的网址,并将网址存入数据库130。
[0070] 由此,其通过采集任务添加模块110中的任务管理子模块添加多项采集任务信息,并将添加的多项采集任务信息上传至数据库130中,进而再由采集爬虫模块120中的列表采集子模块实时读取数据库130,由数据库130中获取每项采集任务信息,并采用分布式爬虫技术进行每项采集任务信息的同时采集,以获取相应的目的信息,实现了多项采集任务的并行执行,其相对于传统的爬虫信息采集单线程执行有效提高了信息采集效率。
[0071] 同时,其通过设置采集任务添加模块110和采集爬虫模块120均能够与数据库130进行实时数据交互,这也就更进一步的节省了信息采集时间,简化了爬虫结构,从而更加有效的提高了信息采集效率。
[0072] 参见图2,更为具体的,作为本发明的信息采集系统100的优选实施例,任务管理子模块包括任务网址添加单元、搜索类型设置单元、列表类型添加单元、源码替换添加单元、网站域名添加单元、机构选择添加单元、标题添加单元、信息来源添加单元、信息数量添加单元、主题分类添加单元、时间添加单元、体裁分类添加单元、地域添加单元、信息类型添加单元和地址添加单元。其中,任务网址添加单元,用于添加采集任务信息中的网址信息。搜索类型设置单元,用于设置采集任务信息中的信息类型。列表类型添加单元,用于添加采集任务信息的列表形式。源码替换添加单元,用于添加采集任务信息的替换源码信息。网站域名添加单元,用于添加采集任务信息中的网站域名信息。机构选择添加单元,用于添加采集任务信息中的机构信息。标题添加单元,用于添加采集任务信息中的标题信息。信息来源添加单元,用于添加采集任务信息中的来源信息。信息数量添加单元,用于添加采集任务信息中的数量信息。主题分类添加单元,用于添加采集任务信息中的主题信息。时间添加单元,用于添加采集任务信息中的时间信息。体裁分类添加单元,用于添加采集任务信息中的体裁信息。地域添加单元,用于添加采集任务信息中的地域信息。信息类型添加单元,用于添加采集任务信息的信息类型。地址添加单元,用于添加采集任务信息中的地址信息。
[0073] 其通过设置任务管理子模块中的上述各项添加单元,使得添加的多项采集任务信息具有更强的针对性,避免了传统的爬虫信息采集中错误信息和冗余信息的出现,这也就有效提高了目的信息采集的准确性。
[0074] 进一步的,在上述本发明的信息采集系统100的一具体实施例中,采集任务添加模块110还包括标签管理子模块。其中,标签管理子模块,用于读取数据库130,由数据库130中获取目的信息中的详细页信息,根据详细页信息添加相应的标签信息,并将添加的标签信息上传至数据库130。即,在本发明的信息采集系统100的一具体实施例中,标签管理是针对爬虫,爬虫会根据每个页面的信息进行标签截取,获取相应信息。
[0075] 对应的,采集爬虫模块120则包括内容采集子模块(图中未示出)。其中,内容采集子模块,用于读取数据库130,由数据库130中实时获取标签信息,并根据标签信息对详细页信息进行截取,获取相应的字段信息。即,通过内容采集子模块根据标签管理子模块添加的标签信息,从详细页网址信息中进行截取,获取详细页网址信息中所需要的字段信息,使得所获取的信息更加详细具体。
[0076] 具体的,参见图3,在本发明的信息采集系统100的具体实施例中,标签管理子模块包括网址编辑单元、开始标签编辑单元、结束标签编辑单元和替换标签编辑单元。其中,网址编辑单元,用于添加详细页信息对应的网址信息。开始标签编辑单元,用于添加标签信息中的开头字段信息。结束标签编辑单元,用于添加标签信息中的结尾字段信息。替换标签编辑单元,用于添加标签信息中可替换字段信息。
[0077] 其通过在标签管理子模块中设置上述各项单元,保证了采集爬虫所采集到的字段信息的准确性,从而提高了信息采集的正确率。
[0078] 更为优选的,在本发明的信息采集系统100的一具体实施例中,采集任务添加模块110还包括采集信息管理子模块。其中,采集信息管理子模块,主要用于对采集爬虫模块120所采集到的目的信息进行查看和人工修改,并对目的信息进行集中处理和纠错。
[0079] 具体的,参见图4,采集信息管理子模块包括体裁分类单元、主题分类单元、发布机构单元、地域选择单元、文种选择单元、编辑单元、日期类型选择单元、排序单元、搜索类型选择单元、采集状态选择单元和图片快照选择单元。其中,体裁分类单元,用于对目的信息进行体裁设置。主题分类单元,用于对目的信息进行主题设置。发布机构单元,用于对目的信息进行发布机构设置。地域选择单元,用于对目的信息进行地域选择设置。文种选择单元,用于对目的信息进行文种分类设置。编辑单元,用于对目的信息进行编辑设置。日期类型选择单元,用于对目的信息进行日期设置。排序单元,用于对多项目的信息进行排序设置。搜索类型选择单元,用于对目的信息进行类型设置。采集状态选择单元,用于对目的信息进行状态设置。图片快照选择单元,用于对目的信息进行图片快照状态设置。
[0080] 其通过设置上述采集信息管理子模块中的各项单元,实现了对采集到的信息的不同机构和不同地域的分类,这就使得所采集到的信息更加清晰,为后续的信息查找提供了便利。
[0081] 另外,还需要说明的是,为了保证所采集的信息的实时性,在本发明的信息采集系统100中,采集爬虫模块120还包括每日列表运行程序子模块(图中未示出)。其中,每日列表运行程序子模块,用于实时获取采集任务信息对应的网站发布的更新目的信息。其通过设置每日列表运行程序子模块,实现了更新网站每天更新的信息,由此可以实时的获取每天官网发布的前台信息,保证了信息采集的实时性。
[0082] 具体的,参见图5,每日列表运行程序子模块包括网络数据抽取单元和网页浏览单元。其中,网络数据抽取单元,用于实时获取采集任务信息对应的网站发布的网络数据。网页浏览单元,用于浏览采集任务信息对应的网页中的各项详细信息。
[0083] 此处,需要说明的是,在上述各项子模块中还包括除上述文字描述的各项功能单元外,还包括其他一些功能单元并在图示中有所描述。此处为了避免重复不再进行赘述。
[0084] 更进一步的,参见图1和图6,作为本发明的信息采集系统100的一具体实施例,优选的,其还包括图片快照模块140。其中,图片快照模块140,用于利用GDI对采集爬虫模块120获取的目的信息中的网页进行截图保存,将目的信息保存至数据库130中。其通过设置信息采集系统100的图片快照功能,利用GDI实现对网页的截图保存,截取的图片具有占用空间小,图片完整,图片清晰等特点,图片快照可以方便的对网页进行历史回溯。
[0085] 更为优选的,在本发明的信息采集系统100的一具体实施例中,其还包括网页快照模块150。其中,网页快照模块150,用于将采集爬虫模块120采集到的目的信息中的网页源码保存至数据库130中,这样可以有效地对网页文字版信息进行资源典藏。
[0086] 由此,本发明的信息采集系统100由后台任务网站(即采集任务添加模块110),采集爬虫模块120,图片快照模块140和网页快照模块150等构成,以http协议抓取分布在互联网的官方网站信息,并与服务器的数据库130进行交互,然后前台发布系统通过数据库130的查询,将相关的信息展示在前台,进而实现对信息的推送和整合分类,具有快速,高效,准确的特点,并且可以对采集到的信息进行不同机构和不同地域的分类。
[0087] 另外,还需要说明的是,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0088] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。