技术领域
[0001] 本发明涉及一种大数据挖掘系统。
相关背景技术
[0002] 大数据一般是指无法在一定时间范围内用传统的计算机技术进行处理的海量数据集。数据挖掘是指从大量的、有噪声的、随机的数据中提取潜在的、有效的、新颖的、有用的模式或信息,用于使用。近年来,随着网络技术的迅猛发展,海量数据不断增长,数据挖掘引起了信息产业界的极大关注。现有的数据挖掘方法的数据挖掘过程比较简单,导致可靠性较低。
具体实施方式
[0010] 如图1所示,本实施例提供一种大数据挖掘系统,包括大数据存储模块、数据提取模块、数据有效性筛选模块和数据挖掘模块。大数据的类型由实际需要进行设置,例如:大数据为电力数据,比如:某一个地区的电力线网的电压数据或者电流数据。
[0011] 大数据挖掘系统的各模块的具体实现方式由实际情况进行设置,可以为硬件模块,也可以为软件模块,不管是硬件模块还是软件模块,各模块的连接关系如图1所示。
[0012] 大数据存储模块用于存储数据信息。大数据存储模块可以为常规的存储设备或者数据库,本实施例中,大数据存储模块包括内存数据库和磁盘数据库。内存数据库就是将数据放在内存中直接操作的数据库,相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能。数据信息先存储至内存数据库中,当内存数据库中的数据信息存储量大于预设存储量阈值时,表示内存数据库中存储的数据信息比较多,为了提升内存数据库的存储性能,比较内存数据库中的数据信息的存储时长与预设存储时长,若存储时长大于预设存储时长,则将内存数据库中的数据信息转移至磁盘数据库。也就是说,当内存数据库中的数据信息的存储量比较大时,若内存数据库中的数据信息的存储时长比较长,则将内存数据库中的数据信息转移至磁盘数据库,将内存数据库当做临时存储数据库,不但能够提升内存数据库的存储性能,还可以有效利用磁盘数据库的容量较大的特性,因此,该存储方式集内存数据库和磁盘数据库的性能之所长,很大程度提升存储可靠性。
[0013] 数据提取模块用于根据用户需求从大数据存储模块中提取相关的数据信息。其中,用户需求为用户所需的具体数据,比如:用户需求为用户需求电压数据;从大数据存储模块中提取相关的数据信息具体可以为:根据存储时长与预设存储时长的大小关系确定数据信息的存储位置,若存储时长小于或者等于预设存储时长,则从内存数据库中提取相关的数据信息;若存储时长大于预设存储时长,则从磁盘数据库中提取相关的数据信息。作为其他的实施方式,还可以同时从内存数据库和磁盘数据库中提取数据信息,这样不管数据信息存储至哪一个数据库,均能够提取到相应的数据信息。
[0014] 数据提取模块将提取到的数据信息传输至数据有效性筛选模块。
[0015] 数据有效性筛选模块用于对提取到的数据信息按照如下有效性筛选策略进行有效性筛选:预设有数据有效性上限阈值和数据有效性下限阈值(数据有效性上限阈值和数据有效性下限阈值的具体取值由数据的具体类型以及有效性筛选严格程度决定),比对提取到的数据信息与有效性上限阈值和数据有效性下限阈值的大小关系,若提取到的数据信息大于或者等于数据有效性下限阈值,且小于或者等于有效性上限阈值,则判定提取到的数据信息有效。作为一个具体实施方式,提取到的数据信息为电压数据,则数据有效性上限阈值为电压有效上限阈值,数据有效性下限阈值为电压有效下限阈值,处于电压有效上限阈值和电压有效下限阈值之间的电压数据为有效的电压数据,没有处于这个区间范围内的电压数据为无效的电压数据。
[0016] 数据有效性筛选模块将有效的数据信息传输给数据挖掘模块,数据挖掘模块用于采用两种不同的挖掘算法分别对有效的数据信息进行挖掘分析。挖掘算法属于现有算法,本实施例中,采用的两种不同的挖掘算法分别为决策树挖掘分类算法和K-Means聚类算法,根据这两种挖掘算法对数据进行挖掘分析的实现过程属于常规技术,不再赘述。采用决策树挖掘分类算法和K-Means聚类算法分别得到第一初始数据挖掘结果x1和第二初始数据挖掘结果x2。
[0017] 设定第一初始数据挖掘结果x1和第二初始数据挖掘结果x2分别具有相应的权重值,第一初始数据挖掘结果x1的权重值为k1,第二初始数据挖掘结果x2的权重值为k2,权重值k1和权重值k2由用户对这两个初始数据挖掘结果的看重程度决定,一般情况下,权重值k1和权重值k2之和为1。例如:若更看重利用决策树挖掘分类算法得到的第一初始数据挖掘结果x1,则权重值k1大于权重值k2,比如:权重值k1为0.6,权重值k2为0.4;若更看重利用K-Means聚类算法得到的第二初始数据挖掘结果x2,则权重值k2大于权重值k1,比如:权重值k1为0.4,权重值k2为0.6。
[0018] 根据权重值k1和权重值k2,对第一初始数据挖掘结果x1和第二初始数据挖掘结果x2进行加权求和,获得最终数据挖掘结果x,计算公式如下:x=x1×k1+x2×k2
最终数据挖掘结果x为该大数据挖掘系统的输出结果,该输出结果可以根据实际需要进行应用。
[0019] 另外,为了显示第一初始数据挖掘结果x1、第二初始数据挖掘结果x2和最终数据挖掘结果x,显示大数据挖掘系统还包括第一显示模块、第二显示模块和第三显示模块,第一显示模块用于显示第一初始数据挖掘结果x1,第二显示模块用于显示第二初始数据挖掘结果x2,第三显示模块用于显示最终数据挖掘结果x。
[0020] 该大数据挖掘系统中,在数据挖掘之前,通过与预设的数据有效性上限阈值和数据有效性下限阈值进行比较,对提取到的数据信息进行有效性筛选,只有满足有效性筛选条件才能够进行后续的数据挖掘,防止其他无效数据或者噪音数据的干扰,能够提升数据挖掘的可靠性;采用两种不同的挖掘算法分别对有效的数据信息行挖掘分析,分别得到第一初始数据挖掘结果和第二初始数据挖掘结果,通过对第一初始数据挖掘结果和第二初始数据挖掘结果进行加权求和,获得最终数据挖掘结果,能够提升数据挖掘结果的准确性和可靠性。
[0021] 上述实施例仅以一种具体的实施方式说明本发明的技术方案,任何对本发明进行的等同替换及不脱离本发明精神和范围的修改或局部替换,其均应涵盖在本发明权利要求保护的范围之内。