技术领域
[0001] 本发明涉及数据挖掘技术领域,具体地说,涉及一种基于复杂技术的数据挖掘的方法。
相关背景技术
[0002] 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据是可以广泛使用或者是被利用的,并且迫切需要将这些数据转换成有用的信息和知识,获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等,因此需要将这些具有价值的决策数据进行挖掘。
[0003] 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。
[0004] 但如今很多的数据挖掘方法挖掘的数据会有很多重复或者多余的并没有决策价值的数据,这样大大降低了数据挖掘的效果,也无法对挖掘数据的决策性加以支持。
具体实施方式
[0046] 实施例1
[0047] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0048] 请参阅图1‑图5,本发明提供一种技术方案:
[0049] 本发明提供一种基于复杂技术的数据挖掘的方法,包括如下方法步骤:
[0050] S1.1、数据采集:对数据进行采集,其中包括对商务管理、生产控制、市场分析、工程设计和科学探索等数据的采集;
[0051] S1.2、建立数据库:根据采集的数据构建与其相应的元数据,已将数据信息存储在元数据内,并根据元数据加载挖掘数据库;
[0052] S1.3、数据挖掘:对挖掘数据库内的有用数据进行挖掘,以形成决策数据;
[0053] S1.4、冗余处理:对挖掘的决策数据中冗余的数据进行清理。
[0054] 此外,S1.2中建立数据库的步骤如下:
[0055] S2.1、对采集的数据进行描述,从而使概念的数据转换成逻辑数据输入至计算机内,以供计算机进行识别;
[0056] S2.2、对描述后的数据进行质量评估,并合并整合得到元数据;
[0057] 其中,质量评估的流程如下:
[0058] 首先确定要检测的数据质量指标和评估规则,然后编写相应的SQL脚本来检测分析数据,最后计算满足各个规则的数据的百分比得分;系统的综合得分的计算可以通过把每条规则的得分计算出来,然后综合后取平均值,得到最后评估值。
[0059] S2.3、加载挖掘数据库,并对挖掘数据库进行维护,数据库的维护包括备份系统数据、恢复数据库系统、产生用户信息表,并为信息表授权、监视系统运行状况,及时处理系统错误、保证系统数据安全。
[0060] 进一步的,S1.3中数据挖掘采用智能挖掘算法,其算法步骤如下:
[0061] S3.1、根据不同的决策需求对决策数据进行定义,此处的定义是指对各个领域有用的数据进行一个定义,例如对市场分析的数据进行定义,需要将市场调研的数据、市场风险评估的数据等定义为有用数据,反之与市场无关的数据或者重复数据则称为无用数据,而后通过冗余处理将无用数据进行删除,从而避免无用数据造成决策数据其决策性的降低,提高数据挖掘的效果,解决无法对挖掘数据的决策性加以支持的问题;
[0062] S3.2、以定义后的决策数据为标准在挖掘数据库内对数据进行抽取,并对抽取的数据进行预处理,提高数据的质量;
[0063] S3.3、对抽取的数据进行评估,区分出冗余的数据,区分后剩余形成决策数据;
[0064] S3.4、对决策数据进行分析,生产数据挖掘结果。
[0065] 具体的,S3.2中对抽取的数据预处理的方法包括噪声消除、数据类型转换。
[0066] 其中,噪声消除采用回归去噪法,如果数据之间存在依赖关系,则求出数据之间依赖关系,从而根据数据改变来预测依赖关系,且依赖关系为正态分布;假设数据是观测值且存在噪声,然后根据数据不断变化来更新观测值,以去除其中的随机噪声。
[0067] 另外,数据类型转换的部分算法如下:
[0068]
[0069] //1、把数字型转换为字符串变量.toString
[0070] varnum=10;
[0071] varstr=num.toString();
[0072] console.log(str);
[0073] console.log(typeofstr);
[0074] //2、利用String(变量)
[0075] console.log(String(num));
[0076] //3、利用+拼接字符串的方法实现转换效果隐式转换
[0077] console.log(num+”);
[0078] 。
[0079] 此外,S3.4中K最近邻算法对所要分析的数据进行分类,其算法步骤如下:
[0080] S4.1、根据采集数据的描述对数据的特征值进行提取,并根据特征值重新描述训练数据集向量;
[0081] S4.2、在训练数据集中计算与再次采集的数据集相似的K个数据集;
[0082] S4.3、在再次采集的数据集的K个邻集中,依次计算每类的权重,并比较每类的权重,将数据集分到权重最大的类别内,从而通过对数据的分类,然后按照分的类别进行分析,实现对数据的分布式分析,大大提高运行的速度,缩短分析时间,同时降低分析时的负载。
[0083] 除此之外,S4.2中相似计算的公式如下:
[0084]
[0085] 其中,Sim(di,dj)为采集的第j个采集的数据集dj与第i个训练数据集di的相似度;M为采集数据个数;Wik为训练数据集di的总个数;Wjk为采集的数据集dj的总个数。
[0086] 进一步的,S4.3中权重计算公式如下:
[0087]
[0088] 其中,为采集的数据集的特征向量, 为特征向量相似度; 为类别属性函数;Ci为i个类别;若采集的数据集dj属于Ci类,那么 否则
[0089] 此外,S1.4中冗余处理步骤如下:
[0090] S5.1、将决策数据中的数据进行对比。
[0091] S5.2、利用决策算法将对比出中多余的决策数据删除。
[0092] 除此之外,决策算法公式如下:
[0093]
[0094] 其中,γi为第i个决策数据(ci=m)的所有决策中最终得到规则支持的上限;Si为第i个决策数据(ci=m)的所有决策中最终得到规则支持的下限,若γi≤γ0或者Si≥S0,则将第i个决策数据(ci=m)删除,另外γ0为最小规则支持度,S0为最大规则支持度。
[0095] 具体的,规则支持的支持度计算公式如下:
[0096]
[0097] 其中,Xi为第i个决策数据的支持集合;Y为数据总集合。
[0098] 实施例2
[0099] 为了提高市场分析的决策质量,本实施例针对市场分析的应用对实施例1进行说明,其工作流程如下:
[0100] 首先对市场的数据进行采集,例如对于水果的市场进行分析,则采集的数据为各个品种的水果售卖情况(值得说明的是本实施例需要分析的水果数据中不需要反季节和储存周期短的水果),该数据用集合A=(a1、a2、a3)表示,其中a1为苹果、a2为西瓜、a3为草莓;此时对数据进行挖掘,具体的:
[0101] 先对a1、a2、a3进行分类,分类结果为:
[0102] a1挖掘的数据结果为日常水果、储存周期正常;a2为反季节水果、储存周期正常;a3为反季节水果、储存周期较短;
[0103] 然后形成a1的决策数据日常水果、储存周期正常;a2反季节水果、储存周期正常;a3反季节水果、储存周期较短;
[0104] 最后通过对比将反季节水果和储存周期短的水果删除,最后生成最后需要分析的水果为a1,从而通过基于复杂技术的数据挖掘的方法将反季节的西瓜和草莓数据删除,以避免无用数据造成决策数据其决策性的降低,从而提高市场分析的决策质量。
[0105] 以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。