首页 / 一种互联网大数据的处理方法及系统

一种互联网大数据的处理方法及系统实质审查 发明

技术领域

[0001] 本发明涉及数据处理领域,尤其涉及一种互联网大数据的处理方法及系统。

相关背景技术

[0002] 随着互联网技术的飞速发展,大数据的产生、存储、处理和分析变得越来越重要,云计算作为一种新兴的计算模式,提供了强大的数据存储、处理和分析能力,为大数据分析带来了新的解决方案;
[0003] 与现有技术相比,传统的大数据处理方法由于计算能力和储存能力的限制,难以高效的处理海量的互联网大数据,且现有的大数据处理过程中仍存在效率低下、人工成本高等问题,这些是我们需要解决的问题,为此我们提供了一种互联网大数据的处理方法及系统。

具体实施方式

[0043] 如图1所示,一种互联网大数据的处理方法,包括以下步骤:
[0044] 步骤S1:对所需处理的互联网数据进行采集,获得相应的互联网大数据序列;
[0045] 步骤S2:对采集的互联网大数据序列进行预处理,并基于预处理完成的互联网大数据生成相应的互联网大数据树;
[0046] 步骤S3:依据所获得的互联网大数据树对相应的互联网大数据进行数据处理,获得相应的处理结果;
[0047] 步骤S4:将所获得的处理结果进行数据储存并可视化。
[0048] 需要进一步说明的是,在具体实施过程中,对所需处理的互联网数据进行采集,获得相应的互联网大数据的过程包括:
[0049] 设置数据采集单元,所述数据采集单元依据预设的采集计划从多个来源对所需处理的互联网大数据进行数据采集,获得相应的互联网大数据序列;其中,一个数据来源对应采集一个互联网大数据,所述互联网大数据由若干个互联网数据组成;
[0050] 所述数据来源包括但不限于社交媒体、网站日志、传感器数据、公共数据集,所述采集方式包括网络爬虫、API调用、数据购买或合作伙伴共享等方式;所述采集计划包括但不限于采集时间、采集位置、采集频率、采集方式;
[0051] 本发明的一个实施例,在工厂内,相应的工业互联网大数据可依据采集计划通过传感器或智能采集终端对工业设备的实时运行数据进行采集,也可以通过API接入直接从工厂的数据库内转移或者人为录入,对所需的工业互联网数据进行采集。
[0052] 需要进一步说明的是,在具体实施过程中,对采集的互联网大数据序列进行预处理,并基于预处理完成的互联网大数据序列生成相应的互联网大数据序列
[0053] 以所述互联网大数据序列内的某一互联网大数据为例,对所获得的互联网大数据进行初步数据预处理,所述数据预处理包括缺失值处理和归一化处理,获得相应的初始互联网大数据;
[0054] 所述缺失值处理用于对所采集的互联网大数据中所缺失的数据进行填充,所述缺失值处理采用的是多重插补算法,所述归一化处理用于将完成缺失值处理的互联网数据进行数据归一化,将相应的互联网数据归一化为平均值为0,标准差为1的归一化序列;
[0055] 待数据预处理完成,针对相应初始互联网大数据内同一数据来源下的互联网大数据进行关联系数求取,并依据所获得的关联系数构建相应数据来源下的关联矩阵;
[0056] 其中, 式中,Ab表示第b个数据来源下的互联网大数据所对应的关联矩阵; 表示第b个数据来源所采集的互联网大数据中第p个互联网数据和第q个互联网数据之间的关联系数,其中,p、q=1,2,……,C;C>0且C为整数,C表示相应数据来源b所采集的互联网大数据中互联网数据的总和,其中,b>0且b为整数,b的取值上限由数据来源的数量而定;
[0057] 其中,
[0058] 式中, 表示第b个数据来源下第p个互联网数据对应归一化序列中的第k个数据,k=1,2,……,K,K表示相应互联网数据中数据的总和, 表示第b个数据来源下第p个互联网数据对应归一化序列中各数据的平均值;
[0059] 表示第b个数据来源下第q个互联网数据对应归一化序列中的第k个数据,K表示相应互联网数据中数据的总和, 表示第b个数据来源下第q个互联网数据对应归一化序列中各数据的平均值;
[0060] 设置关联阈值范围,将所获得的关联矩阵内的关联系数与相应的关联阈值进行比对;
[0061] 若关联系数处于关联阈值范围内,则不进行其他任何操作;
[0062] 若关联系数处于关联阈值范围外,则将相应关联系数所对应的数据标记为异常数据,并进行剔除;
[0063] 将所保留的互联网数据进行汇总,获得相应的真实互联网大数据;
[0064] 遍历所获得的真实互联网大数据,获得相应真实互联网大数据内所有数据所对应的数据格式,并将其与预设的标准格式进行比对;若比对结果相同,则不进行其他任何处理,若比对结果不同,则将相应的部分所对应的数据进行标记,并进行格式转换,将其转换为标准格式;待格式转换完成,获得相应的标准互联网大数据;
[0065] 进一步的,依据所述数据来源对所述标准互联网大数据进行数据分区,并依据分区结果构建相应的一级目录,同时依据数据类型对所述标准互联网大数据进行类别划分,并依据划分结果构建相应的二级目录,依据所述数据属性将所获得的标准互联网大数据上传至相应的目录列表下进行云端储存,并将所述一级目录和二级目录进行相互关联,进而获得相应的互联网大数据树;
[0066] 需要进一步说明的是,在具体实施过程中,所述一级目录可包含多个二级目录,且二级目录之间不存在任何关联;其中,每个二级目录不可同时与多个一级目录相互联系。
[0067] 需要进一步说明的是,在具体实施过程中,依据所获得的互联网大数据序列对相应的互联网大数据进行数据处理,获得相应的处理结果的过程包括:
[0068] 设置云端处理平台,所述云端处理平台包括一个控制终端和若干个数据处理终端;
[0069] 所述控制终端用于对所述数据处理终端进行监督管理,并将所接收的数据块分配给相应的数据处理终端,并接收相应数据处理终端所反馈的处理结果;
[0070] 所述数据处理终端用于接收相应的数据块进行数据处理,获得相应的处理结果,并将其反馈给所述控制终端;
[0071] 读取所获得的互联网大数据树,以互联网大数据树内的某个一级目录内的互联网数据为例;
[0072] 获取相应一级目录内相应二级目录的数量,并对其进行编号,记为i,i=1,2,……,n1,n1>0且n1为整数;
[0073] 获取相应二级目录i内所储存的互联网数据,并对其进行数据划分,获得若干个数据块,并将其上传至所述控制终端,所述控制终端在接收到相应的数据块后,对所述数据块进行数据解析,获取处理相应数据块所需的数据资源,所述数据资源包括资源消耗率、所需的最低处理能力;同时所述控制终端还会对相应数据块在云端储存时的储存路径进行记录,获得相应的云端储存路径;
[0074] 进一步的,所述控制终端读取所连接的数据处理终端,并获取相应数据处理终端所对应的数据处理性能,所述数据处理性能包括但不限于网络时延、数据处理能力、资源利用率;
[0075] 所述控制终端依据所获得的数据资源和数据处理性能将相应的数据块与所述数据处理终端进行参数匹配,并依据匹配结果在相应数据块与所述数据处理终端之间建立相应的映射关系,获得相应的分配策略表;
[0076] 依据所获得的分配策略表生成相应的分配指令并发送至相应的数据处理终端内,所述数据处理终端在接收到相应分配指令后,读取所分配数据块的相关信息,并进行数据处理,获得相应的处理结果,并将其反馈给相应的控制终端。
[0077] 需要进一步说明的是,在具体实施过程中,将所获得的处理结果进行数据储存并可视化的过程包括:
[0078] 当所述控制终端接收到相应数据块的处理结果后,读取相应处理结果所对应的云端储存路径,并将处于同一云端储存路径下的处理结果进行结果合并,并依据云端储存路径将合并的处理结果进行云端备份,同时将合并的处理结果进行本地缓存,并生成相应的数据处理报告,所述数据处理报告包括部分处理结果以及本地缓存位置和云端储存路径;
[0079] 依据上述过程,对所述互联网大数据序列内的所有互联网大数据进行处理,并将所获得的数据处理报告进行汇总,并反馈给工作人员。
[0080] 如图2所示,一种互联网大数据的处理系统,包括处理中心,所述处理中心通信连接有数据采集模块、数据预处理模块、数据处理模块以及数据显示模块;
[0081] 所述数据采集模块用于对所需处理的互联网数据进行采集,获得相应的互联网大数据;
[0082] 所述数据预处理模块用于对采集的互联网大数据进行预处理,并基于预处理完成的互联网大数据生成相应的互联网大数据序列;
[0083] 所述数据处理模块用于依据所获得的互联网大数据序列对相应的互联网大数据进行数据处理,获得相应的处理结果;
[0084] 所述数据显示模块用于将所获得的处理结果进行数据储存并可视化。
[0085] 以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

当前第1页 第1页 第2页 第3页
相关技术
处理方法相关技术
数据处理相关技术
曾美芬发明人的其他相关专利技术