首页 / 一种异构数据解析方法

一种异构数据解析方法有效专利 发明

技术领域

[0001] 本发明涉及数据解析技术领域,特别涉及一种异构数据解析方法。

相关背景技术

[0002] 目前,随着科学技术的发展,互联网也离人们的日常生活越来越近,生产力和生产技术的发展也依靠互联网。互联网的发展的结果是数据量爆发式增长,一个计算机要处理数量巨大的异构数据。无论是进行数据挖掘或者人工智能建模,在工作流里面,第一步都是接入数据,接入数据的最重要的一步就是处理异构数据,但是,目前在对异构数据进行处理的过程中,一般是按照设定好的流程来对每个异构数据进行依次单独解析,由于解析方式单一以及单独解析过程可能会过常,导致不能对异构数据进行精准解析。
[0003] 因此,本发明提供一种异构数据解析方法。

具体实施方式

[0018] 以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0019] 本发明实施例提供一种异构数据解析方法,如图1所示,包括:步骤1:根据制程架构对异构数据进行筛选,得到第一数据集;
步骤2:提取所述第一数据集中每个第一数据的并行性特征区间,得到每个第一数据的并行性需求类型;
步骤3:基于所述并行性需求类型,从类型‑指令数据库中匹配相对应的指令集,得到指令序列;
步骤4:基于所述指令序列,匹配相对应的工作单元执行相应工作。
[0020] 该实施例中,制程架构指的是异构数据中每个数据的源数据信息中的所需的框架运算速度量以及体系架构的组合信息,能够提取异构数据中的独立数据,其中,异构数据指的是不同结构的数据重叠,独立数据指的是包含完整数据组成部分的数据。
[0021] 该实施例中,第一数据集指的是通过按照制程架构对异构数据进行筛选,去除无用的数据,得到的从异构数据中的重叠数据分离出来的独立数据的集合。
[0022] 该实施例中,并行性特征区间指的是通过对第一数据集中每个第一数据的特征进行分析,计算得到相对应的并行性特征指数的最大值以及最小值,得到的特征区间,在并行性特征区间‑需求类型表中匹配相对应的并行性需求类型,从而达到得到第一数据集中每个第一数据的并行性需求类型匹配指令集进行数据解析的目的。
[0023] 该实施例中,并行性需求类型指的是异构数据中的所有数据的同时进行运算或操作的类型,包括同时性需求与并发性需求,同时性指两个或两个以上数据可以在同一时刻进行计算,并发性指两个或两个以上数据可以在同一时间间隔进行计算,从而达到提高异构数据解析的速率的目的。
[0024] 该实施例中,类型‑指令数据库指的是包含并行性需求类型以及相对应的指令集的数据库。
[0025] 该实施例中,指令序列指的是通过对并行性需求类型匹配相对应的指令集,按照层级标签排序的结果对指令集进行排序得到的指令序列,且指令序列中每个序列都有其专属代表符号,方便指令执行。
[0026] 上述技术方案的工作原理及有益效果是:通过对异构数据按照制程架构进行筛选,得到数据独立的第一数据集,并提取每个第一数据的并行性特征区间,得到每个第一数据的并行性需求类型,匹配相对应的指令集,构建指令序列匹配相对应的工作单元执行相应工作,更全面分析异构数据中的每个独立数据,有利于对异构数据中重要数据的掌握,进而来进一步提高异构数据解析的解析能力。
[0027] 本发明实施例提供一种异构数据解析方法,根据制程架构对异构数据进行筛选,得到第一数据集,包括:获取异构数据,按照数据平均长度进行分割,得到每一个数据平均长度内的第一重叠数据集合;
基于所述第一重叠数据集合,除去重叠长度小于预设长度的重叠数据,得到第二重叠数据集合;
基于所述第二重叠数据集合,得到每个剩余重叠数据相对应的源数据;
基于每个剩余重叠数据相对应的源数据,得到对应剩余重叠数据相对应的制程架构信息;
基于制程架构信息,得到相对应的制程架构种类;
基于制程架构种类,对第二重叠数据集合中的所有剩余重叠数据进行分离,得到若干第一数据,并构建得到第一数据集。
[0028] 该实施例中,数据平均长度指的是通过对异构数据中的不同系统在不同解析过程中对数据进行长度拆分的长度值进行平均值计算,从而达到对异构数据进行分段分析的目的。
[0029] 该实施例中,第一重叠数据集合指的是异构数据在一个数据平均长度内的所有重叠的数据,也就是对异构数据进行分割之后会得到若干个分割数据,且不同的分割数据中可能会存在重叠数据,此时,就将所有重叠的数据构成第一重叠数据集合。
[0030] 该实施例中,预设长度指的是预先设置的最短数据长度,若数据长度小于预设数据长度,则该数据为不完整数据,从而达到筛选完整数据的目的。
[0031] 该实施例中,第二重叠数据集合指的是通过对第一重叠数据集合中的完整数据保留,得到异构数据中完整的可以解析的剩余数据的集合。
[0032] 该实施例中,制程架构信息指的是异构数据中每个数据的源数据信息中的所需的框架运算速度量以及体系架构的组合信息,能够提取异构数据中的独立数据。
[0033] 该实施例中,制程架构种类指的是异构数据中每个数据的源数据信息中的所需的框架运算速度量以及体系架构的每一组合信息构成的种类,能够区分异构数据中的独立数据。
[0034] 该实施例中,第一数据指的是通过按照制程架构种类,对第二重叠数据集合中的数据进行分离,得到的互相独立的数据。
[0035] 上述技术方案的工作原理及有益效果是:通过按照数据平均长度对异构数据进行分割,得到每一个数据平均长度内的第一重叠数据集合并进行完整筛选,得到第二重叠数据集合进行分析,按照制程架构种类,对第二重叠数据集合中的数据进行分离,得到互相独立的第一数据,提高了异构数据解析的精度与解析能力。
[0036] 本发明实施例提供一种异构数据解析方法,提取所述第一数据集中每个第一数据的并行性特征区间,得到每个第一数据的并行性需求类型,包括:对所述第一数据集中每个第一数据进行并行解析,得到相对应的并行特征数据组;
对所述并行特征数据组进行重构,得到相对应的重构数据组,其中,所述重构数据组包括同时刻下涉及到的所有第一并行数据;
获取同个重构数据组中不同时刻下的第一并行数据对应的实际行为向量,并基于所述实际行为向量的模,构建得到对应第一数据的并行折线图;
基于所述并行折线图,得到每两个时刻的模连线段的平均斜率;
若所述平均斜率小于预设平均斜率,则向对应模连接段所涉及到左侧并行数据设置第一静态标签、右侧并行数据设置第二静态标签;
若所述平均斜率大于或等于预设平均斜率,则向对应模连接段所涉及到左侧并行数据设置第一动态标签、右侧并行数据设置第二动态标签;
当对同个并行数据所设置的标签都为静态标签时,将对应同个并行数据视为静态特征数据;
当对同个并行数据所设置的标签都为动态标签时,将对应同个并行数据视为动态特征数据;
当对同个并行数据所设置的标签包含静态标签与动态标签时,根据对应同个并行数据所处的左侧连接段的第一斜率差与右侧连接段的第二斜率差,确定对应并行数据的最终标签,其中,所述最终标签为动态标签或静态标签;
基于全部静态特征数据以及全部动态特征数据,构建相对应的静态特征集合以及动态特征集合;
基于并行特征关联表,得到所述动态特征集合中的每个动态特征数据相对应的可能关联特征;
基于每个动态特征数据相对应的可能关联特征以及同个动态特征数据基于对应第一数据中的其余动态特征数据的动态关联,得到对应动态特征数据的第一特征;
基于每个动态特征数据所对应的斜率平均值,按照时间顺序得到动态斜率变化趋势图;
对每个第一特征进行斜率解析,得到第一斜率变化趋势图;
将所述动态斜率变化趋势图以及所述第一斜率变化趋势图输入至趋势‑关联分析模型,得到同个动态特征数据与相对应的第一特征的关联系数;
基于所述静态特征集合、所述动态特征集合以及每个动态特征数据与相对应的第一特征的关联系数,计算第一数据集中每个第一数据的并行性特征指数的最大值以及最小值。
[0037] 该实施例中,并行解析指的是异构数据中存在并行操作的数据,且并行操作包括:同时运算、同时操作亦或者速率相同行为等,并行特征数据组指的是异构数据存在同时运算或同时操作的数据亦或者是异构数据中存在传输速率、运算速率以及操作速率一致的数据,所构成的数据组。
[0038] 该实施例中,重构数据组指的是对同个第一数据所对应的并行特征数据组中的数据进行数据拼接、数据裁剪后得到的,从而达到深层次分析并行特征数据的目的。
[0039] 该实施例中,预设平均斜率指的是预先设置的,在合理外在因素影响下实际行为向量的模的连线段的平均斜率,当平均斜率小于预设平均斜率时,平均斜率在合理差异下无变化,从而达到对特征进行动静分类的目的。
[0040] 该实施例中,静态特征数据指的是当平均斜率小于预设平均斜率时,平均斜率在合理差异下无变化,相对应的并行特征数据为不会变化的静态特征数据。
[0041] 该实施例中,动态特征数据指的是当平均斜率大于或等于预设平均斜率时,平均斜率在合理差异下有变化,相对应的并行特征数据为可变化的动态特征数据。
[0042] 该实施例中,静态特征集合指的是所有静态特征数据的集合。
[0043] 该实施例中,动态特征集合指的是所有动态特征数据的集合。
[0044] 该实施例中,并行特征关联表指的是包含动态特征数据以及相对应的可能关联特征的对照表。
[0045] 该实施例中,可能关联特征指的是可能与被查找动态特征数据有关联关系的特征数据。
[0046] 该实施例中,第一特征指的是动态特征数据相对应的可能关联特征与相对应的第一数据相对应的除所述动态特征数据之外的其他动态特征数据中相同的特征数据。
[0047] 该实施例中,动态斜率变化趋势图指的是动态特征数据相对应的并行折线图中的斜率变化趋势图,从而达到显示动态特征数据变化的目的。
[0048] 该实施例中,第一斜率变化趋势图指的是第一特征相对应的并行折线图中的斜率变化趋势图,从而达到显示第一特征变化的目的。
[0049] 该实施例中,趋势‑关联分析模型指的是由动态斜率变化趋势图、相对应的第一斜率变化趋势图以及动态特征数据与相对应的第一特征的关联系数训练得到的,能够分析动态斜率变化趋势图以及相对应的第一斜率变化趋势图并得到相对应的关联系数的模型。
[0050] 该实施例中,关联系数指的是能够体现动态特征数据与相对应的第一特征的关联关系的系数,取值为0 1。~
[0051] 该实施例中,并行性特征指数指的是通过对静态特征集合、动态特征集合以及每个动态特征与相对应的第一特征的关联系数进行计算,得到的代表数据的同时进行运算或操作程度的指数。
[0052] 上述技术方案的工作原理及有益效果是:通过对第一数据相对应的并行特征数据进行重构,分析重构数据的重构向量,得到相对应的每两个时刻的相对应的重构向量的模连线段的平均斜率,进行比较得到静态特征数据以及动态特征数据,还通过对动态特征数据进行特征关联性分析,得到相对应的第一特征以及关联系数,计算第一数据集中每个第一数据的并行性特征指数的最大值以及最小值,细化异构数据解析的流程,深层分析动态特征数据以及关联特征,大大提高了异构数据解析的精准度以及解析能力。
[0053] 本发明实施例提供一种异构数据解析方法,基于所述静态特征集合、所述动态特征集合以及每个动态特征与相对应的第一特征的关联系数,计算第一数据集中每个第一数据的并行性特征指数的最大值,包括:;
其中,表示同个第一数据所对应动态特征集合中的动态特征数据的数量; 表示同个第一数据所对应静态特征集合中的静态特征数据的数量; 表示对应动态特征集合中第 个动态特征数据所对应向量的模; 表示对应静态特征集合中第个静态特征数据所对应向量的模; 表示与对应动态特征集合中第个动态特征数据相关联的第一特征的向量的模; 表示对应动态特征集合中的所有动态特征数据的特征权重中的最大权重; 示对应静态特征集合中所有静态特征数据的特征权重中的最大权重;
表示对应动态特征集合中第 个动态特征与相对应的第一特征的关联系数; 表示对应的最大。
[0054] 该实施例中, 的取值小于1, 的取值小于1。
[0055] 上述技术方案的工作原理及有益效果是:通过对静态特征集合、动态特征集合以及每个动态特征与相对应的第一特征的关联系数进行计算,得到每个第一数据的并行性特征指数的最大值,精准地分析了并行性特征,提高了异构数据解析的精确程度。
[0056] 本发明实施例提供一种异构数据解析方法,基于所述静态特征集合、所述动态特征集合以及每个动态特征与相对应的第一特征的关联系数,计算第一数据集中每个第一数据的并行性特征指数的最小值,包括:;
其中, 表示对应的最小值; 表示对应静态特征集合中所有静态特
征数据的特征权重中的最小权重; 表示对应动态特征集合中的所有动态特征数据的特征权重中的最小权重。
[0057] 该实施例中, 的取值小于1, 的取值小于1。
[0058] 上述技术方案的工作原理及有益效果是:通过对静态特征集合、动态特征集合以及每个动态特征与相对应的第一特征的关联系数进行计算,得到每个第一数据的并行性特征指数的最小值,精准地分析了并行性特征,提高了异构数据解析的精确程度。
[0059] 本发明实施例提供一种异构数据解析方法,提取所述第一数据集中每个第一数据的并行性特征区间,得到每个第一数据的并行性需求类型,还包括:基于第一数据集中每个第一数据的并行性特征指数的最大值以及最小值,得到第一数据集中每个第一数据的并行性特征区间;
基于预设误差值,对所述并行性特征区间进行优化;
基于并行性特征区间‑需求类型表,得到优化后的并行性特征区间相对应的并行性需求类型。
[0060] 该实施例中,预设误差值指的是预先设置的合理误差值,从而达到对并行性需求类型准确匹配的目的。
[0061] 该实施例中,并行性特征区间‑需求类型表指的是包含并行特征区间以及相对应的并行性需求类型的对照表。
[0062] 该实施例中,并行性特征区间是基于最大值与最小值确定的,在对该区间进行优化是对最大值和最小值进行调整,比如,并行性特征区间为(a1,a2),优化之后为:(a3,a4)。
[0063] 其中,a3=a1‑预设误差值/2,a4=a2+预设误差值/3。
[0064] 上述技术方案的工作原理及有益效果是:通过对并行性特征区间进行预设误差值优化,按照优化后的并行性特征区间在并行性特征区间‑需求类型表进行查询,得到相对应的并行性需求类型,提高了异构数据解析的解析能力。
[0065] 本发明实施例提供一种异构数据解析方法,基于所述并行性需求类型,从类型‑指令数据库中匹配相对应的指令集,得到指令序列,包括:基于类型‑指令数据库,匹配与并行性需求类型相对应的指令集,同时,根据第一数据集的数据获取时段,从时段‑标签映射表中获取层级标签,并对所有第一数据进行排序,得到第一序列;
将所述第一序列与相对应的指令集进行匹配,得到指令序列。
[0066] 该实施例中,类型‑指令数据库指的是包含并行性需求类型以及相对应的指令集的数据库。
[0067] 该实施例中,时段‑标签映射表指的是包含数据获取时段以及相对应的映射的层级标签构成的对照表。
[0068] 该实施例中,层级标签指的是第一数据集中每个第一数据未进行分离时的层级的标签,能够表示数据层级的标签,数据层级指的是数据在重叠中所处的层级,层级数由第一数据集中的第一数据决定。
[0069] 该实施例中,第一序列指的是按照层级标签对第一数据中的所有第一数据进行排序,得到的数据序列。
[0070] 上述技术方案的工作原理及有益效果是:通过提取第一数据的层级标签,对第一数据集中的第一数据排序,得到第一序列并获取相对应的指令集,得到指令序列,提高了异构数据解析的解析能力。
[0071] 本发明实施例提供一种异构数据解析方法,根据对应同个并行数据所处的左侧连接段的第一斜率差与右侧连接段的第二斜率差,确定对应并行数据的最终标签,包括:获取左侧连接段的第一当下斜率,并计算第一当下斜率与预设平均斜率的第一斜率差;
获取右侧连接段的第二当下斜率,并计算第二当下斜率与预设平均斜率的第二斜率差;
当第一斜率差的绝对值大于第二斜率差的绝对值时,此时,判定对应同个并行数据的最终标签与左侧连接段的斜率判定所设定的标签结果一致;
否则,判定对应同个并行数据的最终标签与右侧连接段的斜率判定所设定的标签结果一致。
[0072] 该实施例中,第一当下斜率指的是当下时刻下的第一并行数据对应的实际行为向量的模的并行折线图的左侧连接段的斜率。
[0073] 该实施例中,第二当下斜率指的是当下时刻下的第一并行数据对应的实际行为向量的模的并行折线图的右侧连接段的斜率。
[0074] 上述技术方案的工作原理及有益效果是:通过获取左侧连接段以及右侧连接段的第一当下斜率以及第二当下斜率,并分别计算预设平均斜率的斜率差,得到第一斜率差以及第二斜率差,并对比斜率差的绝对值大小,判定对应同个并行数据的最终标签与左侧连接段的斜率判定所设定的标签结果一致或者与右侧连接段的斜率判定所设定的标签结果一致,得到最终标签,对特征数据进行动静态分类,有利于对异构数据进行深度解析,提高异构数据的解析能力。
[0075] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页 第1页 第2页 第3页
相关技术
数据解析相关技术
解析方法相关技术
戚红建发明人的其他相关专利技术