首页 / 一种异构数据集成平台

一种异构数据集成平台有效专利 发明

技术领域

[0001] 本发明属于互联网领域,具体涉及一种异构数据集成平台。

相关背景技术

[0002] 随着互联网的快速发展,互联网的应用越来越丰富,这些应用让互联网留存了海量的数据信息,产生的相关数据量巨大、数据内容多变,对相关的存储负荷及数据处理产生了巨大的压力。如何在海量的、动态的互联网信息数据中获取有用的知识,是商业智能的价值所在。
[0003] 但是传统的商业智能架构移植到互联网应用领域会产生严重的“水土不服”现象,因为如下几种情况限制了传统的商业智能架构的作用:
[0004] 1.互联网应用中数据源多种多样,包含各种关系型数据库保存的数据,社交网络产生的数据,网络日志数据、图片文件、文本文件等。但传统的商业智能都是以处理各种关系型数据库见长。
[0005] 2.互联网数据量巨大。目前各类网站,特别是运营时间比较长的电子商务网站,都会产生了巨大的网络日志,而且在数据库中也存储了大量的各类数据,包括产品数据、商情数据、询盘数据等,另外,还有大量的各类数据文件保存在服务器中,在处理这么大规模的数据都出现了很多新的问题,而传统的关系型数据库目前已经无法满足处理如此大规模数据的要求。
[0006] 目前针对大数据的处理方法,已经有一些研究和应用成果。
[0007] 专利“一种分布式数据流处理方法及其系统”(专利申请号:201110378247.3),它提出的方法是:将原始数据流分割成实时数据流和历史数据流,并行处理实时数据流和历史数据流,并对他们的处理结果进行整合。这种方法通过对数据按时间进行分类,实时数据流的运算能够最大限度地以分布式并行处理,保证了大数据量的处理和高实时性。但这种方法没有解决异构数据之间关系问题,对于异构大数据如何协调之间的关联关系,并进行整合处理方面,还没有提出解决方法。
[0008] 专利“一种大数据量的数据查询方式”(专利申请号:201210075512.5),此方法先定义增量数据捕获方式,以及增量捕获调度执行计划,然后执行增量数据定期归集,最后执行数据统计结果查询。此方法把复杂的数据统计查询过程分解成两个过程:统计计算归集和实时查询;将统计计算归集过程放在后台运行,并且归集过程只归集增量数据,提高了大数据量统计查询的执行效率。此方法主要是针对关系型数据数据库提出的,没有涉及到异构数据的处理。

具体实施方式

[0034] 为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
[0035] 本发明包括一种异构数据集成平台,用于对各个异构数据源进行无缝连接,平台包括应用系统、虚拟数据层和数据源层,所述应用系统用于对接访问接口和通过虚拟数据层管理各个节点数据源;所述虚拟数据层用于将若干个分布的、独立的异构数据源集成管理;所述数据源层用于接收异构数据源。通过把各种类型的数据通过抽象方法,最终以面向对象方式定义两类数据:
[0036] 结构化数据与非结构化数据。非结构化数据的检索、处理、存储等所需要的计算资源远远大于结构化数据,而原有信息系统常规的计算架构绝大多数为单点服务器+存储设备的方式已经远远不能满足非结构化数据的处理要求,绝大多数中小型单位也不可能自行投入建设大型数据中心的方式来解决海量数据的增长。本发明通过采用分布式可线性拓展的海量数据计算架构,等各自单台服务器处理完毕后,统一汇总向请求任务返回结果的方式。从而构造出一个可根据企业业务发展而不断线性增长的可拓展基础计算平台。
[0037] 任何使用被平台整合的其他系统上层应用,都不需要了解被整合系统的底层细节,只需要访问虚拟数据层的标准数据对象即可,这样带来的好处包括:(1)当有新系统加入整合时,不影响之前已整合的整体系统;(2)已整合系统的改动,只需修改虚拟数据层相关接口,不用改动上层应用。
[0038] 上述技术方案中,所述应用系统作为平台的可视化管理并提供访问接口;和通过Web服务与虚拟数据层进行数据联动通信。
[0039] 上述技术方案中,所述虚拟数据层通过JDBC,FILE适配器和应用适配器与数据源层的各种数据源实现连接,将数据源中的各种数据实体映射成虚拟数据层的数据表。
[0040] 上述技术方案中,所述虚拟数据层上采用可视化图形界面定义数据映射关系,进行数据加工整合,数据加工逻辑以文件或者数据库方式存储。
[0041] 上述技术方案中,所述虚拟数据层,与应用系统采用Web服务方式对外提供数据对象,数据对象采用XML格式进行封装。采用Web Service+XML方式是目前最开放的数据交换标准,所有其他应用都可以非常方便地就实现信息的整合。
[0042] 上述技术方案中,所述虚拟数据层包括
[0043] 数据接入区,连接各个业务节点数据库,用于存储各类数据源信息;
[0044] 数据分配区,用于将接收各类数据源信息进行分配,根据该数据源信息确定该次存储的信息是否为增量数据,启动第一组数据采集线程采集新的异构数据源信息,启动第二组数据采集线程采集已存储异构数据源的增量数据;
[0045] 数据处理区,用于将所述第一组数据采集线程和所述第二组数据采集线程获取到数据转换成统一数据格式发送至数据缓存区;
[0046] 数据缓存区,用于临时存储异构数据源信息,包括分别存储各类数据源信息和存储各类数据源的增量数据;并对临时存储的数据进行整理、映射、转换,得到元数据;
[0047] 其中,数据缓存区包括第一数据源和第二数据源;所述第一组数据采集线程中的数据采集线程与所述第一数据源的数据节点一一对应,所述第二组数据采集线程中的数据采集线程与所述第二数据源的数据节点一一对应;所述第一组数据采集线程从所述第一数据源中获取数据,第二组数据采集线程从所述第二数据源中获取数据,具体为:第一组数据采集线程和第二组数据采集线程中的各数据采集线程从各自对应的数据节点中获取数据。
[0048] 标准数据数据表,分类存放所有元数据;
[0049] 数据混合存储模块,对元数据与原始数据合并存储。
[0050] 上述技术方案中,所述虚拟数据层还包括
[0051] 数据推送模块,对所述标准数据数据库中的数据混合存储模块进行针对应用系统的发布与调用。
[0052] 通过SHA-1算法对原始数据进行签名运算,并对运算后的原始数据进行分布式存储;通过映射方法将原始数据和元数据进行混合存储至数据混合存储模块。
[0053] 平台采用了数据混合云架构,可实现存储空间的无限扩展。采用了适用于云存储系统的元数据分布式存储方法,通过SHA-1算法对原始数据进行签名运算,并对运算后的原始数据进行分布式存储;再通过映射方法将原始数据和元数据进行混合存储,解决了传统元数据存储需要专门元数据服务器的问题,通过本发明可以直接把元数据的存储与原始数据存储合并,不仅提高了元数据的安全性和可扩展性,也避免了因元数据单点失效而导致整个存储网络不能使用的问题。
[0054] 上述技术方案中,所述数据源的数据类型包括结构化数据、半结构化数据和非结构化数据;每个数据源的信息作为一个虚拟节点,每个所述虚拟节点可为单个数据库或者是数据库集群,或者是单个虚拟节点或多个虚拟节点;
[0055] 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。结构化的数据的存储和排列是很有规律的。
[0056] 半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。它也被称为自描述的结构。
[0057] 半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。
[0058] 常见的半结构数据有XML和JSON,对于对于两个XML文件,第一个可能有[0059]
[0060] 第二个可能为:
[0061]
[0062]
[0063] 从上面的例子中,属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。半结构化数据是以树或者图的数据结构存储的数据,上面的例子中,标签是树的根节点,标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。
[0064] 非结构化数据就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。
[0065] 上述技术方案中,所述应用系统数据可以通过web服务、JDBC、数据对象方式发布数据信息。
[0066] 本发明对各个异构数据源进行无缝连接,对各个节点数据源提供数据共享注册的功能,集成中心协调管理各个节点数据源,为用户提供一个统一透明的访问接口。将若干个分布的、独立的异构数据源集成到一个虚拟数据层中,实现对这些多数据库系统的统一查询,屏蔽各个业务节点数据库的结构、运行环境上的差异、网络分布状况和具体的物理位置,保证各个节点数据库的独立性和数据的安全。针对数据源的统一接入,主要通过以下方式:在中间层上存在一个虚拟的数据服务层,该层通过JDBC,FILE适配器、应用适配器等与数据层的各种数据源实现连接,将数据源中的各种数据实体映射成中间件的虚拟数据层的表,虚拟数据层中的表都只有元数据,而不存储实际的生产数据。用户可以在虚拟数据层上采用可视化图形界面定义数据映射关系,进行数据加工整合,这些数据加工逻辑一般会以文件或者数据库方式存储。定义好的数据可以通过web服务,JDBC,数据对象等多种方式发布出去。当用户通过中间件访问虚拟数据层的数据时,虚拟数据层会根据系统定义的逻辑首先将需要加工的细节数据从各个数据源抽取到虚拟数据层,然后中间件根据设计时的数据加工逻辑对其进行加工,最后中间件将加工好的数据以调用接口要求的格式返回。
[0067] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页 第1页 第2页 第3页
相关技术
数据集成相关技术
集成平台相关技术
韩伟发明人的其他相关专利技术