首页 / 基于知识图谱的主动元数据管理方法及装置

基于知识图谱的主动元数据管理方法及装置公开 发明

技术领域

[0001] 本发明属于数据处理技术领域,尤其涉及基于知识图谱的主动元数据管理方法及装置。

相关背景技术

[0002] 本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
[0003] 元数据指描述数据的数据,包括技术元数据:如数据类型、数据模型等;业务元数据:如业务标记、业务策略、业务关系等;操作元数据:如数据操作、数据血缘、数据性能等;社会元数据:如实体关系等。需求实现的时候,元数据管理缺失需求方的参与,无法进行需求确认,导致需求交付时不满足用户的要求,从而进行反反复复的修改。
[0004] 传统的元数据管理,采用的是被动式的元数据管理,被动元数据是提供基本数据定义的技术元数据,例如模式、数据类型、模型、所有者名称等;其存在的缺陷是:传统元数据管理缺乏数据之间的关系刻画以及业务语义描述,用户难以通过数据间的关系发现相关数据,需要查询数据目录去检索或者咨询技术人员来获取业务方面的元数据,难以提高使用效率,同时还可能面临多分相似数据的抉择问题。

具体实施方式

[0045] 下面结合附图与实施例对本发明作进一步说明。
[0046] 应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
[0047] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0048] 与传统的元数据管理相比,主动元数据是一种描述性元数据,通过提供数据发生的所有事情的详细信息来为数据添加上下文,除了技术元数据之外,它还包括运行、业务和社会元数据。主动元数据管理强调人工干预和有意识的信息添加,以促进数据的更好理解和管理。基于知识图谱的主动元数据管理装置将元数据的管理从被动元数据管理向主动元主数据管理的转变,使得元数据描述更为全面,并且实现语义元数据与模式元数据的实时更新。
[0049] 实施例一
[0050] 如图1所示,本实施例提供基于知识图谱的主动元数据管理方法,包括如下步骤:
[0051] 步骤1:获取数据源元数据和业务数据源;
[0052] 步骤2:基于数据源元数据提取对应领域的业务概念和业务之间的关联关系,根据对应领域的业务概念和业务之间的关联关系,生成概念级图结构;
[0053] 步骤3:基于业务数据源构建技术元数据图结构,建立技术元数据图结构和概念级图结构之间的映射关系,生成模式级图结构;
[0054] 步骤4:将概念级图结构和模式级图结构存储至知识图谱中,通过知识图谱对元数据主动管理;
[0055] 步骤5:将用户的数据需求与概念级图结构和模式级图结构进行映射,将映射过程中的用户需求理解知识反馈至知识图谱进行动态更新。
[0056] 本发明基于知识图谱的主动元数据管理装置基于知识图谱技术构造概念级图结构和模式级图结构,将元数据的管理从被动元数据管理向主动元主数据管理的转变,使得元数据描述更为全面,实现语义元数据与模式元数据的实时更新。
[0057] 如图2所示,步骤2中,基于数据源元数据提取对应领域的业务概念和业务之间的关联关系,根据对应领域的业务概念和业务之间的关联关系,生成概念级图结构,包括:
[0058] 步骤201:基于外部系统以及相应领域的领域专家提取元数据概念,基于业务领域基础概念形成知识图,构造基于知识图的第一概念节点;
[0059] 步骤202:获取数据源元数据,基于数据源元数据提取业务之间的关系概念,形成知识图,构造基于知识图的第二概念节点;
[0060] 步骤203:基于第一概念节点和第二概念节点内知识图,通过本体关系建模,得到基于知识图谱的概念级图结构。
[0061] 概念级图结构描述的是业务概念及其关联关系,使用知识图谱存储概念级图结构。例如在医疗领域中,病人是一个抽象概念,病人的身份证号码、家庭住址、出生年月都是病人自然拥有的属性,与具体系统无关。概念级图结构构建的依据是业务领域基础概念,概念级概念图结构主要用于与数据应用用户的概念对齐,方便用户无门槛的应用数据。
[0062] 步骤3中,所述基于业务数据源构建技术元数据图结构,建立技术元数据图结构和概念级图结构之间的映射关系,生成模式级图结构,包括:
[0063] 步骤301:元数据提取:基于业务源数据,进行元数据提取,得到数据源元数据;
[0064] 步骤302:统计数据提取:基于业务源数据,提取统计数据,得到统计元数据,从而完成数据虚拟化中的物理执行计划的计算,;根据统计元数据计算出代价最小的物理执行计划
[0065] 步骤303:元数据图结构构建:基于数据源元数据,构建元数据图结构,得到技术元数据图结构,根据统计元数据、技术元数据图结构和概念级图结构建立数据库中业务的技术元数据图与概念图之间的映射,生成模式级图结构。
[0066] 模式级图结构是数据库中业务的技术元数据与概念图结构之间的映射关系,描述了具体业务系统实现与抽象业务概念之间的关系;模式级图结构使用知识图谱进行存储。模式级模式图结构用于支撑上层数据应用对标准SQL的逻辑执行计划和物理执行计划的生成。
[0067] 例如,病人是一个抽象概念,具体对应在数据存储中表是Patient_Info,在模式级图结构中就存在一条从病人概念到表Patient_Info的边,表示Patient_Info是病人概念的一个物理实现。
[0068] 在生成模式级图结构后,还包括模式级图结构进行修正,具体为:对结合知识图谱,通过智能实体对齐,生成主动元数据目录,对主动元数据目录进一步审核校正,得到校正后的模式级图结构。使得执行计划更贴近用户需求,并对后继执行计划提供依据。
[0069] 步骤4中,在生成概念级图结构和模式级图结构后,将生成的概念级图结构和模式级图结构存储至知识图谱中,通过知识图谱对数据源中的数据源进行语义级别的管理包括增强数据目录、元数据提取和动态更新。
[0070] 所述从数据源中获取元数据,并进行语义级别的管理,包括增强数据目录、元数据提取和动态更新三部分。
[0071] 其中,增强数据目录在传统意义上基于被动元数据的数据目录基础上,增加主动元数据信息的目录信息管理,为数据的敏捷应用提供支撑。
[0072] 元数据提取提供一种用于从数据源中摄取各类元数据信息的工具,在此过程中需要借助构建的概念图结构,在抽取过程中建立概念和模式之间的映射关系,从而为更高层的应用提供语义级别的映射关系。
[0073] 动态更新(模式演变Schema evolution)通过技术手段动态获取元数据的变化情况,并结合已经建立的语义级别的映射关系进行自动调整或者主动提醒。
[0074] 步骤5中,需求意图理解通过形式化的描述将用户的数据需求与概念级图结构、模式级图结构进行映射,如果在映射过程中出现无法确认的执行路径,可以通过过往缓存的需求意图推荐数据提供方案,也可以通过多轮对话的方式与最终用户确认执行路径,最终得到满足用户的真实需求,具体包括形式化描述、需求理解、需求确认、最终需求生成和更新需求缓存几部分。
[0075] 其中,形式化描述:通形式化的描述将用户的数据需求与概念级图结构进行映射,生成需求形式化描述;
[0076] 需求理解:基于需求形式化描述和模式级图结构,基于智能需求理解,生成需要确认的需求以及推荐信息;
[0077] 需求确认:在需要确认的需求以及推荐信息基础上,通过需求确认,将反馈信息作用于数据应用,进一步提出推荐数据提供方案;
[0078] 最终需求生成,通过过往缓存的需求意图推荐数据提供方案,也可以通过多轮对话的方式与最终用户确认执行路径,最终得到满足用户的数据需求描述;
[0079] 更新需求缓存,根据最新的数据需求描述,对需求缓存进行更新,生成需求缓存描述,反馈给需求理解。
[0080] 需求意图理解的目的使得用户的需求和选择被记录在平台中,后续可以逐步对需求和选择进行丰富,从而让大多数的用户选择都有可用的帮助,使得平台的需求理解知识越来越丰富,用户的使用门槛越来越低。
[0081] 例如,在医疗场景下,用户希望获取住院用药中抗菌药物的送检率,由于模式级图模式中存在多个药品字典(假设住院系统中存在药品字典、门诊系统也存在药品字典),在没有参考信息的情况下,平台无法推荐使用哪个字典来执行,此时平台会推荐会反馈给最终用户确认选择哪个字典来实现;如果之前有住院的选择,记录了意图与字典之间的关系,则可以根据意图来推荐使用住院药品字典来实现执行方案。
[0082] 实施例二
[0083] 本实施例提供基于知识图谱的主动元数据管理装置,包括:
[0084] 数据获取模块,其被配置为:获取历史数据源元数据和业务数据源;
[0085] 概念级图结构生成模块,其被配置为:基于历史数据源元数据提取对应领域的业务概念和业务之间的关联关系,根据对应领域的业务概念和业务之间的关联关系,生成概念级图结构;
[0086] 模式级图结构生成模块,其被配置为:基于历史业务数据源构建技术元数据图结构,建立技术元数据图结构和概念级图结构之间的映射关系,生成模式级图结构;
[0087] 主动管理模块,其被配置为:将概念级图结构和模式级图结构存储至知识图谱中,通过知识图谱对元数据主动管理,将用户的数据需求与概念级图结构和模式级图结构进行映射,将映射过程中的用户需求理解知识反馈至知识图谱进行动态更新。
[0088] 实施例三
[0089] 本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于知识图谱的主动元数据管理方法中的步骤。
[0090] 实施例四
[0091] 本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于知识图谱的主动元数据管理方法中的步骤。
[0092] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0093] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0094] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0095] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0096] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read‑Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
[0097] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页