技术领域
[0001] 本申请涉及大数据领域,尤其涉及一种电网知识图谱构建方法及装置。
相关背景技术
[0002] 近年来,知识图谱正在成为实现多源异构超媒体数据融合的一种关键技术。知识图谱本质上是一种语义网络,图中的结点代表实体或者概念,边代表实体/概念之间的各种语义关系。基于知识图谱技术的本体建模,本质上是为多源、异构、类型多样的大数据提供了一种高抽象概念层次的统一数据模型。基于这样一个数据模型,通过一组图谱生成工具把各种来源、异构、海量的大数据进行汇聚、融合、以及关联在一起进行存储。基于知识图谱的大数据分析,实现了大数据的本质语义关联,比传统的关系型数据库更加自由多样化,能够更好地满足用户对电网大数据的价值探索和情报发现需求。
[0003] 目前,已有的知识图谱都是根据开放通用知识图谱构建的,具体为通过从网络文本中自动提取、识别命名实体和进行知识融合,从而构建出相应的知识图谱,但在现有模式下存在,针对特定领域构建的知识图谱准确性低的技术问题。
具体实施方式
[0036] 目前,已有的知识图谱都是根据开放通用知识图谱构建的,具体为通过从网络文本中自动提取、识别命名实体和进行知识融合,从而构建出相应的知识图谱,但开放通用知识图谱注重广度,强调融合更多的实体且受概念范围的影响很难借助本体库覆盖特定行业垂直领域的实体、属性、实体间的关系,使得在现有构建模式下,针对特定领域构建的知识图谱准确性低的技术问题。
[0037] 本申请实施例提供了一种电网知识图谱构建方法及装置,用于解决现有的知识图谱构建方式在针对特定领域构建知识图谱存在的准确性低的技术问题。
[0038] 为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0039] 请参阅图1,本申请第一个实施例提供了一种电网知识图谱构建方法,包括:
[0040] 步骤101、按照预设的电网知识图谱体系模板,通过命名实体识别方式和文本提取方式,从预设的关系数据库中获取与电网知识图谱体系模板相应的电网特征数据,其中电网特征数据包括:命名实体对象,命名实体对象的对象属性以及命名实体对象之间的关联关系。
[0041] 需要说明的是,本实施例提及的关系数据库则是通过常规的网络文本自动提取方式,将按照常规的知识图谱构建所需的数据,预先进行提取并存到关系型数据库中,从而形成了本实施例中包含海量数据的关系数据库,而电网知识图谱体系模板为进行特定领域,如电网领域,具体通过电网实际的实际业务知识信息和专业人员的基于经验确定的关键信息生成的。包括:命名实体对象,命名实体对象的对象属性以及命名实体对象之间的关联关系,其中命名实体对象可以包括:电网人员、电网项目、项目产出、电网单位对象。每种对象中包含多个属性,例如电网人员的对象属性可以包括:专家姓名、专家排名等,命名实体对象之间的关联关系同样可以包括:电网人员与电网单位的所属关系,电网项目与项目产出的所属关系,电网单位与电网项目的所属关系等直接关系以及同一电网项目产出的两个以上项目产出对象、同单位的两个以上电网人员对象,以及参与了同一个电网项目的电网人员或电网单位等间接关系。
[0042] 其中,间接关系可以依据直接关系通过设置的属性条件查询计算得出。
[0043] 步骤102、建立电网特征数据与关系数据库的映射关系。
[0044] 步骤103、按照映射关系,从关系数据库中提取与电网特征数据对应的实例数据,将实例数据进行数据转换并存储至图谱数据库,以获得电网知识图谱。
[0045] 需要说明的是,基于步骤101获得的电网特征数据,对关系数据库中数据表数据和电网特征数据建立数据的映射关系,基于这个映射关系,从关系数据库中抽取的数据根据映射关系进行数据转换,将关系数据库中的数据抽取转换成对象、关系、属性实例数据存储到图谱数据库中,以获得电网知识图谱。且基于获得的电网知识图谱,在后续进行图谱查询分析时,可以基于Gremlin图查询语言,通过电网人员姓名或多个属性值匹配的方式查询电网人员,进而查询具体电网人员的关系信息,间接关系查询,需要借助间接关系属性条件进行计算,其中,电网项目、电网机构图谱查询分析与电网人员图谱查询分析相同。
[0046] 本申请实施例基于预设的电网知识图谱体系模板,针对性获取与电网知识图谱体系模板相应的电网特征数据,并以获取到的电网特征数据与关系数据库的映射关系,构建电网知识图谱,解决了知识图谱构建方式在针对特定领域构建知识图谱存在的准确性低的技术问题。
[0047] 以上为本申请提供的一种电网知识图谱构建方法的第一个实施例的详细说明,下面为本申请提供的一种电网知识图谱构建方法的第二个实施例的详细说明。
[0048] 请参阅图2,在上述第一个实施例的基础上,本申请第二个实施例提供了一种更具体的电网知识图谱构建方法。
[0049] 其中,上述步骤102具体包括:
[0050] 将命名实体对象和关联关系与关联数据库中的目标数据表建立映射关系,其中目标数据表具体为与命名实体对象对应的数据表,将对象属性与目标数据表的字段建立映射关系。
[0051] 其中,上述步骤103具体包括:
[0052] 按照映射关系,从关系数据库中提取与电网特征数据对应的实例数据,利用Apache NiFi将实例数据进行数据转换并存储至图谱数据库,以获得电网知识图谱。
[0053] 从关系数据库中抽取的数据根据步骤102中定义的映射关系进行数据转换,通过Apache NiFi将关系数据库中的数据抽取转换成对象、关系、属性实例数据存储到图谱数据库中,具体为,先选择数据源,选择在步骤102中已经建映射的数据表,然后在Apache NiFi中通过拖拽方式创建数据导入流程,其中在步骤102中定义的映射以Restful的方式为NiFi提供数据转换服务,最后抽取数据到图数据库中
[0054] 其中,在第一个实施例的步骤102之后还包括:
[0055] 步骤100、根据对象属性,建立与对象属性对应的索引信息。
[0056] 本申请实施例通过电网领域知识图谱的构建支持用户自定义对象、关系、属性,可在应用场景变化的情况下灵活扩展;解决了当前通用知识图谱构建方法应用到特定行业存在的概念、准确性等弊端;通过支持建立数据表到对象、关系的映射,以及字段到属性的映射,通过Apache Nifi抽取关系数据库中数据转换为对象、属性、关系实例数据存储到图数据库中,支持数据的增量更新;通过提供人机交互式关系探索,有效结合计算机的计算能力及用户的认知能力,使用户可以一目了然获取电网人员、电网项目、电网机构、电网产出的直接关系及间接关系,操作简单,帮助用户从海量数据中挖掘数据之间关联关系,具有良好的推广应用价值。
[0057] 以上为本申请提供的一种电网知识图谱构建方法的第二个实施例的详细说明,下面为本申请提供的一种电网知识图谱构建装置的第一个实施例的详细说明。
[0058] 请参阅图3,本申请第三个实施例提供了一种电网知识图谱构建装置,包括:
[0059] 电网特征数据获取单元301,用于按照预设的电网知识图谱体系模板,通过命名实体识别方式和文本提取方式,从预设的关系数据库中获取与电网知识图谱体系模板相应的电网特征数据,其中电网特征数据包括:命名实体对象,命名实体对象的对象属性以及命名实体对象之间的关联关系;
[0060] 映射关系构建单元302,用于建立电网特征数据与关系数据库的映射关系;
[0061] 电网知识图谱构建单元303,用于按照映射关系,从关系数据库中提取与电网特征数据对应的实例数据,将实例数据进行数据转换并存储至图谱数据库,以获得电网知识图谱。
[0062] 更具体地,映射关系构建单元302具体用于:
[0063] 将命名实体对象和关联关系与关联数据库中的目标数据表建立映射关系,其中目标数据表具体为与命名实体对象对应的数据表;
[0064] 将对象属性与目标数据表的字段建立映射关系。
[0065] 更具体地,电网知识图谱构建单元303具体用于:
[0066] 按照映射关系,从关系数据库中提取与电网特征数据对应的实例数据,利用Apache NiFi将实例数据进行数据转换并存储至图谱数据库,以获得电网知识图谱。
[0067] 更具体地,命名实体对象具体包括:人员对象、单位对象、项目对象以及项目产出对象。
[0068] 更具体地,还包括:
[0069] 索引构建单元300,用于根据对象属性,建立与对象属性对应的索引信息。
[0070] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0071] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0072] 本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0073] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0074] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0075] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0076] 以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。