技术领域
[0001] 本发明属于图谱构建领域,尤其涉及智能电网大数据知识图谱的构建方法。
相关背景技术
[0002] 电力网络庞大而且结构复杂,使用传统数据库进行查询操作速度极慢而且性能不佳。使用知识图谱技术可以显著提高知识检索的有效性,使检索结果更加全面、准确,它能够系统地理解用户的查询意图,直接返回准确的答案,而不是大量的搜索结果。本专利在电网知识图谱的基础之上开发了电网知识智能检索系统。例如,在电网系统中,若想知道一个设备的故障是否会影响到某一个关键设备,如果利用传统关系数据库,在多个表中进行查询操作,则需要事先知道两个设备之间的关系路径,查询语句的编辑难度较大,而且由于数据结构的差异,查询速度极慢。
具体实施方式
[0025] 为使本发明的结构和优点更加清楚,下面将结合附图对本发明的结构作进一步地描述。
[0026] 实施例一
[0027] 本申请实施例提出了智能电网大数据知识图谱的构建方法,如图1所示,所述构建方法包括:
[0028] 11、从电网设备处以Neo4j获取电网设备信息以及电网设备之间的连接关系;
[0029] 12、基于历史拓扑数据库,对获取到的电网设备信息进行数据清洗;
[0030] 13、根据电网设备之间的连接关系对清洗后的数据进行建模;
[0031] 14、对建立的模型进行拓扑搜索分析,获取目标设备之间的拓扑关系知识图谱。
[0032] 电力网络庞大而且结构复杂,使用传统数据库进行查询操作速度极慢而且性能不佳。使用知识图谱技术可以显著提高知识检索的有效性,使检索结果更加全面、准确,它能够系统地理解用户的查询意图,直接返回准确的答案,而不是大量的搜索结果。例如,在电网系统中,若想知道一个设备的故障是否会影响到某一个关键设备,如果利用传统关系数据库,在多个表中进行查询操作,则需要事先知道两个设备之间的关系路径,查询语句的编辑难度较大,而且由于数据结构的差异,查询速度极慢。
[0033] 例如,在电网系统中,若想知道一个设备的故障是否会影响到某一个关键设备,如果利用传统关系数据库,在多个表中进行查询操作,则需要事先知道两个设备之间的关系路径,查询语句的编辑难度较大,而且由于数据结构的差异,查询速度极慢。基于某省电力公司电网数据进行一系列测试,基于电网资源模型数据,整合各个系统之间的模型关系,建立一套基于知识图谱的电网知识模型,在此模型上能够依据图论算法提供一些高级分析服务。
[0034] 在知识图谱中,利用Neo4j图数据结构的特点,采用广度优先搜索的方法进行搜索,对数据网络遍历的时间复杂度仅为O(n),只需要输入两个未知关系的设备皆可以返回它们之间的关系路径和路径上存在的其他节点。如给出两个节点V_s和V_c,本专利需要找出V_s到V_e的最短路径,广度优先搜索算法的算法流程图2所示。
[0035] 电网系统中包含着成千上万的电力设备和元件,组成了庞大且复杂的电力网络。浙江省电力公司于2016年开展了数据中台建设工作,截至2018年1月,浙江省电网在运设备总数统计如下:主网217万,配网2568万,低压设备1亿 153万套,总计1亿2983万套。数据总存储量560.48TB,其中结构化数据209.5TB,非结构化数据254.86TB,实时测量数据
72.02TB。设计并实现来集成了一种构建智能电网大数据知识图谱方法,它电网域大量设备信息以及它们之间的关系,并且基于电网域知识图谱进行网络可视化,设备及关系检索和电网拓扑分析等各种服务。
[0036] (一)、电网资源模型服务整合展示
[0037] 系统自动导入各个资源模型服务,进行设备关联关系分析展示;
[0038] 针对各项业务提供高效的数据检索功能;
[0039] 能够高效的分析设备之间的各种隐性结构关系;
[0040] (二)、电网资源数据聚类分析
[0041] 动态拟合数据对象之间的相关性。该聚类方法无需预先深入认知数据和给定聚类个数,通过对集成的各类电力数据对象进行相似度的计算,从而实现关联度分析;
[0042] 各类图论算法计算,相似度计算(将数据的聚类问题转换成网络的模块化问题)、节点强度计算(在空间聚类过程中,数据对象间的相似度越大,该节点的重要性越明显,在局部范围内具有较大的凝聚力);
[0043] 测试结果如表1所示,使用本专利知识图谱的时间性能都要优于传统关系数据库,在某些任务上,知识图谱的检索记录数量比关系数据库的检索结果更多,甚至有些检索任务无法通过关系数据库来完成。这是由于二者底层的数据结构不同,以Neo4j存储的知识图谱底层是一个高性能的图引擎,具有成熟数据库该拥有的所有特性,其将结构化的数据存储在网络上而不是表中,克服了传统关系数据库不善于处理关系网络的缺陷。对于那些关系数据库无法检索到的记录以及无法完成的任务,是因为设备节点之间的关系过于复杂或关系路径太长,而导致数据库没有足够的能力处理,这也反映了关系数据库不善于处理关系网络的问题。需要强调的是,所有数据库服务中的数据是在已知关系路径情况下进行查询的统计,否则将会消耗更多的时间。
[0044]
[0045]
[0046] 表1时间性能对比表
[0047] 由于省级电网设备数量已达亿级,数据迁移的效率和时效性是评价模型的重要指标。在实际建立电网知识图谱的过程中间,本专利测试了不同数量级的节点数分别使用传统的LOAD-CSV算法和本专利提出的Neo4j-Import两种方式转储数据的效率。
[0048] LOAD-CSV和Neo4j-Import是Neo4j提供的两种数据导入方式,适应于不同的应用场景。从图3(a)中得知,随着节点数量的增长,LOAD-CSV方法时长从1.579s增长到了534.505s,而Neo4j-Import方法时长从1.582s增长到了 15.463s。经比较后,发现在数据导入阶段,Neo4j-Import方法的效率要明显高于LOAD-CSV。观察图3(b)可以发现两种方法存在的时间差距和数据量呈正相关,从最初的-0.003s增长到了5519.042s,此处-0.003s为程序测试误差。对于实际电网设备数据而言,电网设备节点信息量会比实验中更多,且需要建立节点之间的关系,因此一个效率高的数据导入方法非常重要。在本专利中选择 Neo4j-Import来完成Neo4j图数据库的数据导入工作。导入工作结束后,电网设备知识图谱搭建完成。以该种方法搭建的电力知识图谱没有错误数据,且能实现半自动化构建知识图谱,可以节省大量人力资源,提高工作效率。
[0049] 上述实施例中的各个序号仅仅为了描述,不代表各部件的组装或使用过程中的先后顺序。
[0050] 以上所述仅为本发明的实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。