首页 / 知识图谱剪枝方法及装置

知识图谱剪枝方法及装置实质审查 发明

技术领域

[0001] 本发明涉及大数据技术领域,尤其涉及一种知识图谱剪枝方法及装置。

相关背景技术

[0002] 随着银行电子化的发展,数据电子化、信息化后,业务的发展积累大量数据,并且每日以TB级别数据进行增长。知识图谱在促进数据智能化方面起着极其重要的作用,大数据量构建的知识图谱包含数亿级的实体和数百亿条关系。某些业务系统(比如风险控制)对知识图谱查询的实时性有着较高的需求,大规模知识图谱的查询相对较慢,不能满足业务系统实时性要求。

具体实施方式

[0020] 为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
[0021] 在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
[0022] 随着知识图谱技术的快速发展,目前各个业务场景经常能形成很多大规模的知识图谱,包括很多冗余数据,从而使得对知识图谱进行检索时效率非常低,为此,本发明实施例提出一种知识图谱剪枝方法,缩小知识图谱的规模。
[0023] 图1为本发明实施例中知识图谱剪枝方法的流程图,如图1所示,该方法包括:
[0024] 步骤101,基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;
[0025] 步骤102,将剪枝后的知识图谱拆成多个子图谱;
[0026] 步骤103,生成每个子图谱的索引。
[0027] 在本发明实施例中,通过剪枝、拆分、生成索引,可迅速地将一个知识图谱形成几个子图谱,便于后续进行查询。
[0028] 具体实施时,在步骤101中,剪枝条件包括实体剪枝条件和实体关系剪枝条件,其中,具体剪枝条件可以根据不同的业务场景自定义,例如对于金融知识图谱来说,实体剪枝条件包括去掉垮掉的企业、注销的账户、无效的交易对应的实体等。
[0029] 在步骤102中,将剪枝后的知识图谱拆成多个子图谱,目的是构建闭环的子图谱,在一实施例中,将剪枝后的知识图谱拆成多个子图谱,包括:
[0030] 从剪枝后的知识图谱中查找实体关系能够形成闭环的实体,生成不同的子图谱。
[0031] 在上述实施例中,实体关系能够形成闭环的实体形成的子图谱之前是没有连接的,各自形成闭环。
[0032] 在一实施例中,生成每个子图谱的索引,包括:
[0033] 根据每个子图谱中实体和实体关系的特征信息,确定每个子图谱的关键词和唯一标识;
[0034] 基于每个子图谱的关键词和唯一标识,生成每个子图谱的索引。
[0035] 在上述实施例中,例如一个子图谱中的实体均为企业风险控制相关的,那么确定该子图谱的关键词为风险控制,唯一标识为B1,那么该子图谱的索引为“风险控制》B1”;例如一个子图谱中的实体均为企业信息审核相关的,那么确定该子图谱的关键词为企业信息审核,唯一标识为B2,那么该子图谱的索引为“企业信息审核》B2”。
[0036] 在一实施例中,如图2所示的本发明实施例中知识图谱剪枝方法的另一流程图,所述方法还包括:
[0037] 在获得查询请求后,基于查询请求中的关键词从多个子图谱中查询获得目标子图谱的索引。
[0038] 在上述实施例中,查询请求中包括相关的关键词,在接收到查询请求后,先对子图谱的关键与查询请求中的关键词进行匹配,找到匹配度最高的关键词对应的子图谱,确定为目标子图谱,获得目标子图谱的索引,之后,可从目标子图谱中进行后续查询工作,想对于从规模庞大的知识图谱中查询来说,从一个规模小的目标子图谱中国查询将节约大量时间,大大提高查询效率。
[0039] 综上所述,在本发明实施例提出的方法中,基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;将剪枝后的知识图谱拆成多个子图谱;生成每个子图谱的索引。在上述实施例中,通过剪枝、拆分、生成索引,可迅速地将一个知识图谱形成几个子图谱,便于后续进行查询。
[0040] 本发明实施例还提出一种知识图谱剪枝装置,其原理与知识图谱剪枝方法类似,这里不再赘述。
[0041] 图3为本发明实施例中知识图谱剪枝装置的示意图,如图3所示,该装置包括:
[0042] 剪枝模块301,用于基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;
[0043] 拆分模块302,用于将剪枝后的知识图谱拆成多个子图谱;
[0044] 索引生成模块303,用于生成每个子图谱的索引。
[0045] 在一实施例中,拆分模块302具体用于:
[0046] 从剪枝后的知识图谱中查找实体关系能够形成闭环的实体,生成不同的子图谱。
[0047] 在一实施例中,索引生成模块303具体用于:
[0048] 根据每个子图谱中实体和实体关系的特征信息,确定每个子图谱的关键词和唯一标识;
[0049] 基于每个子图谱的关键词和唯一标识,生成每个子图谱的索引。
[0050] 在一实施例中,如图4所述的本发明实施例中知识图谱剪枝装置另一示意图,所述装置还包括查询模块304,用于:
[0051] 在获得查询请求后,基于查询请求中的关键词从多个子图谱中查询获得目标子图谱的索引。
[0052] 综上所述,在本发明实施例提出的装置中,基于剪枝条件对知识图谱进行剪枝,获得剪枝后的知识图谱;将剪枝后的知识图谱拆成多个子图谱;生成每个子图谱的索引。在上述实施例中,通过剪枝、拆分、生成索引,可迅速地将一个知识图谱形成几个子图谱,便于后续进行查询。
[0053] 本申请的实施例还提供一种计算机设备,图5为本发明实施例中计算机设备的示意图,该计算机设备能够实现上述实施例中的知识图谱剪枝方法中全部步骤,所述计算机设备具体包括如下内容:
[0054] 处理器(processor)501、存储器(memory)502、通信接口(Communications Interface)503和通信总线504;
[0055] 其中,所述处理器501、存储器502、通信接口503通过所述通信总线504完成相互间的通信;所述通信接口503用于实现服务器端设备、检测设备以及用户端设备等相关设备之间的信息传输;
[0056] 所述处理器501用于调用所述存储器502中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的知识图谱剪枝方法中的全部步骤。
[0057] 本申请的实施例还提供一种计算机可读存储介质,能够实现上述实施例中的知识图谱剪枝方法中全部步骤,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的知识图谱剪枝方法的全部步骤。
[0058] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0059] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0060] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0061] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0062] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页
相关技术
图谱剪枝相关技术
方法装置相关技术
丁平发明人的其他相关专利技术