技术领域
[0001] 本申请涉及知识图谱在洪涝灾害应用领域,尤其涉及一种洪涝灾害时空过程观测知识图谱构建方法。
相关背景技术
[0002] 洪涝灾害是全球最常发生的自然灾害,造成的经济损失巨大。因此,提高洪涝灾害监测与评估的时效性和精度对于加强管理至关重要。联合国国际减灾战略(UNISDR)将自然灾害的发展过程划分为减灾、备灾、响应和恢复四个阶段。观测洪涝灾害在不同阶段可以实现及时预报、响应和评估,从而全面了解灾害情况。洪涝灾害观测需要满足瞬时变换的要
求,涉及丰富的观测手段和大量数据。这对应急管理和评估提出了更高要求。如何在不同阶段执行不同的观测任务、调度资源、数据和模型方法来实现洪涝灾害的观测至关重要。仅依靠数据驱动的深度学习技术分析大数据中的特征是不够的。基于知识驱动的知识图谱技术
可以通过知识推理发现新知识,并增加语义分析,具有解释性。因此,建立洪涝灾害时空过程的知识图谱是必要的。
[0003] 目前除了国内外机构建立的一些大型通用知识图谱以外,在一些特定领域也出现了面向领域的知识图谱,比如地学地名领域的LinkedGeoData、生物医学领域的DrugBank、中医药知识图谱等。但在自然灾害领域,大多知识图谱的研究只针对灾害事件单一要素构
建本体,分析灾害的时空演化及影响,但缺乏从观测的角度对洪涝灾害全时空过程观测的
研究,无法有效梳理洪涝灾害发生过程中可用的观测任务、观测资源和有效数据的属性和
关联关系,难以形式化地描述洪涝灾害时空过程观测的任务变化和提供知识应用服务。
具体实施方式
[0021] 为了对本申请的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本申请的具体实施方式。
[0022] 本申请的实施例提供了一种洪涝灾害时空过程观测知识图谱构建方法。
[0023] 请参考图1,图1是本申请实施例中一种洪涝灾害时空过程观测知识图谱构建方法的流程图,包括:
[0024] S1:构建洪涝灾害时空过程观测本体框架;
[0025] 具体的,确定研究对象,自顶向下地构建本体框架;参考国家/行业标准等专业领域知识和已有的上层本体,针对洪涝事件、观测任务、灾害数据、模型方法和观测资源五个核心要素划分概念层次,定义属性并分析关系,通过本体描述语言进行形式化表达,形成面向洪涝灾害时空过程观测的本体框架。
[0026] S2:构建洪涝灾害时空过程观测本体的属性;洪涝灾害时空过程观测本体包括:灾害事件子本体、观测任务子本体、灾害数据子本体、模型方法子本体以及观测资源子本体;
[0027] S3:根据属性和洪涝灾害时空过程观测本体框架进行拓扑关系构建,构建洪涝灾害时空过程观测本体之间的关系;
[0028] S4:基于OWL本体描述语言对洪涝灾害时空过程观测本体进行形式化表达;
[0029] S5:采用自下向上的方式,构建洪涝时空过程知识图谱;
[0030] S6:对洪涝时空过程观测图谱进行评估与分析。
[0031] 步骤S1包括:
[0032] S11:采取斯坦福大学提出的七步法与Protégé本体软件,从洪涝灾害时空过程中抽取灾害事件、观测任务、灾害数据、模型方法和观测资源共五个核心要素;
[0033] 将洪涝灾害时空观测过程的核心要素、时间和空间分别抽象概括成类;采用自顶向下以及自底向上混合的方式定义了具有时空属的五个类别,包括:灾害事件类、观测任务类、灾害数据类、模型方法类和观测资源类;
[0034] 具体的,根据洪涝灾害的致灾因子和孕灾环境的区别划分灾害事件类别;根据联合国国际灾害风险战略的定义划分灾害发展阶;根据阶段将观测任务划分,参照《国家自然灾害救助应急预案》,结合已有灾害数据分类的先验知识,划分灾害数据;参照当前自然灾害灾情评估模型以及专家先验知识,对模型方法层次类别进行划分;复用W3C提出的语义传感器网络本体(SSN)的平台类(Platform)和传感器类(Sensor)作为观测资源类
(Observation Resource)的子类。
[0035] S12:根据定义的五个类别以及Protégé本体软件,表示洪涝灾害时空过程观测本体;
[0036] 具体的,根据洪涝灾害的致灾因子和孕灾环境的区别,可以将其划分为溃坝洪水、冰凌洪水等九类洪水。灾害阶段可以根据联合国国际灾害风险战略的定义,将发展阶段分为减灾阶段、准备阶段、响应阶段以及恢复阶段四个阶段。根据阶段将观测任务划分为减灾阶段任务、准备阶段任务、响应阶段任务和恢复阶段任务四个子类。灾害数据的分类参照
《国家自然灾害救助应急预案》,结合已有灾害数据分类的先验知识,划分为地理数据、遥感数据、气象数据、水文数据、工程数据和社会经济数据等六个子类。模型方法可以参照当前自然灾害灾情评估模型以及专家先验知识,对层次类别进行划分,分为地理信息方法、遥感方法、水文方法、气象方法和通用方法五个子类。观测资源指在执行观测任务时可以调用的传感器和平台资源,本发明复用了W3C提出的语义传感器网络本体(Semantic Sensor
Network Ontology,SSN)的平台类(Platform)和传感器类(Sensor)来作为观测资源类
(ObservationResource)的子类。根据不同传感器的特点进一步细分为原位传感器类(In‑
situSensor)和遥感传感器类(RSSensor)。
[0037] S13:根据五个类别的时空属性,复用时间本体Time Ontology中TemporalEntity相关的类和空间本体GeoSPARQL中SpatialObject相关的类;
[0038] 具体的,灾害事件子本体、观测任务子本体、灾害数据子本体、模型方法子本体都具有时空属性。针对这些时空特征,复用了时间本体(Time Ontology)中TemporalEntity相关的类和空间本体GeoSPARQL中SpatialObject相关的类。时间本体主要通过抽象类TemporalEntity来表示,其中时间实体分为时间点Instant和时间间隔Interval两个子类。
时间本体中的核心类及其关系参考附图2。GeoSPARQL核心类及其关系参考附图3。
[0039] S14:定义多个枚举类描述洪涝灾害时空过程观测本体,所述枚举类包括:洪涝灾害的空间尺度、数据格式、轨道类型、卫星平台用途、卫星平台用户以及气象站类型。
[0040] 具体的,洪涝灾害的空间尺度分为城市群尺度、城市尺度以及街区尺度,数据格式分为数值格式、栅格格式、文字报告格式、序列数据格式、矢量数据格式,轨道类型分为椭圆轨道、地球同步轨道以及近地轨道,卫星平台用途分为通讯、对地观测以及科技发展,卫星平台用户分成商业用户、政府用户以及军事用户,气象站类型分为基准站、基本站以及一般站。
[0041] 洪涝灾害时空过程观测本体OObservation,表示如下:
[0042] OObservation={ODisasterEvent,OObservationTask,ODisasterData,OMethod,OObservationResource,R}[0043] 其中,ODisasterEvent表示灾害事件子本体,OObservationTask表示观测任务子本体,ODisasterData表示灾害数据子本体,OMethod表示模型方法子本体,OObservationResource表示观测资源子本体,R表示这五个子本体之间的关联关系。
[0044] 步骤S2包括:
[0045] 具体的,属性是对本体中概念的进一步描述。每个概念属性都包含了定义域(Domain)和值域(Range),其中定义域表述属性所属的类别,值域表示属性的取值范围。属性可以分为数据属性(DataProperty)和对象属性(ObjectProperty)两种类型。数据属性将
实例与具体文字或数值相关联,而对象属性将实例与实例相关联,描述类与类之间的关系。
[0046] S21:通过基本信息和关系属性,定义灾害事件子本体的属性;所述基本信息包括:标识符、名称、描述以及灾害类型;所述关系属性包括:开始时间、结束时间以及发生区域;
[0047] 具体的,灾害事件具有明显的时空特征,因此针对灾害事件子本体,除了描述灾害事件的标识符、名称、描述、灾害类型等基本信息,本发明还描述其时空信息,如开始时间、结束时间、发生区域等。其中基本信息通过数据属性表示,而时空信息则通过关系属性来表达。
[0048] S22:定义观测任务子本体的数据属性以及对象属性;所述观测任务子本体的数据属性包括:任务标识符、任务名称以及任务描述;所述观测任务子本体的对象属性包括:任务对应阶段、任务对应事件、任务所需灾害数据、任务所需使用的模型方法、任务所需的观测资料以及任务的空间尺度;
[0049] 具体的,观测任务是洪涝灾害时空过程观测本体的核心要素,它将灾害事件与灾害数据、模型方法和观测资源关联起来,用以完成具体的感知需求,观测任务的数据属性有任务标识符、任务名称、任务描述,对象属性有任务对应阶段、任务对应事件、任务所需灾害数据、任务所需使用的模型方法、任务所需的观测资料以及任务的空间尺度。
[0050] S23:定义灾害数据子本体的数据属性和对象属性;灾害数据子本体的数据属性包括:数据标识符、数据名称、数据描述、数据源、在线地址、文件格式、数据单位、空间参考系、空间分辨率、数据时间分辨率、数据波段数量、数据行列数;灾害数据子本体的对象属性包括:数据描述开始日期以及结束日期、数据格式类型以及数据描述空间区域;
[0051] 具体的,灾害数据的类型和内容多样复杂,包括地理数据、遥感数据、气象数据、水文数据、工程数据和社会经济数据等六个子类,为了详尽地描述其特征,本发明定义了14个数据属性和4个对象属性,可以根据不同的数据类型选择使用,对其属性的定义从数据源、数据的格式等详细数据信息,到数据的时空信息。14个数据属性是数据标识符、数据名称、数据描述、数据源、在线地址、文件格式、数据单位、空间参考系(针对空间数据)、空间分辨率(针对空间数据)、数据时间分辨率(针对时序数据)、数据波段数量(针对栅格数据)、数据行列数(针对栅格数据)、数据其他补充信息;对象属性有数据描述开始日期以及结束日期、数据格式类型以及数据描述空间区域。
[0052] S24:定义模型方法子本体的数据属性和对象属性;所述模型方法子本体的数据属性包括:方法标识符、方法名称、方法功能描述、方法输入数据以及方法输出数据;所述模型方法子本体的对象属性包括:输入和输出数据类型、输入输出数据格式、方法的验证区域、方法所适用灾害发生阶段;
[0053] 具体的,模型方法的数据属性有方法标识符、方法名称、方法功能描述、方法输入数据以及输出数据的详细描述,对象属性有输入和输出数据类型、输入输出数据格式、方法的验证区域、方法所适用灾害发生阶段。
[0054] 具体的,模型方法可以对已有的灾害数据进一步处理,帮助实现洪涝灾害的时空过程观测任务。针对模型方法,不仅描述其标识符、名称、功能说明等基本信息,且进一步描述其输入/输出的数据内容、格式以及其他关联信息,以便根据需求实现快速查找。
[0055] S25:定义观测资源子本体的属性;观测资源子本体的属性包括:模型方法的输入输出数据格式以及详细信息、模型方法的时空信息以及模型方法对应的灾害发展阶段。
[0056] 在灾害数据不足以完成观测任务时,可以调用观测资源进行观测。观测资源包括观测平台、传感器两个子类,这两个子类型属性特征差别较大,因此分别定义其属性特征,包括其模型方法的输入输出数据格式以及详细信息、模型方法的时空信息以及模型方法对
应的灾害发展阶段。
[0057] 具体的,观测资源中platform子类的数据属性有观测资源平台标识符、平台简写全名字、所属机构、所属国家、卫星平台轨道类型、卫星平台使用目标,对象属性有卫星平台使用目标、用户类型以及发射日期。Sensor子类的数据类型有传感器标识符、简称与全称、观测目标、类型描述、所属机构以及所属国家、观测要素、扫描技术(遥感传感器)、空间分辨率以及最优空间分辨率(遥感传感器)、重访周期(原位传感器)、传感器经纬度以及海拔(原位传感器)、站点类型(原位传感器),对象属性有观测资源观测到的灾害数据、传感器开始使用时间以及停止使用时间、缺测时段以及传感器空间位置表达(原位传感器)。
[0058] 具体的,考虑到各个本体的核心要素的时间关系和空间关系,以及概念之间的语义关系,这些语义关系使得不同类的实体之间紧密关联,是知识图谱的关联检索和辅助决
策的有力支撑。
[0059] 步骤S3包括:洪涝灾害时空过程观测本体包括多个实体;对同一个类的实体之间的关联关系进行定义,包括:同类实体间时间、空间、以及各个类实体之间的语义关联关系;
[0060] S31:从时间上进行定义:复用W3C定义的时间本体;
[0061] 具体的,对时间关系的描述也在其定义的时间关系上进行归纳总结;其中有Before(A在B之前发生),After(A在B之后发生)Meet(A结束的同时B开始)Overlap(A还没结
束B开始),Start(A与B同时开始),End(A与B同时结束),Durning(A在B期间发生),Contain(A的时间进程包含B),Equal(A与B同时开始同时结束);
[0062] S32:从空间上进行定义:空间关系包括:拓扑关系、距离关系和方位关系;所述拓扑关系沿用了GeoSPARQL定义的简单要素拓扑关系;所述距离关系包括:远距离关系、近距离关系和适中距离关系;
[0063] 具体的,空间关系是相对的,涉及到两个地理空间实体之间的比较。其中拓扑关系沿用了GeoSPARQL定义的简单要素拓扑关系,可参考附图4;距离关系包括远距离关系、近距离关系和适中距离关系等。
[0064] S33:从各个类实体之间的语义关联关系进行定义:语义关联关系包括:灾害事件之间的群发和并发关系;观测任务之间的前继、后继关系和并行关系;灾害数据之间的实践重合关系、空间有重合关系;模型方法的输入输出数据一致关系;观测资源的有相同观测要素关系、相同观测值关系、观测区域重合关系、观测时段一致关系。
[0065] 具体的,以上就是同类之间的关联关系,其次是不同类之间的语义关联关系,分成单跳与多跳两种,单跳关系指直接关联的两个类的关系。在洪涝灾害时空过程观测本体中核心要素之间的单跳关系包括下列几种,参考附图4。
[0066] 具体的,对不同类的实体之间的单跳关系进行定义,具体如下:定义洪涝灾害时空过程观测本体之间的单跳关系;在洪涝灾害时空过程观测本体中,定义互逆关系hasTasks和isTaskOf来关联灾害事件和观测任务。
[0067] 具体的,河南特大暴雨洪涝灾害事件中,在响应阶段需要观测日降雨量,则可以对应任务实例“响应期‑城市群‑日降雨量(mm)”,可以通过关系hasTasks和isTaskOf将其两者关联起来:
[0068]
[0069] 定义观测任务和灾害数据之间的互逆关系为needData和canBeUsedIn。
[0070] 具 体 的 ,互 逆 关 系 为 : 和比如,当观测指标为日降雨量时,可以直
接使用现有的降雨产品数据CHIRPS日降雨量数据集以获得所需数据。
[0071] 定义观测任务与模型方法之间的关系为useMethod;
[0072] 具体的, 比如,当该空间分辨率不满足观测任务需求时,可以通过“插值分析”方法对原数据集进行插值以获得目标数据集。
[0073] 定义观测任务与观测资源之间的关系为useObsResource;
[0074] 具体的, 比如当观测任务需要观测“实时水位”时,则可以直接调用水文站以获取目标水体的水位。
[0075] 定义模型方法和灾害数据之间的关系为输入MethodInput关系和输出MethodOutput关系;当没有灾害数据可以直接满足观测任务时,使用模型方法计算得到灾
害数据;
[0076] 具体的,输入MethodInput关系和输出MethodOuput关系表示如下:比如将空间分辨率为
0.05°×0.05°的CHIRPS日降雨量数据集输入“插值分析”方法,经过插值计算,可以得到空间分辨率更高的日降雨量数据集。
[0077] 定义观测资源和灾害数据之间的关系为ObservedData;使用观测资源来观测得到灾害数据;
[0078] 具体的,可以通过高分三号卫星搭载的传感器C‑SAR观测得到目标区域的雷达数据。
[0079] 定义核心要素和时间实体之间的关系,如下:通过时间语义关系与时间实体类TemporalEntity相关联;定义关系begin和关系end来表示灾害事件、观测任务和灾害数据
的开始结束时间,定义关系usageFrom和usageTo来表示观测资源的使用期限;
[0080] 定义核心要素和空间实体之间的关系,如下:定义空间语义关系geoFeature表示灾害事件发生的地理空间范围、灾害数据描述的地理空间范围,将灾害事件和灾害数据关
联到空间对象SpatialObject类;定义空间语义关系validationArea将模型方法类和空间
对象SpatialObject类关联;
[0081] 具体的,部分模型方法在地区进行过实验验证,这类方法往往具有空间异质性,在其验证区域上适用性更高。通过构建类和类之间的关系,明确了各个要素类之间的关联,为后续要素之间的关联查询提供了数据支撑。
[0082] 对不同类的实体之间的多跳关系进行定义,具体如下:
[0083] 定义观测任务到灾害数据的多跳关系;
[0084] 具体的,观测任务实例会给出观测要素、时间分辨率和空间分辨率等具体的观测需求,根据这些观测需求,可以通过关系needData筛选获取灾害数据,但当现有的灾害数据中缺乏符合观测需求的数据时,可以通过相关的模型方法计算得出,这就需要定义“观测任务‑模型方法‑灾害数据”或者“观测任务‑观测数据‑灾害数据”的多跳关系。
[0085] 定义灾害事件到模型方法的多跳关系以及灾害事件到观测资源的多跳关系;
[0086] 具体的,从灾害事件到模型方法或观测资源,可以将观测任务作为中间节点进而查询相关的模型方法,其两跳关系为“灾害事件‑观测任务‑模型方法”,或通过观测任务节点来查询相关的观测资源,其相应的两跳关系为“灾害事件‑观测任务‑观测资源”。
[0087] 定义灾害事件到灾害数据的多跳关系;
[0088] 具体的,从灾害事件到灾害数据,可以将观测任务作为中间节点,通过两跳关系“灾害事件‑观测任务‑灾害事件”来获取相关灾害数据节点;也可以通过观测任务节点,结合观测任务到灾害数据的两跳关系,形成三跳关系“灾害事件‑观测任务‑模型方法‑灾害数据”或“灾害事件‑观测任务‑观测资源‑灾害数据”。
[0089] 具体的,在关联查询时,有时还需通过多跳关系间接地关联查询,基于洪涝灾害时空过程观测知识图谱中的单跳关系,可以形成一些常用的多跳关系链。
[0090] 步骤S4包括:
[0091] 具体的,采用由斯坦福大学研发的开源本体建模工具软件Protégé,对洪涝灾害时空过程观测本体和知识库进行编辑和管理,使用Protégé构建类的层次、数据属性和关系属性结果参考附图5。
[0092] 采用OWL本体描述语言,从类、属性以及关系对洪涝灾害时空过程观测本体进行形式化表达。
[0093] 具体的,属性的形式化表达,以洪涝灾害事件类的部分数据属性和对象属性为例:在OWL中通过DataProperty定义数据属性,用于建立Class元素和基础数据类型之间的关
系,取值范围为XML Schema中的基础数据类型;通过ObjectProperty定义对象属性,用以建立两个类之间的关系。
[0094] 具体的,本体时空特征形式化表达,以灾害数据“中国区域地面气象要素驱动数据集(1979‑2018)”为示例灾害数据“中国区域地面气象要素驱动数据集(1979‑2018)”实例中,该数据的空间区域为70‑140°E、15‑55°N的矩形区域,则可以直接通过Geometry的子类Polygon类创建实例,并通过它的asWKT属性来记录该矩形的坐标,对于时间点,通过Instant类表达,如灾害数据“中国区域地面气象要素驱动数据集(1979‑2018)”实例的数据开始日期为1979年1月1日,则可以创建Instant类的实例;对于时间间隔,则通过Interval类表达。
[0095] 具体的,需注意的是:本发明通过GeoSPARQL本体来表示地理空间实体,对于有地理语义的地理要素可以创建Feature类的实例,对于简单的空间几何要素则可以创建
Geometry类及其子类的实例;涉及的时间概念通过OWL时间本体描述。对于时间点,通过
Instant类表达,对于时间间隔,则通过Interval类表达。
[0096] 步骤S5包括:
[0097] S51:获取观测数据,所述观测数据包括:灾害事件数据、观测任务数据、灾害数据、模型方法数据以及观测资源数据;
[0098] 对观测数据进行预处理;所述预处理包括:异常值处理、缺失值处理、数据合并、清洗和类型转换;
[0099] 具体的,本发明选取百度百科、央视新闻、国家减灾网的灾害事件,先通过网络爬虫技术结合API获取数据,然后对数据进行异常值、缺失值处理,对同一个灾害事件的信息进行融合;针对观测任务数据,本发明结合城市暴雨内涝感知指标集制定任务模板,从中抽取任务三元组。针对灾害数据,通过网络爬虫去地理空间数据云网站等领域数据集网站获取元数据信息。针对模型方法数据,需要获取模型的名称、功能描述以及输入输出的数据等信息。本发明选取知网中关于洪涝灾害的文献作为数据源,并通过爬虫技术获取文献的摘
要和标题信息,然后进行数据清洗。针对观测资源数据,本发明使用世界气象组织的OSCAR(Observing Systems Capability Analysis and Review Tool)网站提供的观测资源目录
和地球观测卫星委员会数据库(CEOSDATABASE)作为洪涝灾害观测资源数据源,将这些数据
源提供的数据为结构化数据,并进行数据合并、清洗和类型转换等预处理。
[0100] S52:对观测数据进行知识抽取,生成观测知识;
[0101] S53:存储观测知识;
[0102] 具体的,采用面向RDF图存储的GraphDB数据库来存储知识图谱;
[0103] 具体的,写入GraphDB数据库之后可以看到图数据库的概览、类层次结构图和图节点可视化,以及使用SPARQL进行访问、操作,对灾害数据本身使用空间数据库以及地理数据库进行存储。
[0104] 具体的,本发明在洪涝灾害时空过程本体模型框架下抽取了三元组构建知识图谱,采用面向RDF图存储的GraphDB数据库来存储知识图谱,写入数据库之后可以看到图数
据库的概览、类层次结构图和图节点可视化,以及使用SPARQL进行访问、操作。而对灾害数据而言,其元数据可以通过“实体—属性—属性值”的方式直接表示在三元组中,便于数据的检索和查询,而数据本身根据其格式特点选择关系数据库和地理数据库进行存储。对于
基础地理数据(如行政区规划数据、数字高程模型数据、居民点数据)和遥感数据(如灾区光学遥感影像、土地分类数据)采用PostGIS、ESRI Geodatabase空间数据库存储。对于社会经济数据(如政府提供的统计年鉴等)采用关系数据库PostgreSQL进行存储。
[0105] 步骤S52包括:
[0106] S52a:对观测数据进行BIO格式标注;
[0107] 通过BiLSTM与CRF模型抽取观测数据的灾害事件名称、时间和地区;
[0108] 具体的,语料标注本发明使用BIO标注法来标注,其中Begin(B)、Inside(I)、Other(O),灾害事件标注其名称、时间、地区,灾害事件语料库使用人民日报新闻语料构建。灾害事件的相关模型方法也采用BIO标注其相关实体,语料库选用知网相关文献摘要。
[0109] S52b:BiLSTM‑CRF序列标注;
[0110] 具体的,使用BiLSTM双向长短期记忆网络,根据文本序列中某一字符前后的字符进行判断,计算出该字符属于各个标签的概率值,并通过softmax函数计算出概率最大的标签作为该字符的标签,使用CRF模型来学习所得的实体标签符合命名实体字符之间的依赖
关系,解决BiLSTM可能造成的标注偏置问题。其模型结构示意图可参考附图6。计算文本中各单字被标注为相应标记的概率的公式如下所示:
[0111]
[0112] 式中,x为一个文本序列,y为标注序列,z(x)是一个在所有状态序列上的归一化因子,tk和sk是模型的特征函数,λk和μk是针对特征函数学习得到的权值。CRF实体识别就是计算文本序列中标注y的概率值,最终得到的标注序列满足max P(y|x)条件概率最大值。
[0113] S52c:关系抽取;
[0114] 具体的,将实体属性的抽取可以转化为关系抽取的问题,本发明利用HanLP的依存句法分析来对百度新闻、国家减灾网的新闻进行抽取,得出灾害事件属性信息。
[0115] 步骤S6包括:
[0116] 采取OntoQA评估洪涝灾害时空过程观测本体在洪涝灾害领域的性能与实用性。
[0117] 具体的,OntoQA将评估标准分为两个:模式评估和实例评估。前者评估本体设计及其丰富知识表示的潜力,后者评估实例数据在本体中的位置,以及有效地使用本体来表示在本体中建模的知识。并结合现有领域知识图谱进行多维度对比。
[0118] 具体的,本发明选取的评估方法是:采用本体评估指标体系评估该本体质量,结合与现有领域知识谱进行多维度对比,具体过程如下:
[0119] 采取OntoQA评估本体在洪涝灾害领域的性能与实用性,OntoQA将评估标准分为两个方面:模式评估和实例评估。前者评估本体设计及其丰富知识表示的潜力,后者评估实例数据在本体中的位置,以及有效地使用本体来表示在本体中建模的知识。评估指标包括:
[0120] 关系丰富度,评估关系的多样性以及在本体中的定位:
[0121]
[0122] 其中P表示一个模式中非继承关系的数量,SC表示子类的数量。RR为一个百分比,值越接近于0,表示该模式的大多数关系是继承关系,关系越单一;该值越接近于1,表示该模式的大多数关系是非继承关系,关系类型越丰富。
[0123] 属性丰富度,评估本体设计质量和实例相关数据的信息量:
[0124]
[0125] 式中att表示所有类的属性数量,C表示类的数量。AR值为一个实数,表示每个类中属性的平均数量,该值可以深入了解本体中类的知识有多少。AR值高的本体中每个类平均具有更多的属性描述。
[0126] 继承丰富度,评估本体继承树中不同层次之间的信息分布:
[0127]
[0128] IR值为一个实数,表示每个类的子类的平均数量。较高的IR值反映出本体是水平的,代表了广泛的一般知识;较低的IR值反映出本体是垂直的,代表了详细的领域知识。
[0129] 平均实例,该指标表示了实例数量与类数量的比较:
[0130]
[0131] I表示实例的数量。AP值为一个实数,表示平均每个类所对应的实例数量。AP值越大,则表示该知识库中的实例越足以表示丰富的知识.。
[0132] 内聚度,表示实例中独立连接子图的数量:
[0133] Coh=|SCC| (6)
[0134] Coh值为一个整数,表示该知识库的图的独立连接组件(SCC)的数量。Coh值为1则表明知识库中的所有数据都是连接的,并且可以使用语义关联发现算法,而不必担心忽略
了知识库的某部分。
[0135] 可读性,表示本体中存在人类可读描述:
[0136] Rd=|rdfs:comment|+|rdfs:label| (7)
[0137] 式中,Rd值表示可读性,取值为整数,表示当前类实例的人类可读信息的可用性。
[0138] 本体评估:与现有相关知识图谱对比,在时空变化、时空关联检索、观测过程、数据规模和全面性四个层面进行评估,看是否能为灾害事件的观测提供有力的辅助决策支撑。
[0139] 观测数据获取以及知识抽取:
[0140] 针对灾害事件数据,以国家减灾网、百度百科和央视新闻网为主要数据源,并以全球灾害数据平台提供的灾害数据为辅进行补充。从国家减灾网获取到自2018年3月至2020年9月的洪涝灾害事件报道共132条,从百度百科和央视新闻网获取到有记录的洪涝灾害事
件报道184条。对获取到的316条洪涝灾害事件报道文本,以报道标题为洪涝灾害名称,以灾害报道作为灾害的描述属性,通过现有的中文命名实体识别工具HanLP API进行命名实体
识别,获取洪涝灾害事件的时间实体和空间实体,并通过规则将时间实体转换为
“YYYYMMDD”的格式,将空间实体转换为相应的行政区划代码,完成洪涝灾害事件时空属性的提取。经过对相同时空范围的洪涝灾害事件合并之后,得到洪涝灾害事件记录261条;
[0141] 针对观测任务的数据,参考城市暴雨内涝感知指标集对洪涝灾害定义任务模板,明确每个阶段和每个空间尺度需要观测的指标和观测要求,共定义观测任务实例132条。针对洪涝灾害数据,分别从专业网站数据平台获取六类灾害数据。主要数据来源包括地理空
间数据云平台、国家地球系统科学数据中心、中国科学院资源环境科学与数据中心、地理遥感生态网、中国气象数据网、国家青藏高原科学数据中心等网站。通过对各大数据网站中半结构化的数据进行检索汇总,获取相关的灾害数据集91条,包含数据名称、数据格式、数据来源、数据在线地址等元数据信息,在此基础上人工将其划分为不同的类别,补全其数据类型信息。
[0142] 针对洪涝灾害模型方法数据,主要通过网络爬虫技术从中国知网中获取相关的文献摘要。其中以“洪涝监测”为主题的文献有208篇,以“洪涝灾害应急”为主题的文献有513篇,以“洪涝模型”为主题的文献有203篇,以“洪涝方法”为主题的文献共有155篇,共计获取文献摘要1079篇。针对已获取的文献摘要,通过BiLSTM‑CRF方法进行实体提取得到模型方法实体名称。在此基础上,基于规则的方法,结合依存句法分析抽取属性关系,以获取模型方法的功能描述和输入/输出数据的类型。
[0143] 针对洪涝灾害观测资源数据,根据观测资源的不同类别从多个渠道获取数据。参照SSN本体,将观测资源划分为观测资源平台和传感器两个子类。传感器子类细分为原位传感器类和遥感传感器类。洪涝灾害观测相关的原位传感器主要包括气象观测站和水文观测
站,本发明分别从中国气象数据网和全国水雨情信息网站获取气象观测站点和水文观测站
点的地理位置和属性信息。遥感传感器及相应的卫星平台数据主要从WMO OSCAR网站提供
的观测资源目录和地球观测卫星委员会数据库(CEOSDATABASE)中获取,并进行筛选、去重
和清洗。汇总融合了WMO OSCAR网站和CEOSDATABASE中的遥感传感器资源282条记录,收集
全国气象观测站和水文观测站共2170条记录。
[0144] 除了五个子本体内部的属性关系以外,需要进一步获取子本体之间的关联关系,包括灾害事件和观测任务之间的hasTasks关系、观测任务和灾害数据之间的needData关
系、观测任务和观测资源之间的useObsResource关系、观测任务和模型方法之间的
useMethod关系、模型方法和数据之间的methodInput/methodOutput关系以及观测资源和
部分灾害数据之间的observedData关系。总计构成图谱主要节点以及关系大致如下:
[0145]
[0146]
[0147] 观测知识存储,具体的如下:
[0148] 对于抽取后的知识三元组,采用图数据库进行存储。图数据库将知识三元组利用图模型来存储,通过节点和边的形式直观地展现丰富的数据信息。GraphDB是Ontotext公司开发的一个可扩展、高性能的三元组数据库。GraphDB完全兼容RDF 1.1和SPARQL 1.1,具有RDF‑Star和SPARQL‑Star扩展,完全符合标准规则集RDFS、OWL 2推理,也支持自定义推理和一致性检查规则集。并且GraphDB完全兼容RDF4J框架,与RDF4J无缝对接,也可以用Java轻松部署。于是选择基于RDF图的图数据库GraphDB来存储洪涝灾害时空过程观测知识图谱。
[0149] RDF语法可以用多种具体的格式编写,这些格式称为RDF序列化格式。最常用的序列化格式是Turtle、TriG、N‑Triples、N‑Quads和JSON‑LD。Turtle格式允许以紧凑和自然的文本形式编写RDF图,并带有常用用法模式和数据类型的缩写。Turtle提供了相当程度的N‑Triples格式以及SPARQL和W3C推荐的三元组模型语法的兼容。
[0150] 将构建的洪涝灾害时空过程观测本体模型从Protégé中导出为Turtle格式,首先在GraphDB Desktop中创建一个存储库;然后在获取实体、关系和相应的属性之后,通过
Python语言编写脚本,将其组织为Turtle形式的RDF数据,最后通过GraphDB Workbench的
导入工具导入到数据库中。在GraphDB中的Explore工具栏中,可以看到图数据库的概览、类层次结构图和图节点可视化,还可以在SPARQL工具页面中进行图谱查询中,作为知识图谱
的数据层。在GraphDB中存储的三元组数量共有193020条,其中显式的三元组声明有106349条,通过GraphDB推理得到的隐式三元组声明有86671条。
[0151] 洪涝时空过程观测图谱的评估与分析,具体如下:
[0152] 本发明选取的评估方法是:采用本体评估指标体系评估该本体质量,结合与现有知识谱进行多维度对比。具体过程如下:
[0153] 本体评估:采取OntoQA评估本体在洪涝灾害领域的性能与实用性,在洪涝灾害时空过程观测本体中,共有36个类(C),其中子类(SC)有30个,74个属性(Att),32个关系(P),
7060个实例(I)。根据OntoQA指标体系进行计算,本体用户或本体开发人员可以用它来确定洪涝灾害时空过程观测本体的质量,评估结果如下:
[0154]
[0155] 结合现有图谱进行优势评估,如下:
[0156] 与现有的相关知识图谱和领域知识库对比,构建的洪涝灾害时空过程观测知识图谱能够表示清晰地洪涝灾害事件、观测任务、灾害数据、模型方法和观测资源等观测过程中的核心要素,而且充分表示了其中的时空信息。
[0157] 在灾害事件表示方面,现有的灾害知识图谱大部分从灾害理论角度出发,描述了灾害事件的致灾因子、孕灾环境、承灾载体等信息,而较少描述灾害事件的时空变化,并且大多数灾害知识图谱或本体并不支持时空关联检索。
[0158] 在灾害观测方面,现有的知识图谱基本不能描述观测任务和观测资源信息,而是以灾害事件属性的形式表现事件的某些观测值,如淹没面积、经济损失等。在描述观测资源方面,SOCA本体具有强大的观测资源关联检索能力,能够根据观测的时空范围、观测任务、观测数据和观测能力等角度进行关联检索;WMO的OSCAR传感器目录和CEOSDATABASE的传感
器目录能够提供常规的传感器能力查询,但无法做到关联查询。而SOCA本体、OSCAR目录和CEOS目录均是针对观测资源的领域知识库,无法描述灾害事件本身的信息。
[0159] 在灾害数据和相关模型方法方面,现有的大多数领域知识库缺乏对该方面信息的描述。
[0160] 综上所述,本发明构建的洪涝灾害时空过程观测知识图谱不仅表述了洪涝灾害事件的时空属性,还根据洪涝灾害的时空变化制定不同的观测任务,统筹观测资源、灾害数据和模型方法,能够为洪涝灾害事件的观测提供有力的辅助决策支撑。
[0161] 本发明以自顶向下和自底向上相结合的形式构建了洪涝灾害时空过程观测知识图谱,并通过商业图数据库GraphDB进行存储。该知识图谱共包含193020条知识三元组,其中显式的三元组声明有106349条,通过推理得到的隐式三元组声明有86671条,采用本体评估和对比分析的方法评价了知识图谱的质量和能力,表明本发明构建的洪涝灾害时空过程
观测知识图谱的可靠性和充分的知识表达能力。
[0162] 专利针对洪涝灾害领域知识来源丰富、数据来源的不确定性、洪涝灾害时空观测过程中资源管理等问题提出了一种从观测角度构建洪涝时空过程图谱的方法。同时,目前
尚未有类似的洪涝灾害时空过程观测知识图谱的研究。
[0163] 具体的,OWL(Ontology Wed Language,网络本体语言)本体描述语言。OntoQA(Metric‑Based Ontology Quality Analysis,基于度量的本体质量分析)。W3C(World
Wide Web Consortium,简称W3C)。GeoSPARQL(RDF数据的地理查询语言)。条件随机场
(CRF)。BiLSTM(双向长短期记忆神经网络)。