首页 / 一种基于大数据的地质灾害预测方法、装置、设备及介质

一种基于大数据的地质灾害预测方法、装置、设备及介质公开 发明

技术领域

[0001] 本申请涉及地质灾害预测技术领域,具体涉及一种基于大数据的地质灾害预测方法、装置、设备及介质。

相关背景技术

[0002] 地质灾害监测预警作为监测信息的重要组成部分,是信息化建设不可或缺的内容,其社会价值和经济效益无可估量。随着地质环境信息化建设和云平台建设的不断深入,各地地质灾害监控传感器的布设和监测数据量也在高速膨胀。
[0003] 传统的监测方式是在地质灾害多发区域布设灾害监测点,通过监测终端、传感器、摄像头等设备,采用GPS、嵌入式软硬件、传感器、多媒体等技术对监测数据进行采集,内容包括地表位移、深部位移、裂缝位移、雨量、水位、应力、渗压(地下水)以及视频监测/监控数据,还包括群测群防监测数据及巡查报告,不仅监测范围非常小,预警判断困难,且单一种类的传感器数据很难反映致灾因子的变化,严重影响地质灾害监测预警的准确性和及时性。
[0004] 因此,急需提供一种地质灾害预测方法对整个监控区域的地质灾害预警预测计算。

具体实施方式

[0059] 为了使本领域的技术人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述,本部分的描述仅是示范性和解释性,不应对本申请的保护范围有任何的限制作用,具体来说,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0060] 需要说明的是,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0061] 为了方便对本申请的理解,首先给出相关技术的简要介绍:
[0062] 山区地质和地理环境复杂,滑坡、泥石流、地面塌陷、地面沉降是地质灾害的主要类型。其中,滑坡、泥石流灾害点多面广、活动强烈、突发性强,是造成人民生命财产损失、制约经济社会发展的主要灾种,也是地质灾害防治的主要对象。传统的依靠传感器监测的方式主要面临以下几点困难:
[0063] (1)监测范围非常小
[0064] 一组地质传感器能够监测的范围非常小,通常不到方圆百米,只能针对部分地质灾害易发点进行重点监测,无法对全区域的所有地方进行监测。
[0065] (2)预警判断困难
[0066] 传统的依靠传感器监测方式,一般是通过对传感器设置预警阈值,如果监测到的超出阈值范围那么就会产生告警,但是针对单个传感器的预警阈值一般是按照经验来设置的,基本上是每种传感器设置一种阈值,但是地质灾害发生时的实际情况则会因地形、地表覆盖物跟降雨量的不同而有所区别,光通过单一种类的传感器数据很难反映这些致灾因子的变化。
[0067] 有鉴于此,本申请实施例提供一种基于大数据的地质灾害预测方法,该方法利用精确度比较高的传感器监测历史数据,通过气象雨量大数据、卫星遥感影像大数据和地理信息大数据,基于通过逻辑回归、随机森林和SVM支持向量机等机器学习算法建立的地质灾害预测模型,对全区域各点在一定精度级别上计算地质灾害发生率的测算,实现对整个监控区域的地质灾害预警预测计算,对全区域中未来可能发生地质灾害的地点进行预警,其结果可以推广到整个地质灾害监控区域,不仅实现了整个监控区域的地质灾害预警预测计算,同时大大提高了地质灾害监测预警的准确性和及时性。
[0068] 为了使本申请的技术方案更加清楚、易于理解,下面对本申请实施例提供的基于大数据的地质灾害预测方法进行介绍。
[0069] 如图1所示,该图为本实施例提供的一种基于大数据的地质灾害预测方法的流程图,该方法包括以下步骤:
[0070] S101、获取待预测区域当前的遥感影像数据、气象雨量数据、地理信息数据;
[0071] 具体地,结合灾害地质学中关于滑坡、泥石流等的成因选取遥感影像数据、气象雨量数据、地理信息数据作为分析对象,以全面覆盖待预测区域内的所有位置,获取当前时刻待预测区域的遥感影像数据、气象雨量数据、地理信息数据;其中,所述待预测区域可以是按照需求划定的一个区域,也可以是整个地质灾害监控区域,具体可以根据实际情况进行设置和调整,此处不做具体限定。
[0072] 所述遥感影像数据包括地貌类型、地表蒸散(Evaportranspiration,evap)和植被指数,所述植被指数为增强型植被指数(Enhanced Vegetation Index,EVI)或归一化植被指数(Normalized Difference Vegetation Index,NDVI),所述遥感影像为多光谱卫星遥感影或高光谱卫星遥感影像,除了提供多个波段的可见光影像数据之外,还提供近红外、远红外等不同波段的影像数据,可以有效辨别出以前依靠单一全色光谱所无法辨别的地表覆盖物类型,再结合地表蒸散evap和植被指数EVI/NDVI可以对所述待预测区域的地表覆盖物进行监测、分析,地表蒸散的计算模型较多,以物理意义明确且不受地表温度影响的P‑M模型为例,分别计算土壤蒸发与植被蒸腾。其计算公式如下:
[0073]
[0074] 其中,λE为潜热通量(W/m2),λ为汽化潜热系数,s为饱和水汽压随温度变化曲线的斜率(kPa/℃),ρ为空气密度(kg/m3),cP为空气定压比热,值为1 004J/(kg·K),es为饱和水汽压(kPa),ea为实际水气压(kPa),γ为干湿表常数,ra是空气动力学阻抗(s/m),rs为冠层阻抗(s/m)。
[0075] 增强型植被指数EVI计算公式为:
[0076]
[0077] 其中,EVI为增强型植被指数,ρNIR为近红外反射值,ρRed为红光反射值,ρBlue为蓝光反射值。
[0078] 归一化植被指数NDVI经比值处理,可以部分消除太阳高度角、卫星观测角、地形变化、云/阴影和大气衰减等的影响,其计算公式如下:
[0079]
[0080] 其中,NDVI为归一化植被指数,ρNIR为近红外反射值,ρRed为红光反射值。
[0081] 所述气象雨量数据的获取来源有多种,来自气象局各个气象站点的雨量监测数据质量最好,及时、准确、标准、且覆盖面广。基于各个气象站的坐标位置进行空间插值,比如采用反距离权重法等,可以得到整个区域各个地点的降雨量。其中,反距离权重法(Inverse Distance Weight,IDW)类比重力法则,认为周围的位置点对自己产生的影响与距离的平方成反比,其计算公式如下:
[0082]
[0083] 其中,n为周围参与空间插值的位置点个数,Mi是第i个位置点的值,di是到第i个位置点的距离。应当说明的是,本申请中的气象雨量数据包括灾害发生前一天的日降雨量RF_1、灾害发生前两天的日降雨量RF_2、灾害发生前三天的日降雨量RF_3、灾害发生前三天的累计降雨量RF_for3Day,还可以包括其他气象雨量数据,具体可以根据实际情况进行设置和调整,此处不做具体限定。
[0084] 地理信息数据包括数字高程模型(Digital Elevation Model,DEM)数据以及根据所述DEM数据计算的坡度数据;其中DEM数据是基础地理信息数据,记载了区域内每个地方的地表相对海平面的高度;通过对DEM数据进行坡度分析,则可以得到区域内每个地方在地形上的陡峭程度,即坡度;坡度是法线与铅垂线之间的夹角,坡度可以近似利用相邻两点的坡度公式求解:
[0085]
[0086] 其中,θ为坡度,Δx、Δy、Δz分别代表在相邻两点在x坐标、y坐标和z坐标上的差值。
[0087] S102、基于所述遥感影像数据、气象雨量数据、地理信息数据和预设地质灾害预测模型,获取所述待预测区域内的预测地质灾害风险点;所述预设地质灾害预测模型是根据所述待预测区域内的样本点对应的历史遥感影像数据、历史气象雨量数据、历史地理信息数据进行模型训练获得的;其中,所述样本点为以所述待预测区域内的历史灾害点为倾泻点确定出的流域所包括的样本灾害点以及所述流域外符合预设条件的样本非灾害点;
[0088] 具体地,获取所述待预测区域内的地质灾害历史数据,所述地质灾害历史数据至少包括历史灾害点及其历史遥感影像数据、历史气象雨量数据、历史地理信息数据;基于所述历史灾害点及其历史地理信息数据获取以所述待预测区域内的历史灾害点为倾泻点确定出的流域所包括的样本灾害点以及所述流域外以第一预设比例随机选取的样本非灾害点,并根据所述样本灾害点和所述样本非灾害点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据以及所述样本灾害点和所述样本非灾害点分别对应的灾害结果,基于预设原始预测模型进行模型训练,获得所述预设地质灾害预测模型;将待预测区域当前的所述遥感影像数据、气象雨量数据、地理信息数据输入所述预设地质灾害预测模型,获得所述待预测区域内的预测地质灾害风险点。其中,所述预设条件可以为样本非灾害点占所述样本点总数量的第一预设比例,还可以是其他条件,具体可以根据实际情况进行设置和调整,此处不做具体限定。其中,所述预设原始预测模型包括SVM预测模型和/或随机森林预测模型,或逻辑回归预测模型。
[0089] S103、根据所述预测地质灾害风险点生成并输出地质灾害风险预警提示信息。
[0090] 具体地,所述地质灾害风险预警提示信息包括所述预测地质灾害风险点的地理位置信息,以提示工作人员对所述预测地质灾害风险点进行避险措施部署。可以理解的是,在实际的地质灾害监测与预警的工作中,除了本发明的预测结果以外,还需要结合各地监测人员的汇报与确认来做好灾害预警管理,既要有效保障人民生命财产安全,又不能过度频繁的误报影响人民的正常生活与生产。
[0091] 在上述实施例的基础上,进一步地,所述方法还包括:
[0092] 获取所述待预测区域内的地质灾害历史数据;所述地质灾害历史数据至少包括历史灾害点及其历史遥感影像数据、历史气象雨量数据、历史地理信息数据;
[0093] 具体地,获取所述待预测区域内的地质灾害历史数据时,所述地质灾害历史数据的参数类型与预测过程中采集的待预测区域当前的遥感影像数据、气象雨量数据、地理信息数据的类型和属性保持一致。
[0094] 基于所述历史灾害点及其历史地理信息数据获取所述待预测区域内的样本灾害点和样本非灾害点,并根据所述样本灾害点和所述样本非灾害点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据以及所述样本灾害点和所述样本非灾害点分别对应的灾害结果,基于预设原始预测模型进行模型训练,获得所述预设地质灾害预测模型;所述预设原始预测模型包括SVM预测模型和/或随机森林预测模型,或逻辑回归预测模型。
[0095] 具体地,基于所述历史灾害点的历史地理信息数据,以所述历史灾害点为倾泻点确定其所在流域,并将所述历史灾害点所在流域内的所有网格作为样本灾害点,以第一预设比例在所述历史灾害点所在流域以外的区域选取样本非灾害点,将所述样本灾害点和所述样本非灾害点作为所述样本点;将第二预设比例的所述样本点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据及其对应的灾害结果作为训练集,将其余样本点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据及其对应的灾害结果作为测试集;将所述训练集输入所述预设原始预测模型进行模型训练,并基于所述测试集对训练结构进行测试及优化,直至预测准确率大于预设阈值,获得所述预设地质灾害预测模型。
[0096] 在上述实施例的基础上,进一步地,所述基于所述历史灾害点及其历史地理信息数据获取所述待预测区域内的样本灾害点和样本非灾害点,并根据所述样本灾害点和所述样本非灾害点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据以及所述样本灾害点和所述样本非灾害点分别对应的灾害结果,基于预设原始预测模型进行模型训练,获得所述预设地质灾害预测模型,包括:
[0097] 基于所述历史灾害点的历史地理信息数据,以所述历史灾害点为倾泻点确定其所在流域,并将所述历史灾害点所在流域内的所有网格作为样本灾害点,以第一预设比例在所述历史灾害点所在流域以外的区域选取样本非灾害点,将所述样本灾害点和所述样本非灾害点作为所述样本点;
[0098] 具体地,基于曾经发生过灾害的历史灾害点的历史地理信息数据(DEM数据),以有记录的历史灾害点为倾泻点确定其所在的流域,将流域内的所有格网均视为泥石流发灾点,即样本灾害点。需要说明的是,如图2所示,倾泻点是水流出某个区域的点,确定一个倾泻点,就可以根据DEM数据确定出一片区域,该区域内的水流都将从倾泻点排出,则这一区域就是根据倾泻点确定的流域。例如,图3为2014.5.10日发生的泥石流灾害所在的流域,如图3所示,将该流域内所有栅格点确定为灾害点。在所述历史灾害点所在流域以外的区域以第一预设比例随机选取多个位置点作为样本非灾害点(如图4所示红色点状),将所述样本灾害点和所述样本非灾害点作为所述样本点。另外,所述第一预设比例可根据实际情况进行设置和调整,优选地,选取所述第一预设比例的值可使所述样本非灾害点占所述样本点总数量的10%。
[0099] 将第二预设比例的所述样本点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据及其对应的灾害结果作为训练集,将其余样本点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据及其对应的灾害结果作为测试集;
[0100] 具体地,例如,如表1所示,将所有样本点中随机选择80%的样本点的灾害发生前一天的日降雨量RF_1、灾害发生前两天的日降雨量RF_2、灾害发生前三天的日降雨量RF_3、灾害发生前三天的累计降雨量RF_for3Day、坡度slope、DEM数据、地貌类型landform及其对应的灾害结果作为训练集,其余20%样本点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据及其对应的灾害结果作为测试集。其中,所述第二预设比例可以根据实际情况进行设置和调整;应当说明的是,优选地,无论是所述训练集还是所述测试集中都既包括样本灾害点和非样本灾害点,以提高模型训练及测试的效率和准确率。
[0101] 将所述训练集输入所述预设原始预测模型进行模型训练,并基于所述测试集对训练结构进行测试及优化,直至预测准确率大于预设阈值,获得所述预设地质灾害预测模型。
[0102] 表1
[0103]
[0104]
[0105] 在上述实施例的基础上,进一步地,所述预设原始预测模型为逻辑回归预测模型;所述将所述训练集输入所述预设原始预测模型进行模型训练,并基于所述测试集对训练结构进行测试及优化,直至预测准确率大于预设阈值,获得所述预设地质灾害预测模型,包括:
[0106] 将所述训练集输入预设原始预测模型:
[0107]
[0108] 进行模型训练;其中,yi,i=1,…n为地质灾害响应变量,服从取值0或1的二项分布B(1,pi);pi为地质灾害响应变量yi为1的概率,β0,…βn为系数,xi1,…xin为地质灾害影响变量,L为似然函数,threshold为概率阈值, 为地质灾害响应变量的极大似然估计, 为地质灾害响应变量yi为1的概率的极大似然估计;
[0109] 令似然函数达到最大,迭代求解出系数β0,…βn的极大似然估计 获得第一中间预测模型;
[0110] 将所述测试集的样本点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据输入所述第一中间预测模型计算所述测试集的样本点的预测灾害结果,根据所述预测灾害结果和所述测试集的样本点的灾害结果,计算TPR值与FPR值,并基于所述TPR值与FPR值进行特征形式变换、特征选择和概率阈值优化,直至预测准确率大于预设阈值,获得所述预设地质灾害预测模型。
[0111] 具体地,逻辑回归是用来对二分类问题进行拟合的回归模型,本申请中假设地质灾害响应变量yi,i=1,…n各自服从取值0或1的二项分布B(1,pi),其中:
[0112] pi=P(yi=1).
[0113] 逻辑回归假设pi的logit变换与自变量之间存在线性关系,即:
[0114]
[0115] 代入似然函数:
[0116]
[0117] 令似然函数达到最大,迭代求解出β的极大似然估计 获得所述第一中间预测模型,进而得到pi的估计
[0118] 为对响应变量预测为0或1,需要设定一个合适的概率阈值threshold,令响应变量的预测值为:
[0119]
[0120] 将所述测试集的样本点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据输入所述第一中间预测模型计算所述测试集的样本点的预测灾害结果,根据所述预测灾害结果和所述测试集的样本点的灾害结果,对所述测试集的样本点的灾害结果(真实值)和预测灾害结果进行频数统计,列出二维列联表如表2所示:
[0121] 表2
[0122]
[0123] 定义真阳率(True Positive Rate,TPR)和假阳率(False Positive Rate,FPR)分别代表将1值正确预测为1的比例、将0值误判为1的比例:
[0124]
[0125]
[0126] 其中,a00为将0正确预测为0的频数,a01为将0错误预测为1的频数,a10为将1错误预测为0的频数,a11为将1正确预测为1的频数。
[0127] 为了尽可能提高预测准确性需要在尽量提高TPR值的基础上,降低FPR值。但需注意,TPR值与FPR值之间存在相关关系:概率阈值threshold设的越高,样本点被预测为1的个数越少,相应地TPR值和FPR值都会降低;但概率阈值threshold设的低时,样本点被预测为1的个数越多,TPR值和FPR值都会升高。因此根据不同的概率阈值可绘制相应的TPR值和FPR值,即得到接受者操作特性曲线(Receiver Operating Characteristic curve,ROC),如图5所示,图中横轴为FPR值,纵轴是TPR值。为使得模型取得最好的预测结果,通常取ROC曲线的左上顶点处的概率值作为概率阈值threshold,该值也是使得TPR‑FPR达到最大的值。ROC曲线下方围成的面积记为AUC(Area Under the Curve,),AUC的最大值为1,其值越大代表模型的准确性越高。一般来说,AUC达到0.7~0.9可以认为是准确性较高的预测,0.9以上认为是准确性很高的预测。
[0128] 由于降雨量变量的分布不对称,因此考虑对降雨量变量进行中心标准化,并将不同的变量引入模型,计算不同模型的预测准确率,进行特征形式变换。利用待预测区域历史数据模拟100次,得到的结果如下表3所示:
[0129] 表3
[0130]
[0131] 以上结果中,原始数据和中心标准化数据下,TPR在85%‑86%左右浮动,FPR则在17%‑18%左右浮动。从AUC准则来看,原始数据和中心标准化数据下的AUC变化不大,因此为对回归系数进行准确解读,以下采用中心标准化后的数据做逻辑回归。
[0132] 为进一步筛选出合适的变量,对全模型分别按照赤池信息量准则(Akaike information criterion,AIC)进行特征选择,初始自变量包括:灾害发生前一天的日降雨量RF_1、灾害发生前两天的日降雨量RF_2、灾害发生前三天的日降雨量RF_3、坡度slope、DEM数据、地貌类型landform、地表蒸散evap、归一化植被指数NDVI,筛选后未去除上述自变量。
[0133] 经过特征形式和特征选择,最终确定将中心标准化后的RF_1、RF_2、RF_3、dem、slope、evap、vni、landforms当作引入模型的特征,进行模型训练和测试、优化,利用上述8个变量建立逻辑回归模型系数如表4所示:
[0134] 表4
[0135]
[0136]
[0137] 上表中,除地貌变量外,其余变量的系数β代表:该变量的值每上升一个自身标准差,优势比 上升(或减小)exp(β),因此变量的系数β越大,表示该变量的影响越大。显然,前一天降雨量对发生泥石流有较大的影响,前两天降雨量的影响次之。
[0138] 而地貌方面,为比较不同地貌对发生泥石流的影响,对其系数做柱状图,如图6所示,相较于地貌12,地貌是32、33、42、43、52、53、62、63的区域更容易发灾,其余地貌特征的区域相较不容易发灾。
[0139] 例如,如图7所示,对2014年5月11日的所有训练集数据根据逻辑回归预测概率值进行分层设色后的显示效果,从图中可以较为清楚的看到,在地势较低的三条山谷的沿线发灾率较其它地区稍高。对上面的点根据逻辑回归预测概率值进行IDW内插后,可以得到逻辑回归概率栅格如图8所示,颜色越深,代表预测发灾概率越高,从图上可以较为明显的看到三条泥石流高风险带。
[0140] 在上述实施例的基础上,进一步地,所述预设原始预测模型为随机森林预测模型;所述将所述训练集输入所述预设原始预测模型进行模型训练,并基于所述测试集对训练结构进行测试及优化,直至预测准确率大于预设阈值,获得所述预设地质灾害预测模型,包括:
[0141] 从所述训练集中有放回的随机抽取多个样本点,从历史遥感影像数据、历史气象雨量数据、历史地理信息数据中无放回地随机抽取多个特征,以ntree参数为优化参数建立若干决策树,构成随机森林;
[0142] 对所述随机森林划分,进行多次模拟,分别计算TPR值和FPR值,并将TPR值和FPR值取得最优值时的ntree参数作为中间优化参数,获得第二中间预测模型;
[0143] 将所述测试集的样本点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据输入所述第二中间预测模型计算所述测试集的样本点的预测灾害结果,根据所述预测灾害结果和所述测试集的样本点的灾害结果,计算TPR值与FPR值,对所述中间优化参数进行优化,直至预测准确率大于预设阈值,获得所述预设地质灾害预测模型。
[0144] 具体地,例如所述训练集中有N个样本点,历史遥感影像数据、历史气象雨量数据、历史地理信息数据中包括M个特征,则从所有N个样本点中有放回的随机抽取n个样本,从M个特征中无放回地随机抽取m个特征作为决策树的分类依据,在某种准则下(比如信息增益)的分裂,形成一颗决策树,重复多次,建立大量决策树,构成随机森林。当有一个新的样本进来需要预测时,将其用每一颗决策树进行预测,最后用简单投票来决定该样本的预测分类。
[0145] 由于有6个特征值灾害发生前一天的日降雨量RF_1、灾害发生前两天的日降雨量RF_2、灾害发生前三天的日降雨量RF_3、灾害发生前三天的累计降雨量RF_for3Day,DEM数据,坡度Slope都是连续值,因此需要针对连续值设计决策树的划分办法。
[0146] 历史样本集D和连续属性a,假定a在D上出现了n个不同的取值,将这些值从小到大进行排序,记为{a1,a2,…,an}。基于划分点t可将D分为子集Dt‑和Dt+,其中Dt‑包含那些在属性a上取值不大于t的样本,而Dt+包含那些在属性a上取值大于t的样本。显然,对相邻的属性取值ai和ai+1来说,t在区间[ai,ai+1]中取任意值所产生的划分结果相同,就把区间[ai,ai+1]的中位点作为候选划分点,按照上述过程模拟100次,得到TPR值和FPR值,根据TPR值和FPR值得知当ntree参数取为20时,随机森林模型的预测效果最佳,此时TPR值为92.56%,FPR值为6.49%。
[0147] 而变量重要度方面,RF_1的重要度达到1075.711,对发生泥石流有最显著的影响;其次是RF_2、RF_3,其余变量的影响相对较弱。而地貌的取值水平过多,会导致随机森林偏向给此变量赋予更大的重要性,因此其重要度的值会有偏差。例如,应用以随机森林预测模型为预设原始预测模型建立的预设地质灾害预测模型获得2014年5月11日的地质灾害预测结果如图9所示。
[0148] 在上述实施例的基础上,进一步地,所述预设原始预测模型为SVM预测模型;所述将所述训练集输入所述预设原始预测模型进行模型训练,并基于所述测试集对训练结构进行测试及优化,直至预测准确率大于预设阈值,获得所述预设地质灾害预测模型,包括:
[0149] 以所述训练集的历史遥感影像数据、历史气象雨量数据、历史地理信息数据为特征,以高斯核作为核函数,以错判损失参数和高斯核参数为优化参数,建立所述SVM预测模型;
[0150] 对所述优化参数进行多次模拟,分别计算TPR值和FPR值,并基于所述TPR值和FPR值将TPR值获得极大值时对应的错判损失参数和高斯核参数作为中间损失参数和中间高斯核参数,获得第三中间预测模型;
[0151] 将所述测试集的样本点的历史遥感影像数据、历史气象雨量数据、历史地理信息数据输入所述第三中间预测模型计算所述测试集的样本点的预测灾害结果,根据所述预测灾害结果和所述测试集的样本点的灾害结果,计算TPR值与FPR值,对所述中间损失参数和中间高斯核参数进行优化,直至预测准确率大于预设阈值,获得所述预设地质灾害预测模型。
[0152] 具体地,为尽量提高TPR值,降低FPR值,对错判损失参数(cost)和高斯核参数(gamma)进行多次模拟,得到不同模型下的TPR值和FPR值,找到其中TPR的极大值点下的参数。随着gamma值增加,TPR值和FPR值都有降低的趋势,gamma从1增至2时,TPR值平均降低1.3%,FPR值平均降低1.5%;gamma从2增至3时,TPR值平均降低1.9%,FPR值平均降低了
1%;gamma从3增至4时,TPR值平均降低2%,FPR值则平均降低0.8%;gamma从4增至5时,TPR值平均降低2%,FPR值平均降低0.4%。将TPR值和FPR值降低的趋势绘制折线图如图10所示,从折线图趋势来看,随着gamma增长,TPR值随之降低的幅度增大,FPR值降低的幅度减小。说明虽然gamma增长会带来FPR值降低,但TPR值也会降低,并且降低的幅度更大,因此FPR值降低的代价过高。而gamma从1增至2时,TPR值降低了1.3%,FPR值降低1.5%,并且gamma=2时,TPR值保持在96%左右,因此这一步增加是有价值的。最终选择gamma=2,cost=100作为SVM的最佳参数。此时,模型的TPR值为96.06%,FPR值为4.7%,得到所述预设地质灾害预测模型。
[0153] 基于该预设地质灾害预测模型输出的2014年5月11日地质灾害预测结果如下图11所示。
[0154] 在上述实施例的基础上,进一步地,所述预设原始预测模型包括随机森林预测模型和SVM预测模型,所述预设地质灾害预测模型包括基于随机森林预测模型建立的第一预测子模型和基于SVM预测模型建立的第二预测子模型;所述基于所述遥感影像数据、气象雨量数据、地理信息数据和预设地质灾害预测模型,获取所述待预测区域内的预测地质灾害风险点,包括:
[0155] 基于所述遥感影像数据、气象雨量数据、地理信息数据,根据所述第一预测子模型获得的第一风险点;
[0156] 基于所述遥感影像数据、气象雨量数据、地理信息数据,根据所述第二预测子模型获得的第二风险点;
[0157] 将所述第一风险点和所述第二风险点的并集作为所述预测地质灾害风险点。
[0158] 具体地,所述预设原始预测模型包括随机森林预测模型和SVM预测模型,所述预设地质灾害预测模型包括基于随机森林预测模型建立的第一预测子模型和基于SVM预测模型建立的第二预测子模型,基于所述遥感影像数据、气象雨量数据、地理信息数据,根据所述第一预测子模型获得的第一风险点,如表5所示;基于所述遥感影像数据、气象雨量数据、地理信息数据,根据所述第二预测子模型获得的第二风险点,如表6所示:
[0159] 表5
[0160] 真实值/预测值 0 10 53464 208
1 608 1152
[0161] 表6
[0162]真实值/预测值 0 1
0 51689 182
1 2383 1178
[0163] 两个表中,第一行第一列的值代表“将未发灾样本正确预测为未发灾的个数”,第一行第二列的值代表“将发灾样本错误预测为未发灾的个数”,第二行第一列的值代表“将未发灾样本错误预测为发灾的个数”,第二行第二列的值代表“将发灾样本正确预测为发灾的个数”。相较来看,第一预测子模型将发灾样本更多的预测出来了,但相应地也有更多的未发灾样本被误判为发灾了。
[0164] 而如果将第一预测子模型和第二预测子模型相结合,对于任何一个输入样本,都对其分别用第一预测子模型和第二预测子模型进行预测,如果有任何一个将其预测为发灾,就将其判定为预测地质灾害风险点,即将第一预测子模型获得的第一风险点和第二预测子模型获得的第二风险点的并集作为所述预测地质灾害风险点;只有第一预测子模型和第二预测子模型都预测未发灾时,才判定为不是预测地质灾害风险点,这样的预测结果如表7所示:
[0165] 表7
[0166] 真实值/预测值 0 10 51256 60
1 2716 1300
[0167] 可以看到,这种情况下,只有60个发灾样本没有被预测出来,而未发灾样本相对于随机森林的结果来说,只增加了333个被误判为发灾的。实际灾害发生地点分布如图12所示,第一预测子模型预测的第一风险点分布如图13所示,第二预测子模型预测的第二风险点分布如图14所示。
[0168] 本申请提供的基于大数据的地质灾害预测方法,获取待预测区域当前的遥感影像数据、气象雨量数据、地理信息数据;基于所述遥感影像数据、气象雨量数据、地理信息数据和预设地质灾害预测模型,获取所述待预测区域内的预测地质灾害风险点;所述预设地质灾害预测模型是根据由所述待预测区域内的地质灾害历史数据生成的样本点对应的历史遥感影像数据、历史气象雨量数据、历史地理信息数据进行模型训练获得的;根据预测地质灾害风险点和预设条件获取目标地质灾害风险点,对所述目标地质灾害风险点进行灾害风险预警。利用精确度比较高的传感器监测历史数据,通过气象雨量大数据、卫星遥感影像大数据和地理信息大数据,基于通过逻辑回归、随机森林和SVM支持向量机等机器学习算法建立的地质灾害预测模型,对全区域各点在一定精度级别上计算地质灾害发生率的测算,实现对整个监控区域的地质灾害预警预测计算,对全区域中未来可能发生地质灾害的地点进行预警,其结果可以推广到整个地质灾害监控区域,不仅实现了整个监控区域的地质灾害预警预测计算,同时大大提高了地质灾害监测预警的准确性和及时性。
[0169] 上文结合图1‑14对本申请实施例提供的基于大数据的地质灾害预测方法进行了详细介绍,下面将结合附图对本申请实施例提供的基于大数据的地质灾害预测装置、电子设备及计算机可读存储介质进行介绍。
[0170] 如图15所示,该图为本申请提供的基于大数据的地质灾害预测装置的示意图,该装置包括:
[0171] 获取模块201,用于获取待预测区域当前的遥感影像数据、气象雨量数据、地理信息数据;
[0172] 预测模块202,用于基于所述遥感影像数据、气象雨量数据、地理信息数据和预设地质灾害预测模型,获取所述待预测区域内的预测地质灾害风险点;所述预设地质灾害预测模型是根据所述待预测区域内的样本点对应的历史遥感影像数据、历史气象雨量数据、历史地理信息数据进行模型训练获得的;其中,所述样本点为以所述待预测区域内的历史灾害点为倾泻点确定出的流域所包括的样本灾害点以及所述流域外符合预设条件的样本非灾害点;
[0173] 预警模块203,用于根据所述预测地质灾害风险点生成并输出地质灾害风险预警提示信息。
[0174] 本申请实施例提供的基于大数据的地质灾害预测装置可对应于执行本申请实施例中描述的基于大数据的地质灾害预测方法,并且该装置的各个模块的上述功能对应于实现图1所示方法的相应流程,为了简洁,在此不再赘述。
[0175] 本申请实施例还提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例所述的基于大数据的地质灾害预测方法。
[0176] 如图16所示,所述电子设备的计算机系统300包括CPU301,其可以根据存储在ROM302中的程序或者从存储部分308加载到RAM303中的程序而执行各种适当的动作和处理。在RAM303中,还存储有系统操作所需的各种程序和数据。CPU301、ROM302以及RAM303通过总线304彼此相连。I/O接口305也连接至总线304。其中,CPU301表示中央处理单元,ROM302表示只读存储器,RAM303表示随机访问存储器,I/O表示输入/输出。
[0177] 以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管、液晶显示器等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
[0178] 特别地,上述实施例中描述的基于大数据的地质灾害预测方法的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行上述实施例中所述的基于大数据的地质灾害预测方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被CPU301执行时,执行本计算机系统300中限定的上述功能。
[0179] 本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的基于大数据的地质灾害预测方法。
[0180] 具体地,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的基于大数据的地质灾害预测方法。
[0181] 需要说明的是,本申请所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器、只读存储器、可擦式可编程只读存储器、光纤、便携式紧凑磁盘只读存储器、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。
[0182] 本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。以上所述仅是本申请的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其他场合的,均应视为本申请的保护范围。

当前第1页 第1页 第2页 第3页