技术领域
[0001] 本发明涉及气象学领域中的冰雹灾害预测,尤其涉及一种高原地区冰雹天气的双预报模型的构建方法。
相关背景技术
[0002] 冰雹是由强对流天气系统引起的一种剧烈的气象灾害,它出现的空间范围小、生命史短、来势迅猛。冰雹的形成需要大气中存在相当厚度的不稳定层、云内有倾斜不均匀且[1]能长时间支撑雹块的上升气流、在最大上升速度的上方有液态过冷水累积带等 。除此之外,下垫面的植被,地形等因素都会影响强对流的发展,比如土壤的热容小于海水,因此内陆比海水更容易被辐射加热,造成对流不稳定,从而使得内陆冰雹多于沿海,所以地势对冰[2]
雹的大小和时空分布有显著影响 。2018年,郑飒飒等分析了地理因子对冰雹形成的影[3] [4]
响 ;段鹤等对云南冰雹的预报预警方法进行了研究 。我国地形地势具有显著的三级阶梯状分布的特征,山地起伏不平,山地常常起到强迫对流抬升的作用,从而增加了冰雹发生的概率,冰雹的高发区主要集中在我国的青藏高原、青海、内蒙古东部和东北地区,而我国[5]
平原地区发生频率则较低 ,但对不同海拔冰雹的特征及其差异,鲜有定量化研究。
[0003] 强对流天气的临近预报往往依赖于雷达、卫星等遥感数据,通过特定方法设计的雷达参数可用于预报某种强对流的发生。2013年,王萍和潘跃提出了悬垂度、峰度、强回波比等特征,2014年,李聪引入了加权核高(单体核液态比率),单体核均值,2016年,高毅基于对50km以内雷暴系统引发的冰雹和短时强降水展开研究,提出了疏密性特征,累积液态水含量等特征,他们借助这些特征形成对强对流单体的描述,并构建机器学习模型完成训练,[6]‑[8]在我国平原地区取得了较好的冰雹与短时强降水的分类识别效果 ;2017年又提出了[9]
10个可用于识别早期冰雹的特征,填充了早期冰雹识别的空白 ;2019年,Shi提出了通过雷达回波底高图像来实时检测弱回波区的方法,还给出了可以量化弱回波区区域规模的参[10]
数 。2019年,Czernecki等使用遥感数据和探空数据与机器学习技术相结合来预报冰[11]
雹 。
[0004] 发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
[0005] 据相关资料显示,近六十年来我国高原地区以及周边山地是强对流天气的高发区,虽然目前相关专家学者对强对流天气的研究取得了许多成果,但针对高原地区的强对流天气预测还鲜有定量化研究,而直接在我国高原地区的冰雹预报中使用平原地区冰雹指标和参数还有很多不足,业务人员虽然积累了一定的主观预报经验,但如何将相关的经验与冰雹发生的客观环境结合起来,是冰雹预报中亟需解决的问题。
[0006] [参考文献]
[0007] [1]Dennis E J,KumjianMR.The impact of vertical wind shear on hail growth in simulated supercells[J].Journal of the At‑mospheric Sciences,2017,74(3):641–663.
[0008] [2]曹艳察,田付友,郑永光,盛杰.中国两级阶梯地势区域冰雹天气的环境物理量统计特征[J].高原气象,2018,37(01):185‑196.
[0009] [3]郑飒飒,杨佑洪,刘志,刘晓璐.四川省冰雹分布与地形因子关系分析[J].气象科技,2018,46(06):1280‑1286.
[0010] [4]段鹤,严华生,马学发明,等.滇南冰雹的预报预警方法研究[J].气象,2014,40(2):174‑185.
[0011] [5]薛晓颖,任国玉,孙秀宝,等.中国中小尺度强对流天气气候学特征[J].气候与环境研究,2019,24(2):199‑213.
[0012] [6]王萍,潘跃.基于显著性特征的大冰雹识别模型[J].物理学报,2013(06):515‑524.
[0013] [7]李聪.强冰雹自动识别技术与防雹作业决策方法研究[D].天津大学,2014.[0014] [8]王萍,高毅,李聪,等.50km以内雷暴系统的分类识别方法研究[J].气象,2016,42(2):230‑237.
[0015] [9]Wang P,Shi J,Hou J,et al.The Identification of Hail Storms in the Early Stage Using Time Series Analysis[J].Journal of Geophysical Research,2018,123(3):929‑947.
[0016] [10]Shi Junzhi,Wang Ping,Wang Di,et al.Radar‑based automatic identification and quantification of weak echo regions for hail nowcasting[J].Atmosphere,2019,10(6):325.
[0017] [11]Czernecki B,Taszarek M,Marosz M,et al.Application of machine learning to large hail prediction‑The importance of radar reflectivity,lightning occurrence and convective parameters derived from ERA5[J].Atmospheric Research,2019,227:249–262.
具体实施方式
[0075] 下面结合附图和具体实施例对本发明技术方案作进一步详细描述,所描述的具体实施例仅对本发明进行解释说明,并不用以限制本发明。
[0076] 本发明提出了一种高原地区冰雹天气双模型预报方案,其设计思路是:联合冰雹机理类特征和高程特征,构建了基于随机森林的冰雹/短时强降水分类识别模型,以此为基础,提出了一种建立在主成分分析基础之上的贝叶斯最小错误决策冰雹/短时强降水分类器,最后,提出两模型“与”融合策略。
[0077] 如图1所示为该发明的流程图,该方法主要包括样本的收集与制作,特征的组建与可行性分析,构建基于随机森林的分类识别模型,构建基于贝叶斯最小错误决策的概率模型和提出了一种融合策略。具体内容如下:
[0078] 步骤一:样本的收集与制作;
[0079] 1‑1)本发明研究中国高原地区冰雹云的分类识别,故选择冰雹作为正样本,同时选择极易与冰雹混淆的短时强降水作为负样本。收集足量的冰雹样本和短时强降水样本。使用贵州省2010‑2015共6年的历史数据展开了冰雹识别模型的建立和结果分析,其中冰雹过程95个,冰雹单体1402个,与95个冰雹过程同时段或相近时段的短时强降水过程110个,强降水单体1210个。
[0080] 1‑2)按照6:2:2的比例将所有样本划分为训练集、验证集与测试集,训练集用于训练模型,验证集用于调参,测试集用于测试模型的分类识别性能。
[0081] 步骤二:特征的组建;
[0082] 2‑1)强对流单体机理特征选用悬垂度、有效厚度、单体核液态比率、核均值、高回波比和峰度,如图2所示为8个特征的频率分布直方图。;
[0083] 2‑2)鉴于海拔高度对冰雹和短时强降水分类识别的影响,提取单体核区所对应地面区域的最大高程(maximum elevation)和平均高程(mean elevation)。最大高程表示地面区域的最高高度,同时可以计算出冰雹最先落地的最短融化距离,即用0℃层高度减去该地区的海拔高度,如式(1)。
[0084] Hmin_melt=H0‑Hmax (1)
[0085] 式中,Hmax为单体核区对应地面区域内的最大高程值。同理也可以计算出平均融化距离,如式(2)。
[0086]
[0087] 式中, 为单体核区对应地面区域内的平均高程值。
[0088] 步骤三:构建基于随机森林的分类识别模型;
[0089] 3‑1)选择表1与表2提供的8个特征组成特征向量,以短时强降水单体作为反例来构建冰雹识别模型;
[0090] 3‑2)随机森林模型中,可调参数有基分类器(决策树)个数C1、为各决策树分配的特征数量C2、树的最大深度C3、为可拆分节点限定的最小样本数C4及叶节点的最小样本数C5。考虑到本发明问题的正负样本仅千余例,特征量不足10个,特别将C2固定为全体特征量,并对C3和C4不做限制,即仅对C1和C5进行调优,调优指标选用临界成功指数CSI(Criticalsuccess index):
[0091]
[0092] 式中,A为预报正确的冰雹数量,B为误报为冰雹的短时强降水单体数量,C为漏报的冰雹数量。
[0093] 在验证集上使用网格搜索法得到最优解C1=17,C5=27,此时CSI=72.14%。
[0094] 步骤四:构建基于贝叶斯最小错误决策的概率模型;
[0095] 4‑1)对8个特征进行归一化处理。首先,将8个特征依次简记为
[0096] Y=(y1,y2,y3,y4,y5,y6,y7,y8) (4)
[0097] 利用训练样本分别得到8个特征的均值 和方差 随后将8个原始特征标准化为[0098]
[0099] 其中
[0100]
[0101] 经主成分分析得到新的特征向量
[0102] Pca=(pca1,pca2,pca3,pca4,pca5,pca6,pca7,pca8) (7)
[0103] 其中,第i个主成分
[0104]
[0105] 且pcai⊥pcaj,i≠j。可见,主成分分析是将8维向量 变换成一个新的8维特征向量Pca,在Pca中,两两分量间不再相关,且各分量均为 的所有分量的线性组合,8个加权系数为样本协方差矩阵的特征根λi(i=1,2,···,8;λ1≧λ2≧···λ7≧λ8)对应的特征向量。
[0106] 本发明用训练数据进行主成分分析,得到各主成分的贡献率和累计贡献率,如表1所示。容易看出,前三个主成分的联合贡献率占据了接近80%的份额,三者的权系数ɑij(i,j=1,2,3),如表2所示。计算训练样本关于前三个主成分的取值,形成分布直方图如图3所示。
[0107] 表1 各主成分贡献率
[0108]
[0109] 表2 前三大主成分的权系数
[0110]
[0111] 4‑2)选用第一主成分(一个维度)来描述冰雹单体和短时强降水单体,如式(9)[0112]
[0113] 4‑3)选用贝叶斯分类模型来解决冰雹和短时强降水的分类问题。将图3(a)转换为百分比堆积图如图4所示。图4中,对于每一个pca1的取值,本发明称其为此pca1下的强降水概率和冰雹概率,上部的强降水概率区域和下部的冰雹概率区域间的连续型拟合曲线如式(10):
[0114]
[0115] 4‑4)设冰雹与强降水的总数分别为N1与N2,对冰雹的漏报数为S2,误报数为S1,ω1和ω2分别指冰雹和短时强降水样本类,α为分类阈值,计算出总错误率E:
[0116]
[0117] 4‑5)由式(11)可知,最佳阈值α的确定等效于求S1+S2的最小值。通过式(9)计算所有验证集样本的pca1,再通过设定不同的概率阈值得到不同的S1+S2,得最优概率阈值解为0.4。
[0118] 步骤五:融合策略的提出;
[0119] 5‑1)为了便于表述,分别记基于随机森林的单体扫识别模型与基于贝叶斯最小错误决策的概率识别模型为模型1和模型2。
[0120] 5‑2)综合出如下融合策略:若模型1和模型2同时识别为冰雹,才给出冰雹识别结果,否则,为短时强降水。
[0121] 下面以具体的测试来验证本发明实例提供的一种高原地区冰雹天气的双预报模型的构建方法的可行性,详见以下描述:
[0122] 在“与”融合机制下,将用于测试的248个冰雹单体(来自19个过程)和271个短时强降水单体(来自22个过程)按照过程分析测试结果。首先,以过程中与开始下雹关联的体扫时刻作为坐标原点,由原点向后保留两个体扫、向前保留至首次被识别成冰雹单体的体扫,形成图6(a),将所有用于测试的强降水单体22个过程排列形成图6(b)。图中,浅色方框代表识别结果为冰雹,深色方框代表识别结果为短时强降水。
[0123] 由图6(a)可以看出,对于参加测试的冰雹过程而言:
[0124] (1)本发明提出的冰雹双识别模型均给出了正确识别,其中仅一例(19#冰雹过程)在首次识别之后漏识了两个体扫。
[0125] (2)本发明识别模型对超过一半(52.6%)的冰雹过程做出了提前36分钟预警,更详细的提前预警能力信息归纳于表3中。
[0126] 表3 本发明模型对冰雹的提前预警能力
[0127]
[0128] 由图6(b)可以看出,对于参加测试的短时强降水(反例)而言:
[0129] (1)本识别模型对强降水单体的击中率为75.3%,对强降水过程的击中率为81.8%(击中体扫数大于等于整个过程体扫数目的50%)。
[0130] (2)在被误识为冰雹的67个强降水单体中,有46(大于2/3)个单体集中在2#、7#、13#和20#这4(小于1/5)个过程中。
[0131] 通过对图6a和图6b给出的详细分析可以看出,本发明使用反映冰雹单体形成机理的6个特征和2个融化距离特征训练出来的冰雹识别模型,有能力区分开90%左右的冰雹和短时强降水过程;没有能力对“强、高、悬”突然增高且同时降落冰雹的情况给出提前预警;会对“强、高、悬”很高的强降水过程误报成冰雹。后两者情况约占10%。
[0132] 尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。