技术领域
[0001] 本公开涉及数据处理技术领域,尤其涉及一种冰雹天气的预测方法、装置、电子设备以及存储介质。
相关背景技术
[0002] 冰雹是一种致灾性较强的强对流天气,但在气象业务工作中对其进行预警和预报仍有一定的难度。冰雹发生时往往伴随着雷暴大风、强降水、急剧降温等其他阵发性灾害性天气过程时,造成的灾害将更加严重。由于冰雹灾害性天气出现的范围较小、时段较短、突发性较强,在实际气象业务工作中有一定的预警和预报困难。
[0003] 随着雷达技术的不断发展及多普勒天气雷达网的不断加密,多普勒天气雷达除了在强对流天气的监测分析和短临预警方面起着关键作用,还可用于有效的识别冰雹,为防灾减灾提供有效的科学依据。发生冰雹天气时雷达反射率因子强度、垂直液态水含量及回波顶高,可用于冰雹的识别和预警。目前预报员对于冰雹事件的预报主要依赖于人工识别,工作量大且效率低,难以满足冰雹业务预警和预报的需求。
具体实施方式
[0025] 下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本公开,而不能理解为对本公开的限制。相反,本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0026] 需要说明的是,当前冰雹灾害性天气出现的范围较小、时段较短、突发性较强,在实际气象业务工作中有一定的预警和预报困难。当前对冰雹的预测主要依赖于人工识别雷达产品进行判断,对于预报员工作量大且无法保证冰雹业务预报的时效性。
[0027] 其中,需要说明的是,本实施例的冰雹天气的预测方法的执行主体可以为冰雹天气的预测装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置任意电子设备中,或者也可以是服务器,在此不进行限定。
[0028] 本公开实施例中,将以“冰雹天气的预测装置”作为执行主体执行冰雹天气的预测方法来进行说明,在此不进行限定。
[0029] 图1是根据本公开第一实施例提供的冰雹天气的预测方法的流程示意图。
[0030] 如图1所示,该方法包括:
[0031] S101:获取训练数据集,训练数据集中含有基于历史气象观测数据构建的因变量数据,以及基于历史雷达产品数据所构建的自变量数据。
[0032] 具体的,可以首先获取历史雷达产品数据和历史气象观测数据(气象地面站观测数据),历史雷达产品数据包括雷达反射率因子、组合反射率、平均径向速度、回波顶高、最强回波对应高度、垂直累积液水含量等。
[0033] 可选的,可以对雷达反射率因子等产品进行质量控制,滤除地物杂波,可能会采用各种算法和技术,如地物分类算法、阈值过滤等。
[0034] 之后,可以从经过质量控制后的反射率产品中提取自变量,可以选择一些统计特征或其他相关特征,如最大值、最小值、平均值、方差等。
[0035] 可选的,可以首先获取历史雷达产品数据,之后根据历史气象观测数据,判断不同时刻对应的冰雹事件标签,然后结合不同时刻对应的冰雹事件标签,以及不同时刻对应的雷达产品特征,构建不同时刻对应的样本数据对,最后基于不同时刻对应的样本数据对,构建训练数据集。
[0036] 其中,历史雷达产品数据中包括不同时刻对应的雷达产品特征,雷达产品特征至少包括雷达反射率因子、组合反射率、平均径向速度、回波顶高、最强回波对应高度和垂直累积液水含量。
[0037] 具体的,可以将历史的雷达探测产品数据(如反射率因子、平均径向速度等)和同步的历史地面观测数据(标识了冰雹事件或非冰雹事件)组合起来,共同构成了随机森林算法的训练数据集。
[0038] 其中,样本数据对为T时刻的雷达产品特征和T+△T时刻的冰雹事件标签之间的数据映射。
[0039] 举例来说,若△T为15分钟,则之后可以通过训练模型来建立t时刻的雷达产品数据与紧随其后的t+15分钟时刻是否发生冰雹事件的映射关系。也就是说,模型试图学习从当前的雷达产品数据预测未来15分钟内是否会形成冰雹事件。
[0040] 可选的,可以根据历史气象观测数据,确定不同时刻对应的固态水凝物直径,在任一时刻的固态水凝物直径大于或者等于预设阈值的情况下,确定任一时刻对应的冰雹事件标签为冰雹事件,否则为非冰雹事件。
[0041] 其中,预设阈值可以为5mm、6mm,在此不进行限定。
[0042] 具体的,可以收集历史气象地面站观测数据,根据固态水凝物直径大小判断是否为冰雹事件,直径≥5mm的判别为冰雹事件,否则为非冰雹事件。这些冰雹事件或非冰雹事件标记为随机森林模型的因变量(即目标变量)。
[0043] 可以理解的是,可以将处理好的雷达产品数据与地面观测数据的冰雹事件标签相结合,构成随机森林模型的训练集。利用随机森林算法进行特征抽样和最优特征选择,寻找雷达特征值中最能区分冰雹与非冰雹事件的指标。建立基于T时刻的雷达产品特征预测T+△T时刻冰雹事件发生的映射关系模型,并通过训练得到冰雹预警产品。
[0044] S102:基于训练数据集,对初始随机森林模型进行训练,以使初始随机森林模型完成目标学习目标。
[0045] 其中,随机森林的主要构建步骤包括:
[0046] 1、采样:随机森林采用自助采样法(Bootstrap Aggregation,Bagging)从原始训练集中有放回地抽样生成多个子集(Bootstrap Samples),每个子集用于训练一棵决策树。
[0047] 2、随机特征选择:在构建每棵决策树的过程中,并不是所有特征都参与每个节点的分裂,而是从所有特征中随机抽取一部分特征作为候选集,从中选择最优特征进行分割。
[0048] 3、决策树生长:每棵树都允许生长到最大程度,不需要剪枝,这样每棵树都可以尽量捕捉到数据集中的某种规律。
[0049] 4、预测与投票:在分类问题中,每棵树对未知样本进行分类投票,多数投票结果作为随机森林的预测结果;在回归问题中,取所有树的预测结果的平均值作为最终预测值。
[0050] 具体的,可以使用训练数据集对初始的随机森林模型进行训练。在训练过程中,模型会根据样本数据逐步调整自身的参数,以最大程度地拟合数据并达到预设的学习目标。在训练过程中,对模型的性能进行评估,可以使用交叉验证等技术来评估模型的泛化能力和准确性。根据评估结果,可能需要对模型的参数进行调整,以进一步提高模型的性能。经过一系列的训练和调整,初始的随机森林模型完成了目标学习,达到了预设的学习目标。
[0051] 可以理解的是,由于训练数据集中将每个T时刻的雷达产品特征与随后T+△T分钟时段内是否发生冰雹事件关联起来,构成样本数据对(X,y),其中X是雷达特征向量,y是冰雹事件标签(冰雹/非冰雹)。则进一步可以利用训练数据集进行随机森林模型训练,使用随机森林算法构建分类模型,利用上述样本数据对作为训练集。
[0052] 在构建决策树过程中,随机森林会对特征进行随机抽样(特征袋装化),并在每个节点处寻找最优特征进行划分,降低单棵树间的相关性,提高整体模型的泛化能力。
[0053] 随机森林还能自动评估各个特征的重要性,通过计算特征在减少不纯度方面的贡献来决定哪些雷达特征对于预测冰雹事件最为关键。依据特征重要性排序,可以选择最优的一组特征用于后续模型优化或直接用于构建最终的预警系统。训练完成后,利用未参与训练的数据对模型进行验证和测试,确保模型对未来的冰雹事件预测准确可靠。应用训练好的随机森林模型,对实时获取的雷达产品数据进行预测,模型会给出在T时刻观测到的雷达特征条件下,未来T+△T分钟内出现冰雹的可能性评分或直接的冰雹预警结果。结合阈值设定或其他策略,将模型预测结果转化为冰雹预警产品,供气象部门及时发布预警信息。
[0054] 其中,在模型的参数达到可用条件,且验证通过的情况下,可以认为完成的目标学习目标。或者,在初始随机森林模型在T时刻观测到的雷达特征条件下,对未来T+△T分钟内出现冰雹的预测准确度大于预设的阈值的情况下,则可以认为满足看目标学习目标。
[0055] 可选的,可以利用初始随机森林模型,对训练数据集中不同时刻对应的样本数据对进行特征抽样和最优分裂,以得到最优分类输出的结果。
[0056] 可以理解的是,可以利用随机森林模型进行特征抽样和最优分裂。特征抽样指的是在众多雷达特征值中随机抽取部分特征用于构建决策树,通过集成大量的决策树形成森林结构。最优分裂则是指在每个决策树节点上,随机森林算法会选择特征值中能够最好地区分冰雹事件和非冰雹事件的那个特征进行划分,以构建每一棵决策树。比如说,可以通过训练模型来建立t时刻的雷达产品数据与紧随其后的t+15分钟时刻是否发生冰雹事件的映射关系。也就是说,模型试图学习从当前的雷达产品数据预测未来15分钟内是否会形成冰雹事件。最后,经过训练得到的随机森林模型,在面对新的雷达产品数据时,会根据多种雷达特征值进行分析,并输出最优分类结果,即冰雹预警产品。预警产品会指示在未来15分钟内发生冰雹的概率或者直接给出冰雹预警信号,为冰雹天气的实时预报和预警服务提供科学依据。
[0057] S103:将完成目标学习目标的初始随机森林模型作为训练完成的随机森林模型。
[0058] 具体来说,若初始模型完成目标学习,可以将其作为训练完成的随机森林模型,用于后续的预测和应用。通过这样的步骤,可以利用随机森林模型对雷达产品和冰雹事件之间的关系进行学习,并使用训练完成的模型来进行预测和应用。
[0059] S104:基于随机森林模型和第一时刻的目标雷达产品数据,预测第二时刻是否会发生冰雹事件,其中,第一时刻早于第二时刻。
[0060] 其中,第一时刻和第二时刻之间的时间间隔为△T。
[0061] 其中,第一时刻可以指当前时刻,或者也可以为任一未来时刻,在此不进行限定。其中,第二时刻可以为第一时刻之后的时刻。其中,第二时刻和第一时刻之间的时间间隔可以为△T。
[0062] 需要说明的是,可以利用未来的冰雹事件进行模型验证,更新雷达产品和气象观测数据,重新优化随机森林模型参数,完善冰雹预测模型,为冰雹业务预报和预警提供指导性建议。本发明提出通过随机森林模型进行冰雹事件的业务预测,可为冰雹事件的业务预测预警提供科学客观的指导意见,从而为项目施工、建筑设计、防灾减灾等行业提供气象保障。
[0063] 可选的,按照指定的时间周期,获取冰雹事件的数据;
[0064] 基于所述冰雹事件的数据,对所述随机森林模型进行验证和优化。
[0065] 可选的,可以按照指定的时间周期,获取冰雹事件的数据,确保数据的准确性和完整性。这些数据将用于验证和优化随机森林模型。之后,可以使用获取的冰雹事件数据对当前的随机森林模型进行验证,评估其在真实数据上的表现和准确度。根据验证结果,对随机森林模型的参数进行优化,可能需要调整特征选择、树的数量、树的深度等参数,以提高模型的预测能力。在对模型进行参数优化后,再次使用冰雹事件数据对优化后的模型进行验证,确保模型的性能得到了改善。根据最终优化后的模型,为冰雹业务预报和预警提供指导性建议,以确保模型能够在实际应用中取得良好的效果。
[0066] 本公开实施例中,首先获取训练数据集,训练数据集中含有基于历史气象观测数据构建的因变量数据,以及基于历史雷达产品数据所构建的自变量数据,之后基于训练数据集,对初始随机森林模型进行训练,以使初始随机森林模型完成目标学习目标,然后将完成目标学习目标的初始随机森林模型作为训练完成的随机森林模型,最后基于随机森林模型和第一时刻的目标雷达产品数据,预测第二时刻是否会发生冰雹事件,其中,第一时刻早于第二时刻。由此,通过收集历史的雷达产品、强对流天气数据,通过构建随机森林模型用于冰雹预测,从而提高实现冰雹事件的业务化客观识别,为预报员进行冰雹事件的预测提供指导性建议。由此,随机森林能够有效利用雷达观测数据,找出与冰雹事件紧密相关的特征组合,进而构建出具备较好预测性能的冰雹预警模型。
[0067] 图2是根据本公开第二实施例提供的冰雹天气的预测方法的流程示意图。
[0068] 图3是根据本公开另一实施例的冰雹天气的预测装置的示意图。
[0069] 如图3所示,该冰雹天气的预测装置300包括:
[0070] 获取模块310,用于获取训练数据集,所述训练数据集中含有基于历史气象观测数据构建的因变量数据,以及基于历史雷达产品数据所构建的自变量数据;
[0071] 训练模块320,用于基于所述训练数据集,对初始随机森林模型进行训练,以使所述初始随机森林模型完成目标学习目标;
[0072] 确定模块330,用于将完成所述目标学习目标的所述初始随机森林模型作为训练完成的随机森林模型;
[0073] 预测模块340,用于基于所述随机森林模型和第一时刻的目标雷达产品数据,预测第二时刻是否会发生冰雹事件,其中,所述第一时刻早于所述第二时刻。
[0074] 可选的,所述获取模块,包括:
[0075] 第一获取单元,用于获取历史雷达产品数据,其中,所述历史雷达产品数据中包括不同时刻对应的雷达产品特征,所述雷达产品特征至少包括雷达反射率因子、组合反射率、平均径向速度、回波顶高、最强回波对应高度和垂直累积液水含量;
[0076] 第一判断单元,用于根据历史气象观测数据,判断不同时刻对应的冰雹事件标签;
[0077] 第一构建单元,用于结合所述不同时刻对应的冰雹事件标签,以及所述不同时刻对应的雷达产品特征,构建不同时刻对应的样本数据对;
[0078] 第二构建单元,用于基于所述不同时刻对应的样本数据对,构建所述训练数据集。
[0079] 可选的,所述样本数据对为T时刻的雷达产品特征和T+△T时刻的冰雹事件标签之间的数据映射,所述第一时刻和所述第二时刻之间的时间间隔为△T。
[0080] 可选的,所述第一判断单元,具体用于:
[0081] 根据所述历史气象观测数据,确定不同时刻对应的固态水凝物直径;
[0082] 在任一时刻的固态水凝物直径大于或者等于预设阈值的情况下,确定所述任一时刻对应的冰雹事件标签为冰雹事件,否则为非冰雹事件。
[0083] 可选的,所述训练模块320,具体用于:
[0084] 利用所述初始随机森林模型,对所述训练数据集中所述不同时刻对应的样本数据对进行特征抽样和最优分裂,以得到最优分类输出的结果。
[0085] 可选的,所述预测模块,还用于:
[0086] 按照指定的时间周期,获取冰雹事件的数据;
[0087] 基于所述冰雹事件的数据,对所述随机森林模型进行验证和优化。
[0088] 本公开实施例中,首先获取训练数据集,训练数据集中含有基于历史气象观测数据构建的因变量数据,以及基于历史雷达产品数据所构建的自变量数据,之后基于训练数据集,对初始随机森林模型进行训练,以使初始随机森林模型完成目标学习目标,然后将完成目标学习目标的初始随机森林模型作为训练完成的随机森林模型,最后基于随机森林模型和第一时刻的目标雷达产品数据,预测第二时刻是否会发生冰雹事件,其中,第一时刻早于第二时刻。由此,通过收集历史的雷达产品、强对流天气数据,通过构建随机森林模型用于冰雹预测,从而提高实现冰雹事件的业务化客观识别,为预报员进行冰雹事件的预测提供指导性建议。
[0089] 根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0090] 图4示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图4显示的计算机设备12仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0091] 如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0092] 总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry Standard Architecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association;以下简称:VESA)局域总线以及外围组件互连(Peripheral Component Interconnection;以下简称:PCI)总线。
[0093] 计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0094] 存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。
[0095] 尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read Only Memory;以下简称:CD‑ROM)、数字多功能只读光盘(Digital Video Disc Read Only Memory;以下简称:DVD‑ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
[0096] 具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。
[0097] 计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
[0098] 处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的冰雹天气的预测方法。
[0099] 本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0100] 应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
[0101] 需要说明的是,在本公开的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0102] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
[0103] 应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
[0104] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0105] 此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0106] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0107] 尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。