技术领域
[0001] 本发明属于机器学习技术领域,具体涉及一种森林火灾风险预测方法。
相关背景技术
[0002] 森林火灾指发生在森林或林地区域的火灾事件,它对生态系统产生了显著的负面影响,包括植被的广泛损毁、动物栖息地的破坏以及土壤质量的恶化,进而可能引发水土流失,还可能对附近居民的生命和财产安全构成威胁,因此对森林火灾风险预测显得尤为重要,通过科学的风险预测,可以有效识别出潜在的高风险区域,并及时采取适当的预防与应对措施,从而降低火灾发生的概率及其所带来的损失。
[0003] 机器学习因其同时处理多种数据类型、实时处理新数据的能力以及良好的可扩展性,在森林火灾预测中展现了显著优势,利用其进行森林火灾预测能够自动从复杂的数据中学习和识别潜在的火灾风险,从而实现更精确的预测,然而,现有基于机器学习的森林火灾预测方法简单的将不同类型数据拼接并嵌入到一个特征空间中,忽视它们间的多元相关性,从而限制模型的表现能力和泛化能力。
[0004] 森林火灾风险评估数据通常呈现出高度的非线性和复杂的关系,将每种数据序列独立嵌入到一个特征空间中,有助于机器学习模型更有效地学习和利用不同数据间的潜在联系,关注空间邻域特征,随后将数据序列信息转为时间序列信息,进一步利用时间维度的信息,能够使得模型能够更全面、准确地预警森林火灾风险,帮助制定有效的防火措施,减少森林火灾造成的损失。
具体实施方式
[0024] 本发明提出一种森林火灾风险预测方法,该方法通过构建同一地点的多源数据序列特征,充分利用不同数据源之间的潜在关联性,接着,采用图卷积网络捕获并聚合空间邻域的特征信息,使模型能够识别和学习相邻区域间的相关性与依赖性,最后,将数据序列特征转化为时间序列特征,结合时间序列信息的捕获与处理,该方法全面考虑数据、邻域及时间三个维度,从而获取更加丰富和全面的特征表示,实现对森林火灾风险的精准预测,以下将对本发明实施例中的技术方案进行详细、完整的描述,具体包括以下步骤,如图1所示。
[0025] S1、收集每个森林区域3年的相关监测数据,包括温度、降水量、风速、风向、相对湿度、植被类型、地面上可燃物质的积累量、地形朝向、烟雾含量,对数据进行清洗,包括填充缺失值、去掉不相关数据、部分数据进行缩放,以提升数据的质量,构建森林火灾风险评估数据集,最后将该数据集按7比3的比例划分训练集和验证集,每天数据的前14天数据作为方法学习的历史数据。
[0026] 进一步地,森林区域相关监测数据为 ,其中为数据类型数量, 为时间序列长度,对于第 种数据,在 天内所获得的监测值序列为 ,其中 为 时刻获得的监测
值,将 通过查找表函数获得相应的特征向量:
;
式中 为查找表函数, 为 通过查找表获得的新特征向量,将
中数据全部经过查找表映射后,并按时间顺序进行拼接,具体过程如下:
;
式中 为第 种数据在 天内所获得监测值序列的统一特征表示,符
号 为拼接操作。
[0027] S3、构建数据特征信息交互模块,通过多头注意力机制使该特征向量与其他类型数据的特征向量进行交互,从而捕捉不同类型数据间的关联性,生成更为丰富且具代表性的特征嵌入。
[0028] 进一步地,如图2所示,通过使用包含 个注意力头的多头注意力机制,捕捉不同类型数据之间的关联性,将输入特征向量矩阵 分别通过三个线性变换,生成查询矩阵 、键矩阵 和值矩阵 ,具体的计算过程如下:
;
;
;
式中 、 和 分别为查询矩阵、键矩阵和值
矩阵, 、 和 分别为用于生成查询、
键和值的可训练权重矩阵,随后,计算查询和键之间的点积以获得注意力得分矩阵,具体的计算过程如下:
;
式中 为第 个注意力头的注意力得分矩阵, 为
函数, 、 和 为第 个注意力头的查询、键和值,
为键向量的维度,其中 为经过查找表函
数得到的数据维度, 为多头注意力机制的注意力头数量, 为缩放因子,用于防止点积值过大导致的梯度消失问题, 为转置操作,对每个头 分别计算注意力后,将所有头的输出进行拼接,得到多头注意力机制的输出,具体的计算过程如下:
;
式中 为最终的特征输出,其中
为第 类数据通过多头注意力机制得到的特征表示, 为输出变
换的权重矩阵, 为拼接操作。
[0029] S4、构建空间邻域特征交互模块,通过图卷积网络学习当前森林区域与其相邻区域之间的相关性权重,利用相关性权重将相邻区域的特征信息聚合到当前森林区域的特征信息中,从而使当前森林区域的特征表示中包含丰富的空间邻域综合信息。
[0030] 进一步地,如图3所示,以森林区域为节点,森林区域间是否相邻作为边,构建森林区域间的邻接矩阵,其中将相邻的森林区域标记为1,非相邻区域标记为0,通过图卷积网络学习当前森林区域与其相邻区域之间的相关性权重,并利用这些权重对相邻区域的特征信息进行聚合,具体的计算过程如下:;
;
式中 为经过图卷积网络后得到的特征矩阵, 为森林区
域间的邻接矩阵,其中 为划分的森林区域的数量, 为单位矩阵,
为加自环的邻接矩阵, 为 的度矩阵,其对角线元素是 的每行元素之
和, 为可训练权重矩阵。
[0031] S5、按照时间顺序依次抽取数据序列中每一时刻的相关信息,并对这些信息进行拼接,以构建完整的时间序列,在此过程中,每一时间步的数据信息包括特定森林区域在同一时间点的所有观测数据,从而确保时间序列信息能够反映该区域的动态变化情况。
[0032] 进一步地,如图4所示,首先提取 中的各类数据在同一时刻的特征表示进行拼接,以获得时间序列特征表示 ,其中 为第时刻的特征表示。
[0033] S6、构建时序特征捕获模块,将时间序列数据输入到LSTM网络中,提取时间维度的依赖关系,以增强模型对时间动态特征的理解和表达能力。
[0034] 进一步地,利用LSTM捕获长时间的依赖关系,获得包含历史信息的特征表示,具体计算过程如下:;
;
;
;
;
;
式中 为可学习的权
重参数, 为偏置参数,为 函数,
分别为时间戳 处LSTM的输入门、遗忘门和输出门, 为
时间戳 处的候选记忆单元, 为时间戳 处的记忆单元, 为时间戳
处的隐藏状态, 为按元素相乘。
[0035] S7、构建全连接神经网络,对最终得到特征表示进行计算得到最终森林火灾风险预测值。
[0036] 进一步地,所述步骤S7中,取步骤S6中LSTM最后时刻的输出作为最终的特征向量表示,将该特征向量通过全连接神经网络,计算得到最终的森林火灾风险预测值:;
式中 为全连接神经网络, 为 函数, 为LSTM
最后时刻的输出, 为最终的森林火灾风险预测值。
[0037] 进一步地,该方法使用Python3.9语言,在CUDA12环境下使用PyTorch框架,在NVIDIA RTX 3090 GPU上进行训练,训练过程中的批大小为64,学习率为 。
[0038] 进一步地,该方法预测效果如图5所示,纵坐标为森林火灾可能性(%),横坐标为时间(天),星号表示森林真实发生火灾,黑色直线表示预测森林火灾可能性,从图中可以看出真实发生火灾时该方法所获得预测值在80%左右,能够很好的与真实数据拟合,证明了该方法的有效性。
[0039] 以上仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。