首页 / 一种基于数据挖掘的水库调度预报信息有效精度识别方法

一种基于数据挖掘的水库调度预报信息有效精度识别方法有效专利 发明

技术领域

[0001] 本发明属于水库调度技术领域,涉及一种基于数据挖掘的水库调度预报信息有效精度识别方法。

相关背景技术

[0002] 水库作为拦洪蓄水和调节水流的水利工程建筑物,通常具有灌溉、发电、防洪等功能,在使水资源更适合人类社会发展以及维护生态环境等方面发挥着重要作用。考虑未来预报信息的优化调度能够有效提高水库系统效益,但预报信息中往往包含不确定性,从而导致调度风险和效益损失,而且不同预报精度的信息对水库调度的影响也不同。如何识别出能够指导水库决策的有效精度,从而帮助决策者在众多调度预报方案中筛选出有用信息,对水库的运行管理具有重要意义。
[0003] 信息技术的发展提高了水利信息采集、输送、存储和处理的效率,为人们提供了大量的水文数据。数据挖掘能够通过寻找大量数据中隐含的相关关系,并将其归纳整理,转换成有用的信息和知识。随机森林作为一种数据挖掘技术,以其运算量小、预测精度高等特点而被用于分类和回归分析[1]。易尧华等[2]提出了一种基于随机森林的卫星遥感影像云量计算方法,通过样本获取、影像回归分类等步骤计算遥感影像中的云量。
[0004] 目前,数据挖掘技术也被运用于水库调度及水文预报领域。例如:杨旭和刘宇[3]引入完整率和有效性的概念,并将数据挖掘运用于三峡水库调度自动化系统水位数据质量的衡量中。和吉等[4]利用数据挖掘技术挖掘了实测数据与降水、前期影响雨量和净雨量的关系,从而对陡河水库进行洪水预报。张弛[5]等利用数据挖掘中的决策树技术对多年水库实际水文数据和调度数据进行分析和挖掘,结合预报入流从中挖掘出调度树形式的水库调度规则。然而,现有研究并未采用数据挖掘技术将水库调度与预报信息相结合,识别有效的预报精度。
[0005] 目前考虑预报信息的水库调度方法主要可从两个方面增加水库综合效益:(1)扩展信息来源:通过不同方法以及不同途径获得若干组预报数据,如TRMM、CMORPH遥感数据、TIGGE数值预报数据等,以提高调度决策的稳健性,但精度较低的预报数据包含大量的噪声,会对决策造成干扰;(2)延长预见期:预见期的延长意味着能提供更多的径流信息,有利于调度决策,但受水文现象准随机特性的影响,预见期的增长会导致预报精度的降低,影响科学决策。一般而言,预报信息来源不是越多越好,而预见期也不是越长越好,两者对水库调度的影响取决于预报精度,故有必要评定各种信息来源的精度。
[0006] 现有的预报精度评定方法仅仅考虑预报信息与实测值的差异,并未考虑其对水库调度的影响。而目前水库调度方法往往直接利用满足某一精度的预报结果,并未充分利用已有信息,故有必要结合水库调度识别出有效的预报信息。随机森林作为一种数据挖掘方法,能够利用信息论原理对大量的预报数据进行分析和归纳,识别出对水库调度有价值的信息。
[0007] 本发明涉及的参考文献如下:
[0008] [1]李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,2013,50(4):1190-1197.
[0009] [2]易尧华,袁媛,张宇,等.一种基于随机森林的卫星遥感影像云量计算方法.专利号:CN105260729A.
[0010] [3]杨旭,刘宇.基于数据挖掘的三峡水库调度自动化系统水位数据质量研究[J].水利水电技术,2011,42(11):98-101.
[0011] [4]和吉,王松林,吴庆林,等.数据挖掘技术在陡河水库洪水预报中的应用[J].人民黄河,2012,34(8):41-43.
[0012] [5]张弛,周惠成,王本德.决策树技术在水库兴利调度中的应用研究[J].哈尔滨工业大学学报,2007,39(8):1314-1318.

具体实施方式

[0040] 本发明将水库多目标优化调度模型与随机森林模型相结合,提出了基于数据挖掘的水库调度预报信息有效精度识别方法,具体流程见图1。
[0041] 下面通过实施例,并结合附图,对本发明技术方案做进一步具体说明。
[0042] 步骤1,收集水库上游站点观测的流量数据和气象资料,选择气象资料和与水库具有水力联系的流量数据作为预报信息。
[0043] 步骤2,以水库的历史入库流量为输入,以调度时段初的水库水位为状态,以调度时段末的水库水位为决策变量,采用动态规划法对水库调度过程进行优化,得到水库最优调度轨迹。
[0044] 具体实施时,可任选一目标效益函数,满足水库的该目标效益值最大的调度轨迹即最优调度轨迹。所述的目标效益函数可以为防洪目标函数、发电目标函数或供水目标函数等。
[0045] 本步骤采用了本领域的常规技术。为便于理解,下面将对本步骤进行详细说明。
[0046] 2.1假设水库调度时段总数为T,令初始状态下水库目标效益值为0。除首调度时段和尾调度时段外,将其他各调度时段初的水库水位离散为m1点,将其他各调度时段末的水库水位离散为m2点,即共有m1×m2种决策方案。本发明中,调度时段初的水库水位即状态,调度时段末的水库水位即决策变量。
[0047] 2.2根据所选的目标效益函数,计算各决策方案对应的水库目标效益值,将所得水库目标效益值和对应决策方案当前调度时段的水库目标效益值相加,即得各决策方案下一调度时段的水库目标效益值。采用本子步骤可获得各决策方案下各调度时段的水库目标效益值。
[0048] 2.3当前调度时段下,将各状态下水库目标效益值的最大值作为该状态当前调度时段的水库目标效益值,记录该状态下各决策方案及对应的水库目标效益值作为决策过程。
[0049] 2.4重复子步骤2.2~2.3,直至遍历所有调度时段,获得所有调度时段的决策过程。
[0050] 2.5根据各调度时段的决策过程,回代计算得到相应的水库调度轨迹,即最优水库最优调度轨迹。
[0051] 步骤3,令水库各预报信息的误差服从正态分布,按照给定误差水平对预报信息进行扰动,生成符合给定误差水平的预报信息。
[0052] 以径流预报为例,采用确定性系数R2衡量误差水平,本发明中确定性系数R2的优选取值范围为0.10~0.95。给定误差水平即给定R2值,R2值越大,误差水平越低;预报信息的误差ε服从均值为0的正态分布,即ε:N(0,σ),根据R2计算方差σ:
[0053]
[0054] 故预报信息采用下式进行扰动:
[0055]
[0056] 式(1)~(2)中,t和T分别表示调度时段和调度时段总数;Qt表示调度时段t的实测流量,即预报信息; 表示调度时段t的预报流量,即扰动生成的预报信息;为实测流量期望值,即实测流量的平均值。
[0057] 步骤4,基于步骤2所得水库最优调度轨迹和步骤3所生成预报信息,采用随机森林法建立水库最优调度轨迹与决策变量、预报信息间的映射关系,即随机森林决策树。
[0058] 随机森林法为本领域常规技术,以水库最优调度轨迹为输入y,以包含水库状态和预报信息的K个变量为输出a={a1,...,aK},y和a组成长度为T的输入输出数据集S,以输入输出数据集S作为训练集,a为属性集。
[0059] 为便于理解,下面将对本步骤进行详细说明。
[0060] 4.1从数据集S中有放回的抽取长度为N(N<T)的训练集S'作为根节点的样本,从根节点开始训练。
[0061] 4.2判断当前节点的样本是否可分割,若可分割,执行子步骤4.3;若不可分割,将当前节点设为叶子节点,然后,将其他子节点作为当前节点,执行本子步骤;所述的当前节点为根节点或子节点。
[0062] 4.3无放回的随机选取属性,寻找该属性下分类效果最好的属性阈值s*,根据属性阈值s*对当前节点样本进行划分,即将当前节点样本中该属性值小于s*的样本划分到左子节点,其余样本划分到右子节点,并删除当前节点的原始样本。
[0063] 寻找分类效果最好的属性阈值s*时,argmax(Var-VarLeft-VarRight)为评判标准。以随机选取的该属性为分类标准,依次令当前节点样本中该属性值为aj,然后执行如下:
[0064] 将当前节点样本中该属性值大于aj的样本划分到左子节点,其余样本划分到右子节点,计算Var-VarLeft-VarRight值,其中,Var表示当前节点样本的方差,VarLeft表示左子节点样本的方差,VarRight表示右子节点样本的方差。
[0065] 最大Var-VarLeft-VarRight值对应的属性值即属性阈值s*。
[0066] 4.4重复子步骤4.1~4.3,直至遍历数据集S。
[0067] 本步骤中,按照左到右的顺序对各子节点进行训练。
[0068] 步骤5,根据随机森林决策树,统计所有节点上各属性出现的次数,将出现次数最多的P个属性作为与水库最优调度轨迹相关性较大的决策变量,记为相关决策变量。P值人为设定,一般取为属性总数的1/2。
[0069] 步骤6,逐步减小R2,即增大误差水平,重复步骤3~5,当所得相关决策变量中不存在预报信息时,认为当前误差水平已不能满足水库优化调度需求,将上一个确定性系数R2作为水库调度预报信息的有效精度。

当前第1页 第1页 第2页 第3页
相关技术
挖掘水库相关技术
数据挖掘相关技术
杨光发明人的其他相关专利技术