技术领域
[0001] 本发明涉及一种基于分位数回归森林的独立计量区用水量区间预测方法,属于水资源管理技术领域。
相关背景技术
[0002] 水是人类活动不可缺少的重要资源,随着社会经济的发展、人口的增加、人类对水资源需求的提高及水资源的日益短缺等,水资源供需矛盾更加突出,因此,进行合理有效的水资源需求预测已成了各个国家和地区进行水资源规划的主要任务。因此,如何进一步降低漏损已成为当前亟待解决的问题。
[0003] 随着供水管网智能化、精细化管理要求的不断提高,DMA(District Metering Area,表示独立计量区)分区管理日益成为供水管网漏损控制的重要手段。作为DMA实施主动漏损控制的关键一环,基于流量的实时漏损诊断对于降低漏损率十分重要。时间颗粒度为分钟级别的用水量预测是基于流量的DMA实时漏损诊断的重要基础。经分析,发现现有的DMA用水量预测方法大都属于点预测。点预测能够提供一个确定的预测值,使得供水管网管理者在进行决策时有明确的参考点,但是点预测会存在不同程度的误差,难以描述预测结果的不确定性,从而给实时漏损诊断工作带来一定的困难。区间预测不仅能够提供一个预测范围,还能提供关于预测不确定性的信息。目前还未见有通过TCN‑Attention‑QRF模型对DMA用水量的变化趋势和波动范围进行预测的相关报道。
具体实施方式
[0053] 为了更好的解释本发明的技术方案,下面结合实施例对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0054] 如图1所示,本发明所述的一种基于分位数回归森林的独立计量区用水量区间预测方法,包括以下步骤:
[0055] (1)收集原始用水量数据,对原始用水量数据进行预处理,得到预处理后的用水量数据。
[0056] 其中所述对原始用水量数据进行预处理包括数据清洗和归一化处理。进一步的,采用离差标准化方法进行归一化处理。
[0057] (2)对预处理后的用水量数据进行自相关性分析,选取相关性较强的输入变量,构造出合适的样本集,将样本集划分为训练集和验证集。
[0058] 其中选取的输入变量集合包括:预测日i时刻之前n个用水量数据、预测日前j日i时刻及其之前和之后n个用水量数据等。
[0059] 该步骤中,按照数据划分策略划分为包括但不限于训练集和验证集,划分策略可以是随机排列或其它方式,如可以将样本集按6:2:2的比例划分为训练集、验证集和测试集。
[0060] (3)先用TCN模型提取训练样本的深层次时序特征,然后通过Attention机制帮助TCN模型更有效地捕获训练样本中的关键信息,之后将所提取的特征作为输入训练QRF模型,构建得到TCN‑Attention‑QRF模型。
[0061] (4)在验证集上利用GJO算法对TCN‑Attention‑QRF模型的超参数进行寻优,获取最优超参数并创建优化后的TCN‑Attention‑QRF模型。
[0062] 步骤(4)中在验证集上利用GJO算法对TCN‑Attention‑QRF模型的超参数进行寻优,获取最优超参数的具体流程如图2所示,具体实现过程包括:
[0063] 4.1)输入待优化问题信息,包括决策变量即需要优化的各超参数,目标函数以及决策变量的取值范围;
[0064] 在TCN模型中需要优化的超参数包括初始学习率、正则化系数、一维卷积层过滤器的个数和宽度等;QRF模型需要优化的超参数包括树的数量、树的最大深度等。其他未提及的超参数可采用常规默认值。
[0065] 优选以平均区间分数作为适应度函数,采用如下公式进行计算:
[0066]
[0067] 式中,AIS表示平均区间分数;Si为第i个预测区间的区间分数;li和ui分别为第i个预测区间的下限和上限;yi为第i个目标值;num为测试样本的数量;μ为由置信水平确定的系数,其值等于置信水平。
[0068] 4.2)初始参数设置,包括设置种群规模N和最大迭代次数T。
[0069] 4.3)初始化种群,种群初始化采用以下表达式:
[0070] Y0=Ymin+rand×(Ymax‑Ymin) (11)
[0071] 式中,Y0为初始金豺种群的位置;rand为[0,1]之间的随机数;Ymax和Ymin分别为求解问题(在本申请中求解问题为候选解)的上限和下限;
[0072] 在GJO算法中,猎物矩阵表示为:
[0073]
[0074] 式中,Prey为猎物矩阵;Yi,d为第i个猎物的第d维位置;N为猎物的数量;i=1,…,N;d=1,…,m。
[0075] 4.4)通过适应度函数计算每个猎物的适应度值,确定雄性金豺的位置和雌性金豺的位置。
[0076] 通过适应度函数计算每个猎物的适应度值,选择适应度值最优的猎物记为雄性金豺,适应度值次优的猎物记为雌性金豺;所有猎物的适应度值矩阵表示如下:
[0077]
[0078] 式中,FOA为猎物的适应度值矩阵;f()为适应度函数或目标函数;d=1,…,m。
[0079] 4.5)计算猎物的逃脱能量,并计算基于莱维分布的随机数。
[0080] 猎物的逃脱能量记为E,用如下公式进行计算:
[0081] E=E1*E0 (1)
[0082] 式中,E0为猎物初始能量,计算公式为E0=2*r‑1,其中r为[0,1]之间的随机数;E1为猎物能量的下降系数,计算公式为E1=c1*(1‑(t/T)),其中,c1为一常数,取值为1.5,T为最大迭代次数,t为当前迭代次数。在整个迭代过程中,E1从1.5线性减少到0。
[0083] 基于莱维分布的随机数记为rl,用如下公式进行计算:
[0084] rl=0.05*LF(y) (2)
[0085] 式中,LF()为莱维飞行函数。
[0086] 4.6)判断所计算猎物的逃脱能量的绝对值与1的关系,当猎物逃脱能量的绝对值大于或等于1时,用公式(3)、(4)和(5)更新雄性金豺的位置和雌性金豺的位置;否则用公式(6)、(7)和(5)更新雄性金豺的位置和雌性金豺的位置。
[0087] 在搜索猎物阶段(即猎物逃脱能量的绝对值大于或等于1时),雄性金豺和雌性金豺一起捕猎行为可用以下数学模型描述:
[0088] Y1(t)=YM(t)‑E·|YM(t)‑rl·Prey(t)| (3)
[0089] Y2(t)=YFM(t)‑E·|YFM(t)‑rl·Prey(t)| (4)
[0090] t为当前迭代次数;Y1(t)和Y2(t)分别为第t次迭代与猎物相应的雄性金豺和雌性金豺更新后的位置;Prey(t)为第t次迭代猎物的位置;YM(t)和YFM(t)分别为第t次迭代雄性金豺和雌性金豺的位置;
[0091] E为猎物的逃脱能量,用前述公式(1)进行计算;
[0092] rl为一个基于莱维分布的随机数,用前述公式(2)进行计算。
[0093] 根据上述公式,在搜索猎物阶段,雄性金豺和雌性金豺的位置更新公式如下:
[0094]
[0095] 式中,Y(t+1)为第t+1次迭代后金豺的位置;Y1(t)和Y2(t)分别为第t次迭代与猎物相应的雄性金豺和雌性金豺更新后的位置。
[0096] 在包围并攻击猎物阶段(即猎物逃脱能量的绝对值小于1时),雄性金豺和雌性金豺一起捕猎行为可用以下数学模型描述:
[0097] Y1(t)=YM(t)‑E·|rl·YM(t)‑Prey(t)| (6)
[0098] Y2(t)=YFM(t)‑E·|rl·YFM(t)‑Prey(t)| (7)
[0099] 式中,t、Y1(t)、Y2(t)、Prey(t)、YM(t)、YFM(t)、E和rl的定义与前述相同。
[0100] 在包围并攻击猎物阶段,雄性金豺和雌性金豺的位置更新仍按照公式(5)计算。
[0101] 4.7)判断是否完成种群中所有猎物的逃脱能量的计算,如果完成则保存更新的雄性金豺位置和雌性金豺位置并继续步骤4.8),否则返回步骤4.5)更新猎物的逃脱能量以及基于莱维分布的随机数。
[0102] 4.8)判断是否满足算法终止条件,如果满足,输出保存的更新雄性金豺位置(该更新雄性金豺的位置即为最优超参数组合);如果不满足,则迭代次数加1,返回步骤4.4)继续迭代。
[0103] 所述的终止条件通常为达到最大迭代次数。
[0104] (5)根据给定置信水平设置相应的分位数,对优化后的TCN‑Attention‑QRF模型输入待预测样本获取所述分位数下的预测结果。
[0105] (6)根据所得分位数的预测结果构建给定置信水平相对应的预测区间。
[0106] 采用公式(10)根据所得分位数的预测结果构建给定置信水平相对应的预测区间:
[0107] PI(x)=[Q0.5α(x),Q1‑0.5α(x)] (10)
[0108] 式中,PI(x)为目标值x对应的预测区间;α为显著性水平;Q0.5α为在分位数0.5α下的预测结果;Q1‑0.5α为在分位数(1‑0.5α)下的预测结果。
[0109] 实施例1:以一个DMA算例对本发明所述方法的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。
[0110] 所选取的算例主要向居民住宅区和少量工业企业供水。在本算例中,所有测试均在Matlab 2023a环境中进行。本算例的具体实施步骤如下:
[0111] (1)用水量数据的收集和预处理
[0112] 本算例数据集的采集时间为2024年1月1日至2024年2月29日(共60天),采集时间间隔为15min,共获得有5760条数据。图3为该DMA典型的一周用水量曲线。
[0113] 受计量设备异常、管道维修等不可控因素的影响,数据采集过程中存在数据缺失以及数据异常等情况。数据质量对模型的性能有直接影响,因此在数据输入模型前需要进行数据清洗以提高数据质量。数据清洗的具体措施如下:采用前两天同一时刻的用水量的平均值进行缺失值填充;采用前两个用水量数据的平均值替换异常值。数据清洗完成后,采用离差标准化方法对数据进行归一化处理。离差标准化方法的数学表达式如下:
[0114]
[0115] 式中,xnorm为归一化后的值;x为原始用水量数据;xmax和xmin分别为原始用水量数据的最大值和最小值。
[0116] (2)样本集的构建
[0117] 分别在工作日和休息日随机选取1天用水量数据进行自相关性分析,如图4所示。从图3和图4可以看出,用水量数据具有明显的短期相关性和周期性,从中选取的输入变量集合为:预测日i时刻之前n个用水量数据、预测日前j日i时刻及其之前和之后n个用水量数据、每小时采样次数m,样本的数据结构如下述表1所示:
[0118] 表1样本的数据结构
[0119]
[0120] 根据自相关性分析结果,可以确定表1中的n值。在本算例中选取自相关系数大于0.8对应的滞后数为4,将其作为n的值,因此n=4。由于数据的采样时间间隔为15min,因此m=60/15=4。根据试凑法,同时考虑到输入样本的变量太多会影响处理效率,故而j的取值为2。参数n、j、m确定后,即可获得样本的具体数据结构,进而生成合适的样本。
[0121] 根据表1中的样本构造方式,本算例共生成5564个样本。将样本集按照6:2:2的比例划分为训练集、验证集和测试集,由此可得到3338个训练样本、1113个验证样本和1113个测试样本。
[0122] (3)TCN‑Attention‑QRF模型的构建
[0123] 先用TCN模型提取训练样本的深层次时序特征,然后通过Attention机制帮助TCN模型更有效地捕获训练样本中的关键信息,之后将所提取的特征作为输入训练QRF模型,构建得到TCN‑Attention‑QRF模型。
[0124] (4)创建优化后的TCN‑Attention‑QRF模型
[0125] 以最小AIS作为优化目标,在验证集上利用GJO算法对TCN‑Attention‑QRF模型的超参数进行寻优,获取最优超参数并创建优化后的TCN‑Attention‑QRF模型。
[0126] TCN模型需要优化的超参数包括初始学习率、正则化系数、一维卷积层过滤器的个数和宽度等。Attention模型需要优化的超参数有注意力头数、键和查询通道数等。QRF模型需要优化的超参数有树的数量、树的最大深度。具体的参数设置细节如表2所示,其中中括号内的数值表示寻优范围。表2中未涉及的超参数均采用默认值。
[0127] 表2TCN‑Attention‑QRF模型的参数设置
[0128]
[0129]
[0130] 为有效评估模型的区间预测性能,选取预测区间覆盖率(Prediction Interval Coverage Probability,PICP)、预测区间归一化平均带宽(Prediction Interval Normalized Averaged Width,PINAW)和平均区间分数AIS作为评价指标。评价指标PICP和PINAW的计算公式如下:
[0131]
[0132] 式中,R为预测目标值的变化范围,用于对平均带宽进行归一化处理;li和ui分别为第i个预测区间的下限和上限;yi为第i个目标值;ki为实际用水量数据是否位于预测区间内(位于区间内时等于1,否则等于0);num为测试样本的数量。
[0133] PICP表示真实值落入所给预测区间的概率,可以用来检验区间预测的可靠性;PINAW则反映了区间预测的清晰度,旨在避免因单纯追求可靠性,出现预测区间过宽,不能给出有效的预测值不确定性信息,从而失去决策价值。在覆盖率一定的情况下,PINAW值越小,表示预测区间越窄,预测效果越好。因此,良好的区间预测应具有较大的PICP和较小的PINAW。AIS综合考虑PICP和PINAW两种指标,AIS的值越小说明预测区间的质量越好。
[0134] 为了验证本发明预测方法的优越性,分别采用本发明所述方法、QRF、高斯过程回归(Gaussian Process Regression,GPR)、门控循环单元分位数回归(QR‑GRU)等模型在测试集上对DMA用水量(不同置信水平下)进行区间预测,得到的测试结果如表3所示。
[0135] 表3不同置信水平下的区间预测测试结果
[0136]
[0137] 从表3可以看出,在90%、80%和70%置信水平下,本发明所述方法的PICP均大大超过给定的置信水平,说明所述方法满足区间预测的可靠性要求。在PINAW指标上,本发明所述方法整体上拥有较小的平均宽度,表明本发明所述方法有较稳定的预测结果。在综合评价指标AIS上,本发明所述方法的效果最好,在各个置信水平上均在不同程度上优于其他模型,表明本发明所述方法整体的区间预测质量更高,能够较好地兼顾可靠性和清晰度,具有一定的优越性。
[0138] 图5为本发明预测方法在不同置信水平下连续三天区间预测曲线图。由图5可知,本发明所述方法能够较好地跟踪用水量数据的变化趋势,且未出现严重偏离预测区间的现象,这说明本发明所述方法的区间预测结果有着较高的可靠性和良好的稳定性。随着置信水平的增加,可靠性越高,而区间的宽度也随之增加,但不同时间段的区间宽度变化幅度并没有显著的差异,这说明通过本发明所述方法得到的区间宽度具有较好的一致性,避免了预测区间在波峰和波谷差距过大的问题,最终提高了预测区间的质量。