首页 / 一种基于数据驱动的多移动应急电源韧性优化调度方法

一种基于数据驱动的多移动应急电源韧性优化调度方法有效专利 发明

技术领域

[0001] 本发明涉及配电网韧性恢复技术领域,尤其是涉及一种基于数据驱动的多移动应急电源韧性优化调度方法。

相关背景技术

[0002] 愈发频繁的极端事件扰动与冲击,已成为电力系统面临的“新常态”。构建局部坚韧、快速恢复的坚强局部电网,提升电网抵御自然灾害与风险防控能力是构建韧性城市电网的必然要求。
[0003] 面对极端事件,由于电网的拓扑结构容易受到破坏,将导致配网内部负荷与主网失去连接。在新型配电网中,通过整合分布式发电、应急移动资源和储能系统等构建局部电网或微网,可将大电网中的功率平衡和负荷需求由形成的局部供电区域承担。为实现最大限度的可恢复负载量并减少停电持续时间,需要开发基于已部署分布式能源韧性导向的规划运营策略,利用具有显著灵活性优势的移动应急电源包括路径规划、能源配置、充放电调度在内的韧性提升策略。
[0004] 随着人工智能技术的不断发展,强化学习被用于配电网优化调度研究中,该方法通过在复杂环境中不断“试错”的方式,以实现决策空间中最优策略搜索。通过离线训练,从历史数据中学习模型映射的非线性拟合关系,提高在实际应用中的泛化能力,并通过在线部署的方式使系统实现实时优化。王子昊等人基于近端策略优化算法将配电网的韧性提升问题转化为多阶段马尔可夫决策过程,通过联络开关的投切构建动作空间,与灾后配电网环境进行交互优化负荷失电率,实现配电网韧性提升。黄玉雄等人提出一种考虑微网参与的配电网负荷恢复方法,将微电网间的分段开关投切视作动作空间,考虑用户满意度、微网运行等约束构建马尔可夫决策过程,在所构建的故障模拟环境中探索使负荷减载量最优的调度策略。Dehghani等人将改善面临飓风风险的配电系统老化问题建模为序贯决策,采用基于风险排序策略的优势动作‑评价方法求解得到智能体,实现系统生命周期内应对多种随机极端事件的韧性优化。
[0005] 基于集中式控制优化策略依赖于对全局信息的实时获取,通信中断与信号波动将对决策过程带来风险,此外复杂的电力系统要求各组件之间进行协同调度与优化。Nie等人为实现极端事件后对孤岛中发电设备与负荷的最优控制,提出一种基于DQN和DDPG的双代理强化学习模型,其目标是优化源荷匹配决策问题。然而,由于采用两种独立的算法对智能体进行训练,可能导致策略交互过程中训练性能的不稳定性。Kamruzzaman等人探讨了无功补偿设备在抵御极端事件与多组件故障方面的优势,将电力系统划分为多个控制区域并基于MASAC算法进行训练,实现无功补偿设备优化部署。尽管该策略在同一算法框架下进行训练,但其并未研究可移动应急资源参与韧性优化的协同效应。Wang等人将每个移动应急电源与维修工人建模为参与孤岛负荷恢复的智能体,分别构建多源协同支撑、线路修复与应急供应相融合的序贯决策框架,通过在多智能体方法进行求解,以提升多种分布式资源在电力系统韧性恢复中灵活协同。
[0006] 尽管采用多种不同的强化学习算法,构建单智能体或多智能体优化模型应用于电力系统韧性提升中,然而极端事件后,配电网韧性优化过程面临线路故障复杂、电网实时状态传输存在风险,而真实配网拓扑与线路参数具有隐私性,同时难以通过物理模型实时精准获取,利用多元灵活应急设备的局部信息,实现快速协同调度与优化是研究的重点。电网作为信息物理融合系统,极端事件易导致信息传输阻塞,挖掘电网数据的非线性关系,充分评估系统状态,需开展配电网信息部分可观场景下基于数据驱动的韧性协同策略研究。

具体实施方式

[0126] 以下通过附图和实施例对本发明的技术方案作进一步说明。
[0127] 除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
[0128] 如图所示,一种基于数据驱动的多移动应急电源韧性优化调度方法,其特征在于,包括以下步骤:
[0129] S1、对于辐射状的配电网,极端事件后出现的线路故障将导致网络解列,进而分解为若干个子网络,该场景下,配电网运营商的首要任务即通过有限的资源,优先保障关键负荷的供应。在此基础上,当微网中发电的资源(风机、光伏)受环境影响呈较高出力趋势时,需权衡非关键负荷与MPS充电需求生成最优策略,对优化问题进行数学建模,具体步骤如下:
[0130] S11、配电网韧性恢复的目标为优化系统关键负荷减载量,同时减少可再生能源的有功削减,增加新能源消纳,基于此,目标函数的数学模型为:
[0131]
[0132] 式中, 与 分别表示节点i处负荷减载成本和t时刻的减载量; 与 为t时刻风机与光伏有功削减;α为一个权重系数用于调整加权负荷减载量目标与削减目标在总目标中的占比,B代表整个配电系统中节点集合,Bpv、Bwt为光伏、风机设备集合;
[0133] S12、建立约束条件,包括组件运行模型、配电网辐射拓扑约束和配电网动态负荷恢复约束。
[0134] 所采用的组件数学模型如下:
[0135]
[0136]
[0137]
[0138] 式中, 与 分别表示风机、光伏的实际出力;ηpv与ηwt分别表示最大消减范围;与 分别并表示风机、光伏逆变器有功、无功转换限制,约束(2)~(4)对可再生能源的有功、无功出力进行限制;
[0139] 配电网辐射拓扑约束具体为:
[0140] 不同于输电系统,配电网拓扑结构呈辐射状。在本发明的协调优化中,通过智能软开关动态操作实现电力网络的重新配置,该过程需保障配电网拓扑的径向性。在动态负荷恢复过程中,网络径向性需满足两个主要条件:连通线路总数等于非故障线路数减去微网数量和对于每个微电网,源节点与关键负荷节点都是连通的,且可存在唯一的恢复路径。
[0141] 基于此,为不形成环形微网,本发明引入单商品流方法,构建与原始电力网络具有相同拓扑结构和连通性的虚拟网络,值得注意的是,虚拟网络并不包含真实的潮流、负荷与源节点信息,仅作为实际网络的一种映射手段辅助潮流计算。
[0142] 虚拟潮流需满足潮流平衡约束:
[0143]
[0144]
[0145]
[0146]
[0147]
[0148]
[0149]
[0150] 式中,0‑1二元变量cb,p,t表示t时刻线路(b,p)的连接状态;L为线路集合;Bsource为源节点集合;fp,b,t为线路(b,p)虚拟功率流; 表示配网中具备能量供应能力的节点所提供的虚拟功率;δ(b)和π(b)分别表示节点b处的父节点与子节点集合;xb,t为t时刻节点b处的单位虚拟负荷量,在实际计算中取值通常为1;βb,p,t为二元状态变量表示t时刻线路(b,p)init的故障状态;L 表示非受损、不含联络开关的初始线路集合;
[0151] 在每个微网中,其中一个节点被视为虚拟的源节点,其余的为虚拟负载节点,上述条件(1)在约束(5)中得到满足,条件(2)在约束(6)~(9)中得到满足。其中,约束(6)表示负荷节点处的虚拟功率流平衡;约束(7)为源节点处的虚拟功率流平衡;约束(8)与约束(9)采用Big‑M法,强制性限制了不同连通状态下,线路虚拟功率流量与虚拟源节点的出力范围,根据约束(10)与(11),t时刻故障支路始终保持关断状态,而在单步优化的初始时刻,未受损线路将保持原始通断状态;
[0152] 配电网动态负荷恢复约束具体为:
[0153] 基于DistFlow潮流方程,包含风机、光伏、MPS与可控负荷的功率平衡如式(12)~(15)所示:
[0154]
[0155]
[0156]
[0157]
[0158] 式中, 与 分别为MPS在站点中充放电容量;约束(14)与(15)中根据虚拟潮流计算中线路(b,p)通断状态变量cb,p,t,限制包含联络开关在内的线路潮流平衡;当cb,p,t为0时线路(b,p)联络开关处于关断状态,即通过联络开关操作,可实现电网动态重构实现线路潮流与负荷的动态分配。本发明最优潮流计算中所包含的二次项约束,通过二阶锥松弛约束进行模型凸化。
[0159] S2、构建多级负荷减载代理模型,具体包括以下步骤:
[0160] S21、组件运行模型
[0161] 在所采用的代理模型中,主要根据给定的MPS位置、MPS充放电功率、可再生能源出力以及负荷需求等输入条件,按照步骤S11中所详述的优化模型,执行最优潮流计算,获取该输入条件下电网各等级负荷与总负荷的削减情况。再利用以上过程所得的真实数据进行有监督学习训练后,多级负荷减载代理模型根据实时的MPS、可再生能源和负荷数据,估计当前电网负荷削减情况;
[0162] 通过在可行范围内对输入数据随机取值,构建训练集与测试集分别表示为(X,Y)* * n*9 n*3和(X ,Y),其中训练集与测试集输入分别表示为X∈R 与 输出表示为Y∈R 与
所得数据部分样例如表1所示,上述数据中包含不同的维度特征。例如,MPS位置
(L‑1、L‑2、L‑3)在3以内,风机(WT)、光伏(PV)输出值大小在数百至千,不同时段负荷需求(Load)以其在总负荷中的占比作为输入值,总负荷(L_T)、二级负荷(L_2)与三级负荷(L_3)削减量以千为数量级。同时最优潮流计算中存在的无解情况将造成输出值异常。例如,当MPS充电需求及负荷需求量远高于能源供应量时,最优潮流计算将出现无解情况(如最后一行加粗行所示)。
[0163] 表1代理模型多级减载训练数据样例
[0164] L‑1 P‑1 L‑2 P‑2 L‑3 P‑3 PV WT Load L_T L_2 L_33 77.79 3 ‑110.9 1 84.07 190.6 181.6 0.98 3879.7 2383.6 1201.1
2 77.52 1 ‑75.41 3 104.41 15.6 1324.6 0.50 251.6 0 251.1
1 29.52 1 ‑33.63 1 ‑9.97 195.3 187.3 0.97 4049.4 2451.7 1199.2
1 50.76 2 ‑97.7 2 ‑31.64 130.1 184.1 0.63 2511.2 0 773.5
1 ‑103.3 2 ‑8.14 3 23.05 176.8 175.1 0.82 3271.1 2015.1 1015.6
3 96.48 2 70.03 1 93.15 23.6 1332.4 0.52 280.2 0 280.7
1 109.1 1 73.5 1 83.34 197.1 189.8 0.97 2000 2000 2000
[0165] 在有监督学习中,数据质量对代理模型精准度有至关重要的影响,需对输入、输出数据进行预处理。为应对上述问题,本发明采用最小值‑最大值归一化方法,将各输入、输出变量映射到[0,1]区间中,并去除所得结果中的无解数据行,数据的归一化与反归一化公式如下:
[0166]
[0167] Yreal=Ypredict·(Ymax‑Ymin)+Ymin (17)
[0168] 式中,Xnorm为数据归一化后的值;Xi表示需要归一化的特征序列;Xmax与Xmin分别表示特征序列中的最大、最小值;Ypredict为模型输出的归一化预测值;Yreal为反归一化后具有原数据量纲的真实值。
[0169] S22、最小二乘支持向量原理
[0170] 面对大规模的数据集,二次规划的复杂程度随之升高,基于支持向量和核函数的训练速度较慢,同时SVR中核函数选择、平衡因子等超参数的调整,使得模型调优较为困难。最小二乘支持向量机LSSVM(least squares support vector machines)采用最小二乘法进行求解,将上述优化模型的不等式约束转化为等式约束,具有更快的求解速度。LSSVM可解释性强,其相比线性回归、神经网络泛化能力与稳定性更强。
[0171] LSSVM回归问题的目的在于寻求样本从原始空间到高维特征空间的映射φ(x),即预测模型为f(x)=w·φ(x)+b,类似的,LSSVM中引入了松弛变量ξ,以衡量离群点误差。LSSVM参数求解优化问题被描述为:
[0172]
[0173] 在式(18)中,γ为衡量误差宽容程度的正则化参数,该参数用于平衡超平面与样本偏差量;与SVR相比,LSSVM将原问题转化为了等式约束。
[0174] 进一步的,引入拉格朗日乘子将优化问题转化为单一参数:
[0175]
[0176] 在KKT条件下对参数求偏导,所求得的α与b带回原问题中,得到LSSVM回归函数为:
[0177]
[0178] 式中,K(x,xi)为核函数;上述介绍中所采用样本数据为完全或者部分线性的,对于可能存在非线性数据集,因此,将核函数引入其中将原始特征空间中的输入向量映射到高维特征向量空间中。常用的核函数包含线性核函数、多项式核函数、Sigmoid核‑多层感知器核函数等。
[0179] 本发明所采用的核函数为具有小偏差高泛化能力的高斯径向基核函数如式(21)所示:
[0180]
[0181] S23、构建基于GA‑LSSVM的代理模型与预测流程;
[0182] 通过上述理论分析可知,LSSVM模型在实际应用中的稳定性与准确性,依赖于核函数参数σ与正则化参数γ的选择。仅通过试凑法、遍历法及经验法将耗费大量的计算资源,且难以确定使模型精度最佳的超参数。因此,本发明采用遗传算法GA(geneticAlgorithm)对超参数进行寻优。
[0183] 遗传算法是一种基于自然进化理论的搜索算法,源于对生物遗传与演化过程的模拟。GA的核心理念具体为将优化问题的求解转化为从个体中筛选适应环境的染色体,通过复制、交叉和变异遗传操作,依循适者生存的原则,持续生成适应环境的种群,种群中的个体通过适应度函数来评价其优劣,本发明中的适应度函数为:
[0184]
[0185] 式中,yi与 分别为样本的预测值与真实值;γmin与γmax分别为正则化参数的下限与上限;σmin与σmax核函数参数下限与上限;
[0186] 基于GA‑LSSVM代理模型的预测流程如下:
[0187] 如图1所示,首先,根据构建的代理模型数据集,选取训练样本与测试样本集合,设定超参数γ与σ的搜索范围,并对其进行编码处理;
[0188] 其次,基于初始化超参数值进行LSSVM的训练,根据式(22)所构建的适应度函数判断是否满足优化目标;在未达到停止条件时,遵循GA算法中设定的交叉、变异概率寻找优势个体,构建新的种群,再次计算适应度函数;
[0189] 最后,当所优化参数使得优化目标达到既定停止条件,将最优的超参数γ与σ带入LSSVM模型中进行训练,利用测试样本集对模型进行分析。
[0190] S3、基于多智能体深度强化学习的优化决策模型,具体包括以下步骤:
[0191] S31、建立基于韧性提升的Dec‑POMDP框架,具体包括观测空间、动作空间、状态转移和奖励函数;
[0192] 如图2所示,在每个时间步长t,环境处于特定的状态st并发出一组联合观测结果Ot,每个智能体i接收当前时间步下与状态相关的局部观测,根据其本地观测值oi,t按照策略π(ai,t|oi,t)选择动作ai,t。其中,交互环境根据状态转移函数T(s,a1:I,w)进入下一个状态,并获取该状态下的智能体的奖励值ri,t。这一过程中采用的集中式训练和分布式执行(centralizedtraining and decentralized execution,CTDE)的框架进行,智能体将最大化其累计奖励值 在本发明中,每个步长所对应的奖励值在策略评估中同等重要,因此γ取值为1。所提出的Dec‑POMDP的具体组成部分如下:
[0193] (1)观测空间:
[0194] 在每个时间步t第i个MPS的局部观测值为oi.t,将其表示为向量:其中包括配电网线路通断状态cbp,t,风机、光
伏在t时刻的发电量 配电网在t时刻的负荷需求量 为MPS在配电网中所
接入的位置,第i个MPS在t时刻电池容量状态
[0195] 由于处于含多条故障线路与新能源随机出力波动的复杂场景中,且不同MPS主体之间又无法直接交互信息,仅依靠上述局部观测可能存在不稳定性问题,即使智能体在探索过程中极易陷入局部最优解(MPS仅采取不充不放的保守动作),导致累积奖励值难以提升。因此,本发明引入了观测值 以反映第i个MPS所采取所动作对电网韧性恢复的影响程度:
[0196]
[0197] 式(23)中,分母项表示MPS对负荷的净恢复总量,分子项表示第i个MPS的放电量,越大表明该MPS对韧性恢复贡献越大;
[0198] 通过 将电网内部观察测值、其他MPS的局部观测结果隐含在内,这一过程MPS通过电网可信平台(代理模型)获取信息,无需知晓其他MPS的活动与电网参数,充分保护了MPS与运营商的隐私。
[0199] (2)动作空间:
[0200] 单次迭代中每个MPS的动作集合为ai,t,将其表示为二维向量:,其中, 为t时刻第i个MPS的充放电量, 为其所选择
的站点位置,在实际调度中 为离散变量,通过向上取整与放归一化,其将从位置集合中进行选取;
[0201] (3)状态转移:
[0202] 在调度周期t∈[1,T]内,每个时间步长t到t+1之间的状态转移函数为st+1=T(o1:I,t,a1:I,t,wt),其中,t时刻受环境因素影响的随机量 这些变量与外界环境如辐射强度、风速、和用户行为相关,不受智能体控制。
[0203] 而基于数据驱动的DRL算法,通过从环境历史数据中获取经验,可有效学习其概率特征,除环境的状态变化外,MPS状态受到自身动作的影响,其所处位置状态 由动作考虑到交通流量、网路拓扑结构决定,容量状态 由动作 在最大充、放电功率 下进行变化,MPS运行安全模型数学表述如下:
[0204]
[0205]
[0206]
[0207] 式(24)与式(25)表示MPS的充放电动作限制,当选取的动作超出了MPS的容量上下限时,将根据其当前容量内最大可充放电量进行动作;式(26)表示容量 的状态转移,与 分别为充、放电效率;MADRL算法中每个MPS智能体分别选取了各自的位置 与功率 而原始的优化问题等价于固定MPS位置、功率后配电网最优潮流问题,从而得到各级负荷的减载量;
[0208] (4)奖励函数:
[0209] 智能体将MPS的动作传输至代理模型,每个代理i会获得奖励ri.t,本发明韧性恢复的目标是使配电网关键负荷减载量最少,因此,将优化目标中负荷减载量成本的负值作为团队奖励值;
[0210] 但在实际韧性优化过程中,累积奖励需要在执行完一系列动作并完成优化任务后才能获取,容易受到其中某几个时间步所选取动作的影响,易造成“稀疏奖励”与“奖励信号延迟”问题。具体到训练过程中,仅采取团队奖励作为优化目标,将造成不同输入下负荷减载量奖励值不连续,且智能体需要通过更长时间的才能知道当前动作序列的有效性。另一方面,由于多个智能体共享该环境且在同一目标下寻优,每个智能体所采取的动作也将影响当前环境状态以及其他智能体的动作,造成非稳态问题。
[0211] 本发明将关键负荷减载量作为判据,进一步为每个MPS构建阶梯奖励,最后,将个体奖励与团队奖励求和生成新的个体奖励函数,使原本的稀疏奖励转变为稠密奖励为智能体的每步动作提供有效的反馈,第i个MPS智能体在单个时间步的奖励函数如式(27)所示,pcurl由以下三部分构成:加权负荷减载成本r 、充电惩罚项 和放电惩罚项
[0212]
[0213]
[0214]
[0215]
[0216] 式(28)为加权负荷削减量;式(29)中 表示一级负荷削减比例,该数值通过代理模型间接拟合得到;式(30)与式(31)分别表示MPS充、放电惩罚,需注意,MPS应在一级负荷无削减或者较少削减的情况下进行充电,在其削减较多的时候选择放电,以帮助系统整体的恢复。
[0217] 在上式中对不同范围的 设置了分段奖励,而对于出现较多削减但无发电行为,较少削减但无充电行为的时间段设置了惩罚。此外,MPS的所接入的位置也是影响系统恢复效果的因素之一,因此式(27)中,团队奖励权重κ1最高,主导整体奖励以避免过度关注MPS充放电行为,而陷入局部最优决策;
[0218] S32、采用MASAC算法对Dec‑POMDP进行求解,具体过程如下:
[0219] 由于韧性优化决策问题属于连续控制领域,且系统模型为一个高维度、线性优化问题。传统的求解该类型问题的强化学习方法如:深度确定性策略梯度(deep deterministicpolicy gradient,DDPG),双延迟深度确定性策略梯度(twin delayed DDPG,TD3)等算法均为确定性策略,面对极端环境下的电网韧性恢复任务探索能力较弱,智能体训练过程中容易陷入局部最优解。为避免优化过程中智能体过早收敛,保证算法稳定性,本发明采用探索能力更强的MASAC算法对Dec‑POMDP进行求解。
[0220] 在传统的多智能体训练和执行中,智能体面临着获取其他智能体观测和动作信息的困难,同时由于策略的不断变化而导致学习的不稳定性。MASAC算法通过采用CTDE框架,在多智能体领域对最大熵深度强化学习算法SAC(soft actor‑critic)进行理论扩展,SAC算法基于Actor‑Critic框架,通过同时训练基于策略的Actor网络和基于价值的Critic网络来学习,其中Actor网络用来产生动作,Critic网络则通过近似行为值函数评估动作的价值,所提出的算法框架如3所示。
[0221] 灾后电网的负荷减载量、可再生能源出力、MPS位置与功率数据将提供给最小支持向量机模型,最小支持向量机模型模型通过GA算法实现参数优化,拟合的数据通过监督学习训练多级负荷减载代理模型。在集中训练阶段,MPS智能体i通过代理模型获取当前时刻的状态si,t、动作ai,t、其他智能体的状态s‑i,t、动作a‑i,t信息并输入价值网络中进行参数更新,策略网络根据智能体的状态si,t进行参数更新;其中MASAC算法中策略、价值网络通过深度神经网络进行拟合,选取两个Q值网络中输出的最小值以避免出现状态价值的高估;
[0222] 在执行阶段,智能体根据各自策略网络选择动作并传递给代理模型,代理模型对t时刻智能体i的奖励进行反馈ri,t;
[0223] 在N个MPS智能体路由、功率调度中,其策略集合表示为 动作网络表示为 其中 为智能体i的动作策略函数,φi表示策略网络的待优化参
数,SAC作为一种随机性策略,其在奖励值函数中引入了熵函数,策略中需满足熵值最大化以优化策略 目标函数表示如下:
[0224]
[0225] 式中,T与r分别表示时间步数与单步奖励;ai,t与a‑i,t分别表示智能体i与其他协同者所选择的动作;αi∈(0,1)为温度系数,以决定熵项与奖励项的相对重要性,α越大表示探索程度越多以实现优化策略更多随机性; 为策略 的诱导轨迹;表示状态st下的状态熵,
[0226] 定义软价值函数 用于衡量智能体i的策略价值,其表达式为:
[0227]
[0228] 式中,ψi为智能体i价值函数的网络参数;Qθ(st,ai,t,a‑i,t)是对策略的评估函数;θ是Q值函数的网络参数;
[0229] 为减少贝尔曼方程因最大化导致的Q值高估问题,MASAC中引入了两个结构相同的Q值函数 与 Q值函数的网络损失函数如下:
[0230]
[0231]
[0232] 其中,D为经验缓冲区用于存储以往的经验数据; 为目标Q值函数网络参数,优化Q值函数的梯度计算如下:
[0233]
[0234] 为实现策略提升,MASAC通过不断获取新的Q值函数,并指导策略通过最大回报的方式更新以获取最优策略,策略网络借助于最小化Kullback‑Leibler散度进行训练,策略更新表达式如下:
[0235]
[0236] 式中,Zθ(st)是对Q值得归一化分布,为减少训练过程中动作网络估计的方差便于进行梯度计算,在计算过程中引入重参数化技巧,将ai,t参数化为
[0237] 智能体i的策略更新目标如下:
[0238]
[0239] 式中, 为其他协同者参数化策略;εi,t为从高斯分布采样的噪声向量,[0240] SAC算法通过对温度系数αi进行调整,以保证智能体充分探索环境后选择最佳的策略,采用超参数等效常数向量 表示目标策略熵的目标函数,如式(39)所示:
[0241]
[0242] 为了验证所提韧性恢复策略的有效性,将本发明所提方法应用于IEEE 33节点配电系统中开展对比实验。采用多种回归算法对比论证代理模型优势,并采用多种优化算法对比所提方法的性能,最后在测试系统中验证本发明所提数据驱动型控制策略的韧性恢复优化效果。
[0243] 案例评估位于测试系统中3个MPS的路由与调度过程,如图4所示。该系统中连接有2个光伏机组分别接在节点16,21上,3个风力发电机组分别接在节点12,24,33上,3个MPS可接入节点分别位于节点3,9,30处。系统中线路25‑29、21‑8、9‑15、22‑12、33‑18对应于可针对极端事件关闭的联络线,其配备了远程可控开关,可实现动态网络重构。假设灾害发生于
3:00,导致配电系统与上级电网脱网,并造成线路2‑19、6‑26、8‑9、29‑30、14‑15、17‑18、21‑
2发生故障,预计停运时间为12h。
[0244] 对比不同环境下的多级负荷减载量的训练的回归效果如表2所示。4种算法都有较高的准确率,其中所提的R方与MAE在三种负荷减载量的预测中均是最优的,SVM模型中的参数依赖于人工经验确定,因此,预测过程中与真实值偏离最大。采用深度神经网络进行拟合的效果优于LR与SVM。然而,神经网络较多的待优化参数难以在有限的样本中训练至最优。在场景二中,由于光伏出力较小,其形成的孤岛中低等级负荷将出现更多的减载,基于最优潮流计算的负荷减载量数据样本将出现更复杂的非线性映射关系,因此,三种对比算法对三级负荷减载的预测效果均出现下降。所提方法中采用GA对正则化参数与核参数做出优化,模型能够迅速提取有限样本中功率注入与负荷减载量的非线性映射关系,其三级负荷减载量预测准确率分别高于LR、SVM、DNN方法2.81%、2.46%、2.17%。
[0245] 表2回归效果对比
[0246]方法 LR SVM DNN GA‑LSSVM
R方(总减载) 0.9964 0.9913 0.9995 0.9997
MAE(总减载) 65.832 101.9 21.148 17.706
R方(二级减载) 0.9929 0.9905 0.9979 0.9988
MAE(二级减载) 67.156 75.884 32.53 24.7412
R方(三级减载) 0.9867 0.989 0.9942 0.9976
MAE(三级减载) 24.76 25.842 14.337 10.1185
[0247] S2、为验证所提方法在MPS路由与调度中的优越性,将其与多种基于强化学习的优化算法在训练过程进行了详细比较,着重分析了累积奖励的演化情况。所采用的启发式对比算法如下:
[0248] (1)MASAC:MPS采用基于SAC算法的多智能体方法,与本发明所提方法区别在于,其奖励值不通过电网代理反馈。
[0249] (2)MATD3:将每个MPS建模为基于TD3算法的智能体,依据本发明构建的Dec‑POMDP模型,智能体通过局部观测信息做出决策。
[0250] (3)SAC:采用集中式控制方法,将配电网运营商建模为一个SAC智能体。在该设定下,动作空间变为6个维度,3个MPS的位置与充放电量通过一个策略网络依据全局信息来决定。
[0251] (4)TD3:较SAC相比,两者均采用Actor‑Critic框架,TD3算法使用双Q网络以估计动作值函数。同样,采用集中式控制方法进行决策。
[0252] 在训练完成后,引入不确定性量随机生成风、光、负荷场景,包含所提方法在内的五种方法均在真实电网环境中对所生成的优化策略进行验证。测试效果如表3所示,分别列出各级负荷减载量情况、累积负荷减载率、运营商成本、与模型的训练时长。在表3中可以看出,在场景一中由于SAC与TD3采用集中式训练方法,MPS之间缺少协同,无法实现区域中更多关键负荷的恢复。基于智能体的局部观测信息,MASAC与MATD3方法取得了更好的负荷减载量优化效果。
[0253] 而本发明所提方法在训练过程采用代理模型反馈系统状态,累积负荷恢复率与其他方法接近,一级负荷减载量较MATD3/MASAC增加8.14%/15.52%,但较TD3/SAC降低20.08%/7.58%。同时,由于在马尔可夫决策中嵌入了基于回归模型的电网代理反馈奖励,无需获取复杂的电网拓扑与线路参数进行最优潮流计算,在训练时长方面提升明显,降低了模型训练所需算力。
[0254] 表3算法测试效果对比
[0255] 方法 TD3 SAC MATD3 MASAC 所提方法一级负荷减载量(kW) 541.90 474.48 405.07 379.732 438.51
二级负荷减载量(kW) 14030.16 14281.13 14236.574 14103.01 14316.49
三级负荷减载量(kW) 9158.94 8982.32 8953.69 8794.530 8930.11
累计负荷减载率 0.3926 0.3927 0.3925 0.3937 0.3948
运营商成本(元) 371.92 363.44 339.47 290.988 359.158
训练时长 19h38m 22h38m 19h10m 24h25m 6h38m
是否依赖于物理模型 是 是 是 是 否
[0256] S3、3辆MPS的调度结果如图5所示,图中条形表示充/放电有功功率,右侧Y轴用紫色线表示MPS的路由过程。MPS的总容量为800kWh,本发明设置其初始容量为600kWh。由图中可知,MPS在初始时刻与节点9、节点30的连接,由于场景一中风机发电资源丰富,因此,在初始时刻MPS均采取充电操作为后续韧性恢复做准备。
[0257] T=4:00时,由于节点9、11、13、14处一级负载将发生减载,因此将MPS2移动到节点9处,与MPS1共同为该区域关键负荷提供支持。此时,所有一级负荷能够得到保障,因此MPS3前往节点3处供应节点21处的二级负荷。
[0258] T=5:00时,由于节点3所处区域内风机发电量较大,因此所有MPS将前往节点3处进行充电。遵循这种路由模式,MPS将在SOC水平较低时前往发电资源丰富的区域充电,同时优先保证一级负荷的供应,在更多关键负荷削减的区域放电。
[0259] 在T=10:00时,风机出力出现较大波动,节点31、33处的一级负荷出现较大消减,MPS1前往节点30放电。
[0260] 而在T=11:00时,MPS1前往可再生能源丰富的节点9充电,此时为保证节点31、33负载供应的连续性,MPS3移动至节点30放电。类似的,MPS3在T=12:00前往节点9充电,此时MPS1、MPS2前往节点30放电。MPS在不同时间段对同一个区域交替放电与充电的操作,展现了多个MPS协同控制的优势。
[0261] 除MPS的协同以外,基于远程线路动态重构开关也有助于增强系统韧性。如图6所示,在系统发生线路损坏后,连接线25‑29、33‑18、9‑15、22‑12被关闭,以恢复节点28、18、15、22上的一级与二级负荷。该时刻节点21处的光伏发电量为0,由于节点24处的风机出力有限,连接线8‑21仍将保持开启状态,节点21处的负荷被削减。此外,随着光伏出力的增加,连接线8‑21在T=10:00时被关闭,以确保节点3、5处负荷的供应,而线路开关11‑12被打开,分别使用光伏与风机构成两个不同的孤岛区域,实现源‑荷的最优匹配。通过线路与连接线的智能控制,能够实现动态网络重构与MPS的协调优化。
[0262] 因此,本发明采用上述一种基于数据驱动的多移动应急电源韧性优化调度方法,通过风机、光伏、可移动电源系统调度与配电网重构决策,实现孤岛源‑荷最优匹配;通过GA‑LSSVM回归算法获取灾后配电网功率流入与负荷减载量之间的非线性映射关系,构建了可替代电网物理模型的多级负荷减载代理模型;在保证配电网隐私性的同时,实现MPS的实时协同优化与电网拓扑变换决策,有效提升电网韧性。
[0263] 最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

当前第1页 第1页 第2页 第3页
相关技术
应急电源相关技术
数据驱动相关技术
袁俊艳发明人的其他相关专利技术