首页 / 一种基于深度强化学习的配电网故障恢复方法

一种基于深度强化学习的配电网故障恢复方法实质审查 发明

技术领域

[0001] 本发明属于配电网故障恢复技术领域,具体涉及一种基于深度强化学习的配电网故障恢复方法。

相关背景技术

[0002] 近年来,人们对于能源尤其是电力能源的需求日益增长,一次能源的短缺以及其燃烧造成的环境问题越发引起公众的广泛关注。随着分布式电源(Distributed Generation,DG)并网比例的逐渐增加,改变了传统配电网的初始拓扑结构,对配电网产生了一定程度的影响。配电网处于电力系统末端,是直接面向用户的关键环节,承担着向用户负荷供配电的重要责任。不仅需要保障正常状态下的稳定运行,更应该在发生故障时具有较强的应对能力。电力保供事关国计民生,故障恢复是保障供电的重要支撑之一。因此,配电网故障恢复研究具有十分重要的意义。
[0003] 配电网具有“闭环设计,开环运行”的特点,网络重构是配电网故障恢复的重要手段。在配电网正常运行时,分段开关闭合而联络开关断开,以保持辐射状结构。配电网出现故障时,立即断开故障两端分段开关以隔离故障,再将故障下游的非故障失电负荷转到其他线路进行短时应急供电,减小失电损失并防止故障扩散,实现配电网故障恢复。
[0004] 在配电网故障恢复的研究中已对不同类型的算法进行了应用,主要有传统数学规划算法、启发式算法和深度强化学习算法。数学规划算法和启发式算法针对大规模的配电网对象时,对硬件计算能力的要求较高,且耗费时间过长,很难满足故障恢复的实时性要求。深度强化学习方法可以提前进行离线训练得到学习好的网络模型,在恢复时可直接调用模型进行快速决策,相对于传统方法在求解效率上有很大提升。随着配电网络规模扩大,DG大量并网,深度强化学习方法能够更好地适应故障恢复需求。因此,研究基于深度强化学习的配电网故障恢复策略具有重要的理论和现实意义。

具体实施方式

[0086] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0087] 一种基于深度强化学习的配电网故障恢复方法,包括以下步骤:
[0088] 步骤1、基于含分布式电源的配电网系统模型,构造目标函数和约束条件,建立主动配电网故障恢复模型;
[0089] 故障场景下的恢复流程有别于正常运行场景下的优化流程,在决策过程中故障线路是始终隔离断开的,因此若决策到故障线路所在的基本环内,则断开的开关只能为故障线路,故需要屏蔽掉多余的动作。如图1所示,考虑到问题优化的复杂性,防止因决策混乱导致优化困难,将决策过程分为两阶段,首先以负荷恢复量为第一目标完成负荷转供决策,主要对联络开关进行操作。在决策到故障开关后,将开关归属的环路固定,屏蔽掉本环路内的开关动作,进一步优化潮流分布和网损,以保持系统在故障下运行的稳定性。两阶段决策框架通过代价权重改变和动作屏蔽机制实现,首先需要构建统一的配电网故障恢复模型。
[0090] 步骤1.1:建立配电网故障恢复模型的目标函数:
[0091] min:F=ωblackoutCblackout+ωlossCloss
[0092] 式中,ωblackout为失负荷对应的权重系数,ωloss为网损对应的权重系数;Cblackout为loss失负荷代价,C 为网损代价。
[0093]
[0094] 式中,N为节点集合;ui为节点i的接入状态,为0‑1变量,0为未接入,1为接入;Piload为节点i的有功负荷需求。
[0095]
[0096] 式中,xij为i‑j支路的通断状态,为0‑1变量,0为断开,1为连通; 为i‑j支路的网损。
[0097] 步骤1.2:建立配电网故障恢复模型约束条件:
[0098] 所述约束条件主要包括功率平衡约束、线路传输功率约束、节点电压约束、网络辐射状约束,如下所示:
[0099] 所述功率平衡约束:
[0100]
[0101] 式中,ΔPiline、 分别为与节点i连接的线路净流入节点i的有功功率和无功功pv wt率,Pi 和 分别为节点i处分布式光伏的有功和无功输出,Pi 和 分别为节点i处风电load
机组的有功、无功输出,Pi 和 为节点i的有功和无功负荷需求。
[0102] 所述线路传输功率约束:
[0103]
[0104] 式中, 和 分别为流经i‑j支路的有功功率上、下限; 和 分别为流经i‑j支路的无功功率上、下限;Pij、Qij为流经i‑j支路的有功功率和无功功率。
[0105] 所述节点电压约束:
[0106] 1‑ζ≤Ui≤1+ζ
[0107] 式中,Ui为节点i处的电压标幺值,ζ为节点电压最大偏差。
[0108] 所述网络辐射状约束:
[0109]
[0110] 式中,bi,j和bj,i为辅助变量,若j为i的父节点,则bi,j=1,否则bi,j=0,反之,若i为j的父节点,则bj,i=1,否则bj,i=0;Ωi为与节点i连接的节点集合,Rg表示根节点集合。在辐射状网络中,除根节点外每个节点有且只有一个父节点,而根节点没有父节点。
[0111] 步骤2、设计通过环路‑开关编码的动作空间,基于辐射状约束进行不可行解筛选;
[0112] 步骤2.1基于环路‑开关编码的动作空间设计
[0113] 为了减小配电网重构的动作空间,并筛选掉部分不可行解,将IEEE33节点配网系统分解成5个基本环路,每个环路包含一个联络开关和若干个分段开关。以图2所示的IEEE33节点系统为例,将系统分为L1、L2、L3、L4和L5共5个基本环路,序号是按照联络开关的顺序进行排列的,分别包含了33、34、35、36和37号联络开关。环路L1由2,3,4,5,6,7,33,20,19,18支路组成;环网L2由9,10,11,12,13,14,34支路组成;其他回路包含支路开关见下表。
[0114] 表1基本环路及环内开关
[0115]
[0116] 基于基本环路理论,将基本环路编号和开关结合在一起,构建基于环路‑开关编码的动作空间;每个动作包含要决策的基本环路Lp,p=1,2,...,m和环路内断开的开关其中p为基本环路序号, 为基本环路Lp包含的开关集合,q为开关序号,hp为基本环路Lp包含的开关数量。通过单步决策实现重构的合环解环决策步骤,简化了强化学习探索的流程;
[0117] 进行动作选择时,决策到的基本环路Lp只可以选择一个开关 断开,通过保存已选动作序列进行回溯,主要可分为两种情况:
[0118] (1)若首次对基本环路Lp进行决策,即已保存的动作序列中不包含环路Lp,则先将环路内的联络开关闭合,然后断开当前决策到的开关
[0119] (2)若非首次对基本环路Lp决策,即已保存的动作序列中包含环路Lp,则需要先将此基本环路上一次所决策的断开开关重新闭合,再断开当前所选开关
[0120] 动作空间定义为:
[0121]
[0122] 步骤2.2基于辐射状约束的不可行解筛选
[0123] 在配电网优化重构模型中,一个基本的约束条件为配电网应该时刻保持开环运行的状态,即维持辐射状网络结构。因此,智能体进行决策后,需要检测所选动作是否违反了此约束。配电网可以看作由节点和支路组成的图,由图论可知,树是一个没有环路的连通图,因此可以将配电网的辐射状结构与树进行比较。一个节点数量为n、电源(主网供电电源)数量为1的配电网,若为辐射状结构需要满足以下两个条件:
[0124] (1)网络是连通的;
[0125] (2)网络中有n‑1条闭合的支路。
[0126] 在对其辐射状条件进行分析时,首先检测闭合支路数量是否满足,其次还要检测其连通性,即不存在孤岛。
[0127] 具体检测步骤如下,流程如图3所示:
[0128] (1)读取网络初始结构数据
[0129] 首先,读取IEEE33节点配电网系统的节点‑支路数据,获取各支路序号和支路两端节点信息,构建一个有向图。其次,遍历整个线路数据,并根据决策完成后的线路状态向连通图中添加状态为闭合的线路作为有向边,忽略状态为断开的线路。
[0130] (2)检测闭合回路
[0131] 统计闭合的支路数量,看是否等于节点数目减掉电源数目(仅考虑根节点主网供电电源),若满足条件,进一步检测系统连通性,不满足则违反了辐射状约束。
[0132] (3)检测网络连通性
[0133] 满足(2)中条件后需要检测是否满足连通性条件,即检测系统中是否存在孤岛。由网络数据构成的关联矩阵,搜索是否有节点与根节点不连通,如不存在,则配电网满足辐射状约束。
[0134] 步骤3、构建用于故障恢复的强化学习模型,对PPO神经网络模型进行训练,得到训练后的决策网络;
[0135] 首先需要将配电网优化重构问题转化为典型的马尔可夫决策过程,如图4所示。其状态St、动作At、奖励Rt定义如下:
[0136] (1)状态St:状态需要考虑所有会对决策造成影响的因素,对于配电网故障恢复问题,故障产生时刻的配电网运行状态、故障位置信息是关键的分析数据。因此,观测状态St包括配电网的DG出力数据、负荷需求数据和线路通断状态数据,其中线路通断数据隐含了故障线路位置信息。此外,设置了环路状态标志位以区分负荷转供和优化重构两部分决策,将故障线路归属的环路状态置1,作为屏蔽环路的依据。
[0137]
[0138] 其中,Ptload、 分别为t决策步节点负荷有功和无功需求集合;Ptpv、 分别为twt步光伏有功、无功功率输出集合;Pt 、 分别为风电有功、无功功率输出集合; 为线路状态集合,相比于优化重构的线路状态,多了一个故障线路标志位,状态0为断开,1为闭合,
2为故障; 为t步的环路屏蔽掩码标志,位数与基本环路个数相等,初始状态值都为0,当选择到故障所在线路断开时,将其对应的环路状态置1,表示后续不再对此环路进行决策。
[0139] (2)动作At:动作的定义是基于基本环路进行编码的,包含决策的环路和开关编号。
[0140] At∈Aloop_swi
[0141] 其中,Aloop_swi为基于环路‑开关编码的动作空间,每个动作包含了决策的基本环路和此环路内要断开的开关。
[0142] (3)奖励Rt:训练时代价主要包括失负荷代价、网损代价和安全约束代价三部分,奖励由三部分加权取反得到。其中,失负荷代价和网损代价即为权利要求4所述的目标函数,安全约束代价为系统节点电压或支路潮流越限惩罚,即电力系统节点电压或支路潮流超过了安全范围,可表示为:
[0143]
[0144] 其中, 为t步的安全约束代价;ωa为支路潮流越限惩罚系数,ωu为节点电压越限惩罚系数;μij,t为支路潮流越限标志,为0‑1变量,代表i‑j支路是否越限,μij,t=1表示支路潮流越限,μij,t=0表示支路潮流未越限;ηi,t为节点电压越限标志,为0‑1变量,代表i节点是否越限,ηi,t=1表示节点电压越限,ηi,t=0表示节点电压未越限。
[0145] 因此,奖励Rt可以表示为:
[0146]
[0147] 式中, 为t步的失负荷代价, 为t步的网损代价;ωpf为安全约束代价权blackout loss重,ω 为失负荷代价权重,ω 为网损代价对应的权重。
[0148] PPO是基于Actor‑Critic框架的深度强化学习算法。如图4所示,其中,Actor网络的主要功能是获取输入状态后输出动作的概率分布。首先,对输入状态通过卷积神经网络进行特征提取,生成当前状态下环路‑开关动作的概率分布,然后通过多项式采样得到分段开关和联络开关在输入状态下的动作值,进而得到当前系统中开关状态组合。
[0149] Critic网络的主要功能是估计状态价值,接收环境状态作为输入,并输出该状态的预期回报,也就是状态价值函数。其输出被用来计算Advantage函数,是Actor网络更新时的重要参数,评估了在当前状态下执行一个动作相对于平均期望回报的优势。Critic网络通过最小化预测的状态价值函数和实际回报之间的差距进行训练,即价值函数逼近。
[0150] 算法训练流程如下所示:
[0151] 步骤3.1初始化Actor_old、Actor和Critic网络,Actor_old与Actor网络结构相同;
[0152] 步骤3.2设定总迭代次数为E,当前迭代次数记为epoch,初始化epoch=1,初始化经验池;
[0153] 步骤3.3设定一次迭代最大步数为T,当前动作步数为t,策略更新次数为M;
[0154] 步骤3.4初始化t=1;
[0155] 步骤3.5读取源荷数据与故障位置数据,对状态进行初始化;
[0156] 步骤3.6在决策时刻,首先根据故障位置和环路掩码标志位,进行动作筛选,得到可执行动作集,进而选择可执行动作;
[0157] 步骤3.7执行动作At,进行潮流计算,计算执行动作后的失负荷量、网损以及电压偏差等,从而得到奖励Rt;
[0158] 步骤3.8将过往经验序列存储到经验池;
[0159] 步骤3.9若满足回合数t
[0160] 步骤3.10在对经验池数据进行学习时,首先将获得这一批数据的Actor网络中的参数复制给Actor_old网络;
[0161] 步骤3.11首先将这批数据的状态输入到Critic网络,得到对应的估计值函数。然后,使用奖励和估计值函数来计算每个时间步的目标值函数和优势函数;
[0162] 步骤3.12利用这批数据的优势函数和目标值函数,计算PPO的损失函数,对Actor网络和Critic网络的参数进行M次策略梯度更新,清空经验池;
[0163] 步骤3.13若满足迭代次数epoch
[0164] 以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

当前第1页 第1页 第2页 第3页
相关技术
强化学习相关技术
恢复方法相关技术
谭琦发明人的其他相关专利技术