首页 / 能源互联网优化调度方法及装置

能源互联网优化调度方法及装置实质审查 发明

技术领域

[0001] 本发明涉及能量调度技术领域,尤其涉及一种能源互联网优化调度方法及装置。

相关背景技术

[0002] 能源互联网以可再生能源为基础,强化不同形式能源之间的相互联系,深入结合信息通讯技术,可以使多种能源最大程度的发挥作用。因此,随着能源互联网相关建设的不断推进,以及能源互联网运营模式的不断拓展和示范工程的不断增多,研究能源互联网的优化调度方法对于提高能源利用效率、降低能源成本、改善电网稳定性和可靠性、减少环境影响、推动能源转型都具有重要的意义。
[0003] 目前,针对能源互联网的优化调度问题,国内外均已取得大量科研成果。其中,传统的数学规划方法属于经典的优化方法,其对凸规划问题的计算速度快,且能获得全局最优解,但往往需要对系统做出一系列假设,同时也难以应对系统动态变化的挑战。而随机优化方法、鲁棒优化方法和启发式方法等均被用于解决能源互联网中源和负荷的不确定性问题,但他们均依赖于精准地预测,难以应对新能源出力与负荷多变的场景。而且由于问题的复杂性和搜索空间的维度,这些方法在优化过程中可能会陷入局部最优解,导致无法达到全局最优解。
[0004] 发明人在实现本发明的过程中发现:深度强化学习由于实时决策、不断反馈修正的特性,能够更好地应对系统中新能源出力和负荷需求的不确定性,为能源互联网的优化调度提供了新的解决途径,然而目前在基于深度强化学习进行能源互联网优化调度时,存在网络无法正常收敛,且训练效率低下的问题。

具体实施方式

[0058] 以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
[0059] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
[0060] 图1为本发明实施例提供的能源互联网优化调度方法的实现流程图,详述如下:
[0061] 在步骤101中,建立目标能源互联网的系统模型,并确定对目标能源互联网进行优化调度的目标函数和约束条件。
[0062] 本实施例中,首先建立目标能源互联网的系统模型,结合图2所示,示例性的,目标能源互联网系统可以包含热电联供机组(Combined Heat and Power,CHP)、电锅炉(Electric Boiler,EB)、燃气锅炉(Gas Boiler,GB)、光伏阵列(Photovoltaic,PV)、电储能(Battery Energy Storage,BES)和热储能(Heat Storage,HS),以及用户电‑热负荷等常见单元。建立目标能源互联网的系统模型,即建立目标能源互联网中各设备的设备模型。
[0063] (1)热电联供机组的设备模型:
[0064] 热电联供机组消耗天然气产生电能和热能。t时刻热电联供机组输出的电功率为:pCHP(t)=MCHP(t)ηCHP。
[0065] 式中:pCHP(t)为t时刻热电联供机组输出的电功率,MCHP(t)为t时刻热电联供机组的天然气消耗量,ηCHP为热电联供机组的电转化效率。
[0066] 热电联供机组输出的热功率hCHP(t)与电功率pCHP(t)之间具有耦合关系,称为“电热特性”,一般采用定热电比,表示为 即热电联供机组输出的热功率hCHP(t)与电功率pCHP(t)的比值为一定值。
[0067] (2)电锅炉的设备模型:
[0068] 电锅炉消耗电能产生热能,t时刻电锅炉输出的热功率为:hEB(t)=pEB(t)ηEB。
[0069] 式中:hEB(t)为t时刻电锅炉输出的热功率,pEB(t)为t时刻电锅炉消耗的电功率,ηEB为电锅炉的转化效率。
[0070] (3)燃气锅炉的设备模型:
[0071] 燃气锅炉消耗天然气产生热能,t时刻燃气锅炉输出的热功率为:hGB(t)=MGB(t)ηGB。
[0072] 式中:hGB(t)为t时刻燃气锅炉输出的热功率,MGB(t)为t时刻燃气锅炉的天然气消耗量,ηGB为燃气锅炉的转化效率。
[0073] (4)电储能或热储能等储能装置的设备模型:
[0074] t时刻储能装置的储能占比(State of Charge,SOC)可以表示为:
[0075]
[0076] 式中:pES(t)为t时刻储能装置(即电储能或热储能)的充/放能量功率,pES(t)为正时表示释放能量,pES(t)为负时表示存储能量,QES为储能装置的容量, 为储能装置初始时刻的SOC,Δt为调度时间尺度大小,ηES为储能装置的存储/释放能量系数,具体如式下所示:
[0077]
[0078] 式中:ηch和ηdis分别为储能装置的存储/释放能量效率。
[0079] 建立目标能源互联网的系统模型后,对目标能源互联网的优化调度问题进行数学描述,确定优化调度的目标函数和约束条件。
[0080] 其中,目标能源互联网的优化调度的目标函数可以设置为最小化系统运行成本,其数学表示可以为:
[0081] F=min(CE+CBES+CHS);
[0082] 式中:CE为购买能源的成本,CBES为电储能的充放电折旧成本,CHS为热储能的充放热折旧成本。
[0083] 其中,购买能源的成本为:
[0084]
[0085] 式中:pgrid(t)为时段t系统与主电网进行电力交换的功率,pgrid(t)为正表示系统向主电网购电,pgrid(t)为负表示系统进行余电上网,εe(t)为时段t的电价,εgas(t)为时段t购买天然气的单位热值价格,T为系统调度的总时段,Δt为调度时间尺度大小或者说时隙长度。
[0086] 电储能的充放电折旧成本为:
[0087]
[0088] 式中:pBES(t)为电储能在时段t的充电/放电功率,pBES(t)为正表示电储能处于放电状态,pBES(t)为负表示电储能处于充电状态,ρBES为电储能折旧成本系数。
[0089] 热储能的充放热折旧成本为:
[0090]
[0091] 式中:hHS(t)为热储能在时段t的充热/放热功率,hHS(t)为正表示热储能处于放热状态,hHS(t)为负表示热储能处于储热状态,ρHS为热储能折旧成本系数。
[0092] 目标能源互联网的优化调度的约束条件可以包括功率平衡约束、与主电网的交互功率约束、设备运行约束和设备爬坡约束。
[0093] 其中,功率平衡约束为:
[0094] pgrid(t)+pPV(t)+pBES(t)+pCHP(t)‑pEB(t)=pload(t);
[0095] 式中:pPV(t)为时段t光伏的输出功率,pload(t)为时段t的电负荷。
[0096] hCHP(t)+hGB(t)+hEB(t)+hHS(t)=hload(t);
[0097] 式中:hload(t)为时段t的热负荷。
[0098] 与主电网的交互功率约束,即考虑到电网侧的运行稳定性,主网对系统的功率交互有上、下限约束要求:
[0099]
[0100] 式中: 为系统与主电网交互功率的下限, 为系统与主电网交互功率的上限。
[0101] 设备运行约束,即目标能源互联网中各设备均有设备运行上限范围和设备运行下限范围,对于热电联供机组输出的电功率、燃气锅炉输出的热功率、电锅炉输出的热功率、电储能设备的充电/放电功率和热储能设备的充电/放热功率,分别有:
[0102]
[0103]
[0104] 式中: 为热电联供机组输出的电功率的下限, 为热电联供机组输出的电功率的上限; 为燃气锅炉输出的热功率的下限, 为燃气锅炉输出的热功率的上限; 为电锅炉输出的热功率的下限, 为电锅炉输出的热功率的上限; 为电储能设备的充电/放电功率的下限, 电储能设备的充电/放电功率的上限; 为热储能设备的充热/放热功率的下限, 为热储能设备的充热/放热功率的上限。
[0105] 对于电储能设备,还需要避免深度充放电对电储能的损害,因此电储能的荷电状态(即电储能的储能占比)被限定在一定范围内:
[0106]
[0107] 式中: 为电储能的荷电状态的下限, 为电储能的荷电状态的上限,SOCBES(t)为电储能在时段t的荷电状态。
[0108] 设备爬坡约束,即目标能源互联网中各设备均有设备运行变化率的约束范围,对于热电联供机组输出的电功率、燃气锅炉输出的热功率和电锅炉输出的热功率,分别有:
[0109]
[0110] 其中, 为热电联供机组上、下爬坡的限制, 为燃气锅炉上、下爬坡的限制, 为电锅炉上、下爬坡的限制。
[0111] 建立目标能源互联网的系统模型,并确定对目标能源互联网进行优化调度的目标函数和约束条件后,通过后续步骤102,根据深度确定性策略梯度算法构建能源互联网优化调度模型,以通过训练能源互联网优化调度模型对目标能源互联网进行优化调度。
[0112] 在步骤102中,基于系统模型和目标函数,根据深度确定性策略梯度算法构建能源互联网优化调度模型。
[0113] 如图2所示,本实施例中,基于目标能源互联网的系统模型和目标函数,可以建立目标能源互联网的优化调度问题的强化学习框架,设计强化学习中的状态空间,动作空间及奖励函数,并根据深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)搭建训练网络。
[0114] 其中,状态空间可以包括用户电负荷需求量、热负荷需求量、光伏发电功率、电储能的荷电状态、上一时刻的动作以及所处的调度时段,即:
[0115] st={pload(t),hload(t),pPV(t),SOCBES(t),at‑1,t};
[0116] 其中,动作空间中的各分量可以由各设备的出力表示,具体的,由步骤101中建立的各设备的设备模型以及相应的约束条件可知:pCHP(t)确定后hCHP(t)可以通过计算确定,hEB(t)确定后pEB(t)可以通过计算确定,pBES(t)确定后pgrid(t)可以通过计算确定,确定hGB(t)后,hHS(t)也可以通过计算确定。因此动作空间可表示为:
[0117] at={pCHP(t),pBES(t),hEB(t),hGB(t)};
[0118] 其中,设计奖励函数可以分为三部分:系统运行成本惩罚、违反约束条件惩罚和源荷功率不平衡惩罚。因此,将智能体在时段t获得的奖励表示为:
[0119]
[0120] 其中,rt(st,at)为在t时刻的系统状态st和t时刻的调度动作at下奖励函数的奖励值,β1为系统运行成本惩罚系数,β2为违反约束条件惩罚系数,β3为源荷功率不平衡惩罚系数,CE为购买能源的成本,CBES为电储能的充放电折旧成本,CHS为热储能的充放热折旧成本,Ft为t时刻的违反约束条件惩罚,α1为热电联供机组违反约束条件惩罚系数,α2为电储能违反约束条件惩罚系数,α3为电锅炉违反约束条件惩罚系数,α4为燃气锅炉违反约束条件惩罚系数,α为违反约束条件惩罚函数系数,pCHP(t)为t时刻热电联供机组输出的电功率,pCHP为热电联供机组输出的电功率限值,pBES(t)为t时刻电储能的充/放电功率,pBES为电储能的充/放电功率限值,hEB(t)为t时刻电锅炉输出的热功率,hEB为电锅炉输出的热功率限值,hGB(t)为t时刻燃气锅炉输出的热功率,hGB为燃气锅炉输出的热功率限值,Ut为t时刻的源荷功率不平衡惩罚,pVAC(t)为t时刻电功率供需不平衡惩罚,hVAC(t)为t时刻的热功率供需不平衡惩罚。
[0121] 其中,pCHP取值如下式所示,同理pBES、hEB和hGB分别取各自的功率约束上下限:
[0122]
[0123] 本实施例中,取各设备超约束的绝对值作为非线性函数y=ex中的x值,由于x值为正时y一定是大于1的,因此设计1‑y保证得到相应负值作为惩罚项。基于本实施例中非线性函数得到的惩罚项,在设备越限值较小时相对基于线性函数得到的惩罚项有更大的惩罚值,在设备越限值较大时相对基于线性函数得到的惩罚项有更小的惩罚值,从而在训练前期避免过大的惩罚值的影响,在训练后期提高算法的收敛性能。
[0124] 其中,DDPG算法使用2个独立的深度神经网络来逼近策略函数和价值函数,且每个网络均有各自的目标网络,即价值网络(也叫Q网络)、策略网络(也叫π网络)、目标价值网络π(也叫Q′网络)和目标策略网络(也叫π′网络)。策略网络的参数用θ表示,目标策略网络的π′ Q Q′
参数用θ 表示,价值网络的参数用θ表示,目标价值网络的参数用θ 表示。策略网络的输入是状态空间中的每个状态st,输出是四维动作at。价值网络的输入是状态空间中的每个状态st和相应的动作at,输出是动作‑值函数,即Q(st,at)。因此,本实施例以用户电负荷需求量、热负荷需求量、光伏发电功率、电储能的荷电状态、上一时刻的动作以及所处的调度时段构建状态空间中的每个状态,以热电联供机组输出的电功率、电储能的充电/放电功率、电锅炉输出的热功率以及燃气锅炉输出的热功率构建动作空间中的每组调度动作,并基于深度神经网络建立价值网络、策略网络、目标价值网络和目标策略网络,以在后续通过训练价值网络的参数、策略网络的参数、目标价值网络的参数和目标策略网络的参数,得到满足要求的目标能源互联网优化调度模型。
[0125] 在步骤103中,根据随机噪声和贪心策略确定能源互联网优化调度模型训练过程中目标策略网络输出的目标调度动作,以基于目标调度动作得到训练好的目标能源互联网优化调度模型。
[0126] 其中,如图2所示,能源互联网优化调度模型的训练可以分为经验回放池的构建以及价值网络的参数、策略网络的参数、目标价值网络的参数和目标策略网络的参数的训练。在对价值网络的参数、策略网络的参数、目标价值网络的参数和目标策略网络的参数进行训练时,可以从经验回放池中抽取设定数量的经验样本作为训练样本,每条训练样本中包括当前时刻系统状态st、当前时刻调度动作at、当前时刻奖励值rt(st,at)和下一时刻系统状态st+1。然后将任一条训练样本中的当前时刻系统状态st和当前时刻调度动作at输入价值网络中,获得该训练样本对应的动作‑值函数。并将该训练样本中的下一时刻系统状态st+1输入目标策略网络中,获得该训练样本在下一时刻系统状态st+1下对应的下一时刻目标调度动作。然后将该训练样本中的下一时刻系统状态st+1和下一时刻目标调度动作输入目标价值网络中,获得该训练样本在下一时刻系统状态st+1下对应的目标动作‑值函数。进而根据目标动作‑值函数和动作‑值函数计算损失函数值,根据损失函数值更新价值网络的参数,根据策略网络的梯度和价值网络的梯度更新策略网络的参数,根据更新后价值网络的参数对目标价值网络进行软更新,并根据更新后策略网络的参数对目标策略网络进行软更新,直到达到设定迭代次数。可以通过多次经验回放池的构建以及价值网络、策略网络、目标价值网络和目标策略网络的训练来完成能源互联网优化调度模型的训练,得到目标能源互联网优化调度模型。
[0127] 其中,在将该训练样本中的下一时刻系统状态st+1输入目标策略网络中,获得该训练样本在下一时刻系统状态st+1下对应的下一时刻目标调度动作时,即根据随机噪声和贪心策略确定目标策略网络输出的下一时刻目标调度动作。
[0128] 可选的,根据随机噪声和贪心策略确定能源互联网优化调度模型训练过程中目标策略网络输出的目标调度动作,可以包括:
[0129] 在能源互联网优化调度模型训练过程中,确定当前训练过程属于训练前期还是训练后期。
[0130] 若当前训练过程属于训练前期,则随机生成一组备选调度动作,并对目标策略网络输出的调度动作添加随机噪声,获得一组待选目标调度动作。
[0131] 根据贪心策略对备选调度动作和待选目标调度动作进行选择。
[0132] 若贪心策略的选择为待选目标调度动作,则将待选目标调度动作确定为目标策略网络输出的目标调度动作。
[0133] 若贪心策略的选择为备选调度动作,则基于奖励函数计算备选调度动作对应的奖励值,记为第一奖励值,并基于奖励函数计算待选目标调度动作对应的奖励值,记为第二奖励值。
[0134] 将第一奖励值和第二奖励值中较大的奖励值对应的调度动作确定为目标策略网络输出的目标调度动作。
[0135] 可选的,在确定当前训练过程属于训练前期还是训练后期之后还可以包括:
[0136] 若当前训练过程属于训练后期,则对目标网络输出的调度动作添加随机噪声,获得目标策略网络输出的目标调度动作。
[0137] 本实施例中,考虑到传统DDPG训练过程中,通常引入奥恩斯坦‑乌伦贝克(Ornstein‑Uhlenbeck,OU)噪声以增加DDPG算法在交互时对环境的探索能力,但OU噪声的时序相关性导致其探索得到的动作常常会出现边界值,从而出现奖励值稀疏的现象,甚至造成梯度消失,使网络无法正常收敛。因此,本实施例使用动态调整策略,在训练前期,动作的选取不仅通过噪声探索得到,而是将噪声探索得到的动作与贪心策略得到的动作进行比较,选用两种动作中对应奖励值最大的动作用于网络训练。在训练后期,即奖励值变化小于设置的阈值后,仅依靠噪声探索后的动作继续训练直至收敛。这种动态调整策略可以大大缩短训练时间,保证策略的最优性。
[0138] 示例性的,假设从经验回放池中抽取了一条经验样本{st,at,rt,st+1},则将下一时刻系统状态st+1输入目标策略网络中后,输出下一时刻系统状态st+1下对应的下一时刻目标调度动作的过程为:
[0139] 先确定t+1时刻属于训练前期还是训练后期。
[0140] 若t+1时刻属于训练前期,则随机生成一组备选调度动作,并对目标策略网络输出的调度动作添加随机噪声,获得一组待选目标调度动作。
[0141] 根据贪心策略对备选调度动作和待选目标调度动作进行选择。
[0142] 若贪心策略的选择为待选目标调度动作(也即目标策略网络输出的调度动作),则将待选目标调度动作确定为下一时刻系统状态st+1下对应的下一时刻目标调度动作。
[0143] 若贪心策略的选择为备选调度动作(也即随机生成的备选调度动作),则计算备选调度动作对应的奖励值,并计算待选目标调度动作对应的奖励值。
[0144] 然后比较备选调度动作对应的奖励值和待选目标调度动作对应的奖励值的大小。
[0145] 若备选调度动作对应的奖励值大,则将备选调度动作确定为下一时刻系统状态st+1下对应的下一时刻目标调度动作。
[0146] 若待选目标调度动作对应的奖励值大,则将待选目标调度动作确定为下一时刻系统状态st+1下对应的下一时刻目标调度动作。
[0147] 结合图3可以看出,训练前期智能体对环境不熟悉,智能体做出调度决策时获得的奖励值较小,随着训练的进行,智能体与环境不断交互并积累经验从而更新网络权重,因此智能体的奖励值会逐渐增大直至收敛。因此本实施例通过在训练前期结合随机噪声和贪心策略确定目标调度动作,增加训练过程中目标策略网络的探索空间,进而有利于网络正常收敛,并通过训练前期选择奖励值大的调度动作作为目标调度动作用于网络训练,尽可能的加快训练速度,从而大大缩短训练时间,并保证策略的最优性。
[0148] 示例性的,上述过程中用到的随机噪声可以为OU噪声,贪心策略可以为ε‑贪心策略。
[0149] 可选的,确定当前训练过程属于训练前期还是训练后期的过程,可以包括:
[0150] 确定当前训练过程是否为第一次训练过程。
[0151] 若当前训练过程为第一次训练过程,则确定当前训练过程为训练前期。
[0152] 若当前训练过程不为第一次训练过程,则判断上一次训练过程确定的目标调度动作对应的奖励值的变化量是否大于或等于设定变化量阈值。
[0153] 根据判断结果确定当前训练过程属于训练前期还是训练后期。
[0154] 本实施例中,在第一次训练时,例如t=1时刻,直接确定当前训练过程为训练前期,也即从随机生成的备选调度动作和目标策略网络输出的添加随机噪声后的待选目标调度动作中选择一组作为目标调度动作。选择目标调度动作后,可以计算该目标调度动作对应的奖励值的变化量,并将该变化量与设定变化量阈值进行比较,如果该变化量较大,例如该变化量大于或等于设定变化量阈值,则下一次训练过程仍属于训练前期,如果该变化量较小,例如小于设定变化量阈值,可以认为下一次训练过程将属于训练后期。
[0155] 可选的,为了更准确的确定训练前期或训练后期,根据判断结果确定当前训练过程属于训练前期还是训练后期,可以包括:
[0156] 若变化量大于或等于设定变化量阈值,则确定当前训练过程为训练前期。
[0157] 若变化量小于设定变化量阈值,则将变化量小于设定变化量阈值的累积次数增加1,并判断累积次数是否达到设定次数阈值。
[0158] 若累积次数未达到设定次数阈值,则确定当前训练过程为训练前期。
[0159] 若累积次数达到设定次数阈值,则确定当前训练过程为训练后期。
[0160] 本实施例中,在确定训练过程是否为训练后期时,可以统计变化量小于设定变化量阈值的累积次数,例如,若上一次训练过程中确定的目标调度动作对应的奖励值的变化量小于设定变化量阈值,则累积次数记为1,若当前训练过程中确定的目标调度动作对应的奖励值的变化量也小于设定变化量阈值,则累积次数记为2,假设设定次数阈值为5,由于当前训练过程确定的累积次数为2,未达到设定次数阈值,则确定下一次训练过程仍处于训练前期。直到累积次数达到5之后,确定下一次训练过程为训练后期。
[0161] 需要说明的是,本实施例示出的设定次数阈值仅为实例,并不对设定次数阈值的具体取值进行限定,可以根据实际需求设置设定次数阈值的取值。本实施例通过设置一个设定次数阈值,可以避免确定训练过程为训练前期还是训练后期时频繁波动,更稳定准确的确定训练过程为训练前期还是训练后期。
[0162] 在价值网络的参数、策略网络的参数、目标价值网络的参数和目标策略网络的参数的训练过程中,根据随机噪声和贪心策略确定目标策略网络输出的目标调度动作后,即更新价值网络的参数。
[0163] 其中,价值网络通过最小化损失函数L(θQ)来优化参数,如下式所示,E(·)为期望函数,根据梯度公式更新价值网络和策略网络的网络参数, 作为动作改进的方向,采用软更新优化目标价值网络和目标策略网络中的参数。
[0164] L(θQ)=E(yt‑Q(st,at|θQ));
[0165] yt=rt+γQ′(st+1,π′(st+1|θπ′)|θQ′);
[0166] 可选的,在参数训练之前,即确定当前训练过程属于训练前期还是训练后期之前,还包括经验回放池构建的过程,即:
[0167] 对能源互联网优化调度模型进行初始化,并将初始化后的系统状态作为当前系统状态。
[0168] 将当前系统状态输入策略网络中,获得当前系统状态对应的当前调度动作。
[0169] 根据奖励函数,计算当前调度动作对应的当前奖励值。
[0170] 执行当前调度动作,得到下一时刻系统状态。
[0171] 将当前系统状态、当前调度动作、当前奖励值和下一时刻系统状态作为一条经验样本放入经验回放池中,并根据当前奖励值、下一时刻目标价值函数值和当前价值函数值计算该条经验样本的优先级,其中,下一时刻目标价值函数值为将下一时刻系统状态和下一时刻的目标调度动作输入目标价值网络后输出的目标价值函数值,当前价值函数值为将当前系统状态和当前调度动作输入价值网络后输出的价值函数值。
[0172] 将下一时刻系统状态作为新的当前系统状态,重新执行“将当前系统状态输入策略网络中,获得当前系统状态对应的当前调度动作”的步骤及其后续步骤,直到获得预设数量的经验样本。
[0173] 其中,传统DDPG算法采用了深度Q网络中的经验回放机制,训练时,每次从经验回放池中随机提取小批量的经验样本,并基于梯度规则更新网络参数。经验回放机制通过随机采样历史数据打破了数据之间的相关性,而经验的重复使用也增加了数据的使用效率。但本实施例发现其忽略了不同经验的重要程度,存在训练效率低、过度学习等问题,因此,本实施例将带优先级的经验回放机制结合到DDPG方法中,在训练过程中,智能体通过与环境交互收集经验样本,然后根据优先级对经验样本进行重要性采样。优先级越大经验样本的重要性越高,能够从中学习到的经验越多,被抽中的概率也越大。
[0174] 示例性的,可以根据 计算每条经验样本的优先级。
[0175] 其中,pt为当前系统状态为t时刻的系统状态的经验样本的优先级,δt为时间差分误差,为一个很小的常数,示例性的,可以为0.1,以确保每条经验样本都有概率被抽中。rt为在t时刻的系统状态st和t时刻的调度动作at下奖励函数的奖励值,γ为折扣系数,Q′π′ Q′ π′
(st+1,π′(st+1|θ )|θ )为将下一时刻系统状态st+1和下一时刻的目标调度动作π′(st+1|θ )Q
输入目标价值网络后输出的下一时刻目标价值函数值,Q(st,at|θ)为将当前系统状态st和当前调度动作at输入价值网络后输出的当前价值函数值。
[0176] 本实施例,搭建改进的DDPG训练网络,在每一轮训练过程中,智能体在当前系统状态st下根据策略网络的调度执行动作at,计算奖励值rt并观察新的系统状态st+1,进而作为一条历史经验样本计算优先级并被存储在经验回放池中。然后,智能体根据带优先级的经验回放机制对经验样本进行小批量采样,并对策略网络和值网络进行更新。重复以上步骤,直到训练结束,训练得到的DDPG算法参数将被固定,得到目标能源互联网优化调度模型,用于目标能源互联网的优化调度问题的求解。其中,根据随机噪声和贪心策略使用动态调整策略选取目标调度动作,并将优先级经验回放机制与DDPG方法相结合,以缩短训练时间,提高训练效率。
[0177] 在步骤104中,利用目标能源互联网优化调度模型,在目标能源互联网的当前系统状态和约束条件下进行求解,获得当前系统状态下的优化调度方案。
[0178] 本实施例中,训练得到目标能源互联网优化调度模型后,在能源互联网优化调度测试时,可以根据当前系统状态st,利用训练好的DDPG策略网络选择调度动作at,作为当前系统状态下的优化调度方案,然后,执行调度动作at并且进入下一系统状态,进而可以实现能源互联网的优化调度。
[0179] 本发明实施例通过先建立目标能源互联网的系统模型,并确定对目标能源互联网进行优化调度的目标函数和约束条件,然后基于系统模型和目标函数,根据深度确定性策略梯度算法构建能源互联网优化调度模型,然后根据随机噪声和贪心策略确定能源互联网优化调度模型训练过程中目标策略网络输出的目标调度动作,以基于目标调度动作得到训练好的目标能源互联网优化调度模型,最后利用目标能源互联网优化调度模型,在目标能源互联网的当前系统状态和约束条件下进行求解,获得当前系统状态下的优化调度方案。从而利用随机噪声和贪心策略,实现在训练前期选择奖励值最大的目标调度动作用于网络训练,在训练后期,依靠噪声探索后得到的目标调度动作继续训练至网络收敛的效果,且通过目标调度动作的动态调整策略大大缩短训练时间,提高训练效率,并保证策略的最优性。
[0180] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0181] 以下为本发明的装置实施例,对于其中未详尽描述的细节,可以参考上述对应的方法实施例。
[0182] 图4示出了本发明实施例提供的能源互联网优化调度装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
[0183] 如图4所示,能源互联网优化调度装置包括:第一模型构建模块41、第二模型构建模块42、训练模块43和调度模块44。
[0184] 第一模型构建模块41,用于建立目标能源互联网的系统模型,并确定对目标能源互联网进行优化调度的目标函数和约束条件;
[0185] 第二模型构建模块42,用于基于系统模型和目标函数,根据深度确定性策略梯度算法构建能源互联网优化调度模型;
[0186] 训练模块43,用于根据随机噪声和贪心策略确定能源互联网优化调度模型训练过程中目标策略网络输出的目标调度动作,以基于目标调度动作得到训练好的目标能源互联网优化调度模型;
[0187] 调度模块44,用于利用目标能源互联网优化调度模型,在目标能源互联网的当前系统状态和约束条件下进行求解,获得当前系统状态下的优化调度方案。
[0188] 本发明实施例通过先建立目标能源互联网的系统模型,并确定对目标能源互联网进行优化调度的目标函数和约束条件,然后基于系统模型和目标函数,根据深度确定性策略梯度算法构建能源互联网优化调度模型,然后根据随机噪声和贪心策略确定能源互联网优化调度模型训练过程中目标策略网络输出的目标调度动作,以基于目标调度动作得到训练好的目标能源互联网优化调度模型,最后利用目标能源互联网优化调度模型,在目标能源互联网的当前系统状态和约束条件下进行求解,获得当前系统状态下的优化调度方案。从而利用随机噪声和贪心策略,实现在训练前期选择奖励值最大的目标调度动作用于网络训练,在训练后期,依靠噪声探索后得到的目标调度动作继续训练至网络收敛的效果,且通过目标调度动作的动态调整策略大大缩短训练时间,提高训练效率,并保证策略的最优性。
[0189] 在一种可能的实现方式中,能源互联网优化调度模型包括奖励函数;训练模块43,可以用于在能源互联网优化调度模型训练过程中,确定当前训练过程属于训练前期还是训练后期;
[0190] 若当前训练过程属于训练前期,则随机生成一组备选调度动作,并对目标策略网络输出的调度动作添加随机噪声,获得一组待选目标调度动作;
[0191] 根据贪心策略对备选调度动作和待选目标调度动作进行选择;
[0192] 若贪心策略的选择为待选目标调度动作,则将待选目标调度动作确定为目标策略网络输出的目标调度动作;
[0193] 若贪心策略的选择为备选调度动作,则基于奖励函数计算备选调度动作对应的奖励值,记为第一奖励值,并基于奖励函数计算待选目标调度动作对应的奖励值,记为第二奖励值;
[0194] 将第一奖励值和第二奖励值中较大的奖励值对应的调度动作确定为目标策略网络输出的目标调度动作。
[0195] 在一种可能的实现方式中,训练模块43,还可以用于若当前训练过程属于训练后期,则对目标网络输出的调度动作添加随机噪声,获得目标策略网络输出的目标调度动作。
[0196] 在一种可能的实现方式中,训练模块43,可以用于确定当前训练过程是否为第一次训练过程;
[0197] 若当前训练过程为第一次训练过程,则确定当前训练过程为训练前期;
[0198] 若当前训练过程不为第一次训练过程,则判断上一次训练过程确定的目标调度动作对应的奖励值的变化量是否大于或等于设定变化量阈值;
[0199] 根据判断结果确定当前训练过程属于训练前期还是训练后期。
[0200] 在一种可能的实现方式中,训练模块43,可以用于若变化量大于或等于设定变化量阈值,则确定当前训练过程为训练前期;
[0201] 若变化量小于设定变化量阈值,则将变化量小于设定变化量阈值的累积次数增加1,并判断累积次数是否达到设定次数阈值;
[0202] 若累积次数未达到设定次数阈值,则确定当前训练过程为训练前期;
[0203] 若累积次数达到设定次数阈值,则确定当前训练过程为训练后期。
[0204] 在一种可能的实现方式中,随机噪声为OU噪声;贪心策略为ε‑贪心策略。
[0205] 在一种可能的实现方式中,奖励函数为:
[0206]
[0207] 其中,rt(st,at)为在t时刻的系统状态st和t时刻的调度动作at下奖励函数的奖励值,β1为系统运行成本惩罚系数,β2为违反约束条件惩罚系数,β3为源荷功率不平衡惩罚系数,CE为购买能源的成本,CBES为电储能的充放电折旧成本,CHS为热储能的充放热折旧成本,Ft为t时刻的违反约束条件惩罚,α1为热电联供机组违反约束条件惩罚系数,α2为电储能违反约束条件惩罚系数,α3为电锅炉违反约束条件惩罚系数,α4为燃气锅炉违反约束条件惩罚系数,α为违反约束条件惩罚函数系数,pCHP(t)为t时刻热电联供机组输出的电功率,pCHP为热电联供机组输出的电功率限值,pBES(t)为t时刻电储能的充/放电功率,pBES为电储能的充/放电功率限值,hEB(t)为t时刻电锅炉输出的热功率,hEB为电锅炉输出的热功率限值,hGB(t)为t时刻燃气锅炉输出的热功率,hGB为燃气锅炉输出的热功率限值,Ut为t时刻的源荷功率不平衡惩罚,pVAC(t)为t时刻电功率供需不平衡惩罚,hVAC(t)为t时刻的热功率供需不平衡惩罚。
[0208] 在一种可能的实现方式中,能源互联网优化调度模型还包括策略网络、价值网络和目标价值网络;训练模块43,还可以用于对能源互联网优化调度模型进行初始化,并将初始化后的系统状态作为当前系统状态;
[0209] 将当前系统状态输入策略网络中,获得当前系统状态对应的当前调度动作;
[0210] 根据奖励函数,计算当前调度动作对应的当前奖励值;
[0211] 执行当前调度动作,得到下一时刻系统状态;
[0212] 将当前系统状态、当前调度动作、当前奖励值和下一时刻系统状态作为一条经验样本放入经验回放池中,并根据当前奖励值、下一时刻目标价值函数值和当前价值函数值计算该条经验样本的优先级,其中,下一时刻目标价值函数值为将下一时刻系统状态和下一时刻的目标调度动作输入目标价值网络后输出的目标价值函数值,当前价值函数值为将当前系统状态和当前调度动作输入价值网络后输出的价值函数值;
[0213] 将下一时刻系统状态作为新的当前系统状态,重新执行“将当前系统状态输入策略网络中,获得当前系统状态对应的当前调度动作”的步骤及其后续步骤,直到获得预设数量的经验样本。
[0214] 在 一 种 可 能 的 实 现 方 式 中 ,训 练 模 块 4 3 ,可 以 用 于 根 据计算该条经验样本的优先级;
[0215] 其中,pt为当前系统状态为t时刻的系统状态的经验样本的优先级,δt为时间差分误差,为一个很小的常数,rt为在t时刻的系统状态st和t时刻的调度动作at下奖励函数的π′ Q′奖励值,γ为折扣系数,Q′(st+1,π′(st+1|θ )|θ )为将下一时刻系统状态st+1和下一时刻的π′
目标调度动作π′(st+1|θ )输入目标价值网络后输出的下一时刻目标价值函数值,Q(st,at|Q
θ)为将当前系统状态st和当前调度动作at输入价值网络后输出的当前价值函数值。
[0216] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0217] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模板、单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0218] 所述模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个能源互联网优化调度方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。
[0219] 以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页
相关技术
优化调度相关技术
方法装置相关技术
辛锐发明人的其他相关专利技术