技术领域
[0001] 本发明属于综合能源系统技术领域,具体涉及一种基于氢储能的热电联供系统多能流智能调度方法。
相关背景技术
[0002] 综合能源系统(hybrid energy systems,HES)的发展对于可再生能源利用、温室气体减排以及促进向低碳或无碳系统的转型具有重要意义。通过可再生能源电解水产生的“绿氢”可以作为电力和天然气系统之间的桥梁,加快跨行业的深度脱碳进程。然而,由于可再生能源的间歇性和波动性,综合能源系统的运行面临着源荷不确定性。通过需求响应(demand response,DR)实现电热负荷的灵活调整,可以有效应对能源供需不匹配,从而提高可再生能源利用率并降低系统运行成本。因此,需求响应对于提高综合能源系统的灵活性和可管理性至关重要。
[0003] 与依赖详细数学模型和预测过程的传统优化算法相比,无模型的强化学习(Reinforcement learning,RL)技术在各种电力系统中得到了广泛研究和应用。RL能够将状态信息映射到系统级的聚合决策模型,同时得益于探索和利用的训练过程,它可以有效处理综合能源系统中的非线性和不确定性。此外,深度强化学习(Deep reinforcement learning,DRL)通过结合RL和神经网络,克服了“维度诅咒”的挑战,从而有效扩大了RL的应用场景。目前,已有大量研究基于RL技术讨论综合能源系统中的需求响应问题。然而,现有技术通常仅考虑需求响应策略在系统经济方面的影响,特别是在预定义的运行场景下,不涉及源荷不确定性下的综合能源系统设备与需求响应的综合调度优化问题。并且,许多研究中的系统模型相对简单。
具体实施方式
[0094] 为了使本领域的人员更好地理解本发明的技术方案,下面结合本发明的附图,对本发明的技术方案进行清楚、完整的描述,基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它类同实施例,都应当属于本申请保护的范围。
[0095] 下面结合附图对本发明做进一步说明。
[0096] 如图2所示,本发明实施例提供一种基于氢储能的热电联供系统多能流智能调度方法,具体包括如下的步骤:
[0097] S1、建立基于氢储能的热电联供系统中各设备的调度模型,根据系统耦合特性与能量流形式设置运行安全性约束与能量平衡约束;
[0098] 如图1所示,图中热泵采用空气源热泵,储氢罐为高压储氢罐,燃料电池为质子交换膜,电解槽为质子交换膜电解槽,本实施例中,热电联供系统中的设备包括质子交换膜燃料电池、质子交换膜电解槽、光伏发电设备、风力发电设备、热泵、蓄热罐和储氢罐,系统连接外部电网以确保系统运行可靠性。该热电联供系统的运行涉及热能的存储与利用,氢气的制取、存储与利用。其他辅助设备,例如能量控制器、管路、阀门、逆变器以及循环水泵等,未在图1中示出。
[0099] 质子交换膜燃料电池的调度模型包括质子交换膜燃料电池的氢气流速模型、电流密度模型、电功率模型以及热功率模型;质子交换膜电解槽的调度模型包括质子交换膜电解槽的耗电功率与制氢流速模型;光伏发电设备的调度模型包括光伏发电设备功率模型;风力发电设备的调度模型包括风力发电设备功率与风速模型;空气源热泵的调度模型包括空气源热泵电功率与热功率模型;蓄热罐的调度模型包括蓄热罐初热状态与制热功率模型;高压储氢罐的调度模型包括高压储氢罐压强模型。设置以上各设备的运行安全性约束,设置电功率平衡、热功率平衡以及氢气流平衡,作为后续优化问题的约束条件。
[0100] 具体地,质子交换膜燃料电池的调度模型为:
[0101]
[0102] 其中,NFC为燃料电池的氢气进气速率, 为电池单元数,IFC为理论电流,F为法拉第常数;j为电流密度,Acell为电池单元的有效反应面积;
[0103] 基于电流密度j,燃料电池的电功率 与热功率 可拟合为:
[0104]
[0105] 质子交换膜电解槽的调度模型为:
[0106]
[0107] 其中,NEH为电解槽的制氢速率,ηF为法拉第效率, 为串联的电解槽数量,IEH为电解槽电流;
[0108] 光伏发电设备的调度模型为:
[0109]
[0110] 其中, 为光伏发电功率,ηPV为光伏发电的光伏效率,ηinv为光伏发电的逆变器0
效率,APV为有效光照面积,I为太阳辐照度;
[0111] 风力发电设备的调度模型为:
[0112]
[0113] 其中, 为风力发电功率,vt为实际风速,vin为启动风速,vout为停机风速,vr为额定风速,Capwt为风力发电安装容量;
[0114] 空气源热泵的调度模型为:
[0115]
[0116] 其中, 为热泵制热功率, 为热泵耗电功率,COP为空气源热泵的性能系数;
[0117] 蓄热罐的调度模型为:
[0118]
[0119] 其中,HSDt+1为蓄热罐在t+1时刻的储热状态,HSDt为蓄热罐在t时刻的储热状态,为蓄热罐的制热功率,Hc是蓄热罐的最大储热量,ΔT为调度时间间隔;
[0120] 高压储氢罐的调度模型为:
[0121]H
[0122] 其中, 为t+1时刻储氢罐的压强,TPt为t时刻储氢罐的压强, 为t时刻储氢罐的氢气流速,R为通用气体常数,TH为温度, 为氢气的摩尔质量,VH为储氢罐容积;
[0123] zt为氢气压缩系数,定义为:
[0124]
[0125] 其中,ai,bi,ci为常数,i=1...9;T0=100K。
[0126] S2、设置负荷削减和负荷转移两种需求响应合同,并以运行成本、需求响应成本以及储能设备状态为目标,建立考虑需求响应的热电联供系统优化调度问题。
[0127] 负荷削减需求响应合同定义为:在高峰期用户参与需求响应,降低电、热负荷以缓解电网供电压力,同时获得经济补偿;负荷转移需求响应合同定义为:用户将高峰期可转移电、热负荷需求主动转移至低谷期,通过高峰期与低谷期的电价差减少购电成本;
[0128] 考虑需求响应的热电联供系统优化调度问题的目标函数J为:
[0129] J=min(C1+C2+C3)
[0130]
[0131] 其中,C1包含燃料电池运行成本 和系统购电/售电成本 c0为燃料电池单位功率成本, 为燃料电池发电功率,pt为电价, 为电网购电/售电功率;
[0132] C2为用户参与电、热需求响应的奖励。如果用户以负荷削减参与需求响应,那么电需求响应的经济补偿, 为对应的热需求响应的经济补偿,定义为:
[0133]
[0134] 其中, 为用户参与的电需求响应功率, 为用户参与的热需求响应功率;ae、be、ah和bh为需求响应补偿系数;
[0135] C3为储能设备状态,HSD0为蓄热罐的初始状态,TP0为储氢罐的初始状态,定义为:
[0136]
[0137] 其中,HSDmin为蓄热罐储热状态的最小值,HSDmax为蓄热罐储热状态的最大值,TPmin为储氢罐压强的最小值,TPmax为储氢罐压强的最大值;
[0138] TPT为末时刻T储氢罐的状态,ΔTPT为储氢罐初始状态与末时刻状态的差值;HSDT为末时刻T蓄热罐的状态,ΔHSDT为蓄热罐初始状态与末时刻状态的差值;
[0139] λi为权重因子,i=1,...,6。
[0140] 优化调度问题的设备安全性约束与需求响应约束为:
[0141]
[0142] 其中,式(a)包括燃料电池、电解槽和热泵的功率约束;式(b)包括电、热需求响应功率约束;式(c)包括蓄热罐储能约束、储氢罐压强约束;
[0143] 优化调度问题的能量平衡约束为:
[0144]
[0145] 其中,氢气流平衡包括电解槽制氢速率 储气罐进气速率 和燃料电池耗氢速率 电功率平衡包括燃料电池发电 光伏发电 风力发电 电网购电热泵耗电 电解槽耗电 电负荷 和电需求响应 热功率平衡包括燃料电
池供热 热泵供热 蓄热罐供热 热负荷 和热需求响应
[0146] 在建立好以上各设备的调度模型和优化调度问题之后,执行步骤S3。
[0147] S3、针对算法训练特点,对双延迟深度确定性策略梯度算法进行两步改进,分别为双探索双经验存储策略和末位奖励经验淘汰策略;
[0148] 对双延迟深度确定性策略(Twin delayed deep deterministic policy gradient algorithm,TD3)梯度算法进行两步改进,包括:
[0149] 双探索双经验存储:对每个时间步的动作探索噪声,即OU噪声,取其相反数生成一条新噪声,分别添加到策略网络的原始动作输出上,进行两次策略探索。与环境交互后,同时保存两次探索的训练经验。而在当前时间步结束时,选择奖励值较高的经验对应的下一步状态用于更新和计算。
[0150] 末位奖励经验淘汰:当需要存储新的训练经验而经验回放池已满时,找出相同时间步的奖励值最低的两组训练经验,并将其与两组新的训练经验进行比较,保留奖励值最高的两组。
[0151] 一方面,双探索双经验存储策略能够保证能尽可能向更高奖励值方向上探索,同时正反两个方向的噪声也确保了充分的探索,为神经网络提供丰富的训练经验,避免过早陷入局部最优的问题;另一方面,通过设置较大的经验回放池且经验存储已满时,通过淘汰末位奖励经验,能够筛选并保留高质量训练经验,从而避免因随机采样导致重复使用低奖励、过时的训练数据。
[0152] S4、基于改进算法对优化调度问题进行序贯决策设计,在随机源荷场景下训练策略网络,实现基于氢储能的热电联供系统的多能流实时智能决策;
[0153] 序贯决策设计需要建立系统运行的马尔可夫决策过程,包括:
[0154] 建立状态空间S:
[0155]
[0156] 其中,状态包括时间t、温度TMt、光伏发电功率 风力发电功率 电负荷热负荷 储氢罐压强TPt以及蓄热罐储能状态HSDt;
[0157] 建立动作空间A:
[0158]
[0159] 其中,动作包括燃料电池进气速率 热泵耗电功率 电需求响应功率和热需求响应功率
[0160] 建立奖励函数R:
[0161]
[0162] 其中,奖励函数R包括每一步奖励rt和末时刻奖励rT;在rt中, 和依次为燃料电池运行、购电/售电、电需求响应和热需求响应奖励; 为蓄热罐参与调度后,当前的热过剩功率; 为蓄热罐参与调度后,当前的热不足功率;λi为调节系数,i=
1,...,8。
[0163] 引入rT可以使得储氢罐和蓄热罐的状态在调度结束后回到初始时刻附近,从而确保下一日的热电解耦需求,有效提高系统的可持续性。
[0164] 初始化TD3算法的策略网络,评分网络1以及评分网络2,并建立参数相同的目标网络;
[0165] 针对热电联供系统添加设备调度的探索噪声和用户侧的需求响应噪声,并分别设置不同的噪声参数,包括均值、扩散项系数和衰减周期;
[0166] 基于历史数据的负荷均值作为典型日调度场景,包括源荷数据、需求响应参数以及各时刻需求响应功率上限;源荷数据包括太阳辐照度、风速、温度、电负荷、热负荷;需求响应参数包括电、热需求响应的奖励系数,具体为:
[0167]
[0168] 反复训练TD3算法,每个回合训练基于典型日调度场景和优化调度问题,随机添加源荷波动以生成一组训练场景,其波动程度需满足特定条件;同时,初始化储氢罐的初始状态TP0和蓄热罐的初始状态HSD0;
[0169] 执行调度过程,基于当前环境状态和动作网络输出动作,其中输出动作包括设备调度策略以及需求响应调度策略;重新计算考虑需求响应后新的电、热负荷,以及当前热功率过剩与不足,并执行改进后的双探索双经验存储策略和末位奖励经验淘汰策略;
[0170] 执行网络更新过程,当保存的数据组数量满足最小训练批次要求时,打乱数据组后随机取出一个批次的数据;以随机梯度下降算法训练策略网络,以采样梯度训练动作网络,软更新目标网络;
[0171] 训练完成后,保存策略网络,用于实现基于氢储能的热电联供系统的多能流实时智能决策。
[0172] 基于优化调度框架采用TD3算法对综合能源系统进行设备功率调度和需求响应调度,可以使系统调度更加智能化,体现了调度策略的自适应性,在满足系统运行约束条件的同时能够做到根据环境与负荷不确定性和储能设备容量等因素,在不同时刻快速响应并提供高效的调度策略,从而提高系统的能源效率和设备可持续性。
[0173] TD3算法的神经网络更新示意图,如图3所示,包括评价网络1、评价网络2、策略网P P'络,以及对应的目标网络。其中,s为状态,a为动作,r为奖励,θ , θ , 均为神经网络参数,LOSS为网络更新的损失值,MSE为均方误差,目标网络使用软更新策略。参照图
3,TD3算法框架中动作网络的输入特征数为7,输出为4,具有四层全连接层,神经元个数分别为14,28,14,4;策略网络输入特征数为11,输出为1,具有四层全连接层,神经元个数分别为22,44,22,1。目标动作网络和目标策略网络的结构与各自的原网络相同。图3中,TPS:
target policy smoothing(日标策略平滑);CDQ:clipped dobule Q‑lcaming(截断双Q学习)DPU:delayed policy updatcs(延迟策略更新)。
[0174] TD3算法主要参数的设置可如表4所示。
[0175] 表4 DDPG主要参数设置
[0176]
[0177] 表4中,aP为演员网络的学习率,aQ为评论员网络的学习率;τ为目标网络软更新系数;T为调度周期;episode为训练回合数;γ为折扣因子;memory为经验回放池容量;batchsize为批量大小;μ和θ为OU噪声参数,δmax和δmin为OU噪声方差最大值和最小值,上下标“1”、“2”分别对应TD3探索噪声和需求响应功率噪声;Tdecay为噪声衰减周期;λi(i=
1,...,8)为奖励项系数,依次对应燃料电池运行成本、购电/售电成本、电需求响应、热需求响应、热功率过剩、热功率不足、蓄热罐储能状态和储氢罐压强。
[0178] 主要设备规划配置方案如下:
[0179] 燃料电池串联单元数ncell为12,有效反应面积Acell为100cm2,法拉第常数为96485.34C/mol,最大最小功率分别为4kW和0kW;电解槽的串联单元数nEH为10,反应面积AEH
2
为0.25m,最大最小功率 分别为4kW和0kW;储氢罐最大最小压强TPmax、TPmin分
3
别为2kPa和0.5kPa,体积VH为1m,工作温度TH为恒定的300K,,氢气摩尔质量为2.016g/mol,通用气体常数为8.314J/(mol·K);蓄热罐容量Hc为10kWh,储能状态上、下限HSDmax、HSDmin分别为0和1,蓄热罐出水温度为55℃;热泵的最大最小功率 分别为4kW和0kW;风力发电安装容量Capwt为1kW,启动风速vin、停机风速vout和额定风速vr分别为3m/s、12m/s和
2
10m/s;光伏发电的有效面积APV为16m,光伏效率ηPV为0.19,转换器效率ηinv为0.95。
[0180] 典型日场景的源荷数据,如图4所示。每个回合训练回合基于典型日场景和优化调度问题的运行约束,随机生成一组系统运行场景的源荷数据,不超过对应时刻源荷数据的‑20%和20%。同时,初始化储氢罐和蓄热罐的初始状态TP0和HSD0;
[0181] 基于所建立的马尔可夫决策过程模型和TD3调度框架,以及表1‑表3中的参数设置,训练TD3神经网络,训练奖励,如图5所示,其中下标为“mean”曲线是每五步训练的奖励的平均值。DE‑TD3为改进后的TD3算法。图5中的结果表明,由于引入了双探索双经验存储策略,DE‑TD3的训练曲线增长效率明显快于TD3,特别是在135回合后,末位奖励经验淘汰策略开始发挥作用,DE‑TD3的训练曲线增长更快,并最终于168回合处收敛,收敛时的累积奖励为‑59.62,相比于TD3的180回合和累积奖励‑63.77,分别提升了6.67%和6.51%。电网的分时电价、负荷削减合同、负荷转移合同的价格参数如表1‑表3所示。
[0182] 表1电网的分时电价
[0183]
[0184] 表2负荷削减合同
[0185]
[0186] 表3负荷转移合同
[0187] 类型 转移时段 被转移时段1 7:00‑10:00 0 1:00‑04:00
2 18:00‑22:00 11:00‑15:00
[0188] 训练完成后,使用训练好DE‑TD3神经网络在典型日场景下进行能量调度,分别考虑负荷削减和负荷转移两种需求响应方式,获得24小时的系统设备调度和需求响应调度结果,如图6‑图9所示。
[0189] 如图5所示的结果表明,在前100个回合中,较高的探索噪声和需求响应噪声使得系统主要处于探索阶段,且随着策略不断改进训练奖励震荡上升。随着噪声的减小和网络的更新,训练奖励于160回合处收敛。
[0190] 如图6和图8所示的需求响应调度结果表明,基于训练好的DE‑TD3神经网络,系统可以实现自适应调度,用户可以在用电高峰期主动降低电负荷与热负荷,或是将对应时段的负荷转移到低负荷时段,从而充分促进风光消纳,有效降低系统运行成本。
[0191] 如图7和图9所示的储氢罐和蓄热罐调度结果表明,基于训练好的DE‑TD3神经网络,在典型日场景调度结束后,储氢罐的压强和蓄热罐的储热状态均能够回到初始时刻附近,从而有效保证下一日的热电解耦需求,提高系统的可持续性。
[0192] 综上,本发明实施例研究热电联供系统的高效电热氢解耦与需求响应调度,从设备级到系统级全过程可以实现基于氢储能的热电联供系统的多能流实时智能决策,克服运行中的源荷运行不确定,提升系统的适应性。具体来说,建立基于氢储能的热电联供系统中各设备的调度模型,根据系统耦合特性与能量流形式设置运行安全性约束与能量平衡约束;设置负荷削减和负荷转移两种需求响应合同,并以运行成本、需求响应成本以及储能设备状态为目标,建立考虑需求响应的热电联供系统优化调度问题;针对算法训练特点,对双延迟深度确定性策略梯度算法进行两步改进,分别为双探索双经验存储策略和末位奖励经验淘汰策略;基于改进算法对优化调度问题进行序贯决策设计,在随机源荷场景下训练策略网络,实现基于氢储能的热电联供系统的多能流实时智能决策。由此,采用DE‑TD3算法在马尔可夫决策过程下对热电联供系统进行需求响应能量调度,可以克服系统运行时的多重不确定性并对外部环境快速响应,降低运行成本的同时提高系统的可持续性。
[0193] 以上已将本发明做了详细说明,以上所述,仅为本发明之较佳实施例而已,当不能限定本发明的实施范围,即凡依本申请范围所作均等变化与修饰,皆应仍属本发明涵盖范围内。