基于强化学习的电力系统仿真调度方法及系统_专利转让申请注册交易-盲点网

基于强化学习的电力系统仿真调度方法及系统有效专利发明

技术领域

[0001] 本发明涉及数字能源、物联网、深度学习和强化学习技术领域，具体地说是一种基于强化学习的电力系统仿真调度方法及系统。

具体实施方式

[0068] 参照说明书附图和具体实施例对本发明的基于强化学习的电力系统仿真调度方法及系统作以下详细地说明。

[0069] 实施例1：

[0070] 本发明的基于强化学习的电力系统仿真调度方法，该方法是通过电力系统云数据中心采集来自电力系统各参与电力系统单元的数据，利用数字孪生技术形成电力系统模拟仿真环境，并设计强化学习电力系统调度员决策模型π，再根据实际电力系统调度员的情况，采用A3C训练方法与电力系统仿真环境进行交互，最终形成最佳执行策略，最佳执行策略用于辅助电力系统调度员执行决策。

[0071] 如附图1所示，本实施例中的参与电力系统单元包括发电系统、输电配电网以及用电负荷；其中，发电系统用于产生电力，包括风力发电、光伏发电、水利发电及核电的清洁能源以及传统的火力发电的化石燃料发电；输电配电网用于保证电力的安全传输；用电负荷指电力的消耗，电力的消耗包括工业负荷、居民负荷、商业负荷。

[0072] 本实施例中的电力系统模拟仿真环境运行在电力系统云数据中心，通过对于与各个参与电力系统单元的数据采集及指令控制，实现各个参与电力系统单元的数据孪生运行体；

[0073] 本实施例中的电力系统云数据中心用于提供计算、存储及网络的云基础设施服务，并且运行电力系统的业务系统，手机来自各个参与电力系统单元的传感数据，同时提供强化学习训练所需的算力和存储。

[0074] 本实施例中的强化学习电力系统调度员决策模型π是模拟调度员的实际操作形成的策略模型，通过强化学习训练得到，主体为序列化神经网络模型，根据当前电力系统的电力计划、频率情况、电压情况及检修情况的实际运行情况决定电力系统调度员要执行的调度操作。

[0075] 本实施例中的电力系统调度操作包括设定机组出力的上限和下限、设定机组长落出力速度的调整发电机组出力设置以及调整修改电力计划、事故拉闸限电、倒闸操作和设备检修的操作。

[0076] 本实施例中的强化学习电力系统调度员决策模型π的训练过程具体如下：

[0077] (1)、收集海量的电力系统运行数据，电力系统运行数包括来自电力系统参与单元的实时状态数据、电力系统运行日志、电力系统调度计划、电力系统故障数据、检修数据以及电力系统调度员调度执行数据的信息；

[0078] (2)、根据收集的电力系统运行历史数据，构建数字孪生系统，形成电力系统模拟仿真环境；

[0079] (3)、根据电力系统调度员实际操作，结合电力系统实际操作的上下文状态环境，构建电力系统调度员调度操作指令执行序列ExeSeq(状态s，操作指令a)；

[0080] (4)、设计强化学习电力系统调度员决策模型π，根据当前电力计划、各参与电力系统单元运行状态、电网频率状况、电压状况、检修情况、事故异常事件及事故拉闸序位表的数据，确定下一步执行调度操作；

[0081] (5)、根据电力系统调度员调度操作，基于历史数据实际执行效果，结合在电力系统模拟仿真环境，设定电力系统模拟仿真环境的奖励函数；

[0082] (6)、在电力系统云数据中心申请资源，采用A3C算法训练强化学习电力系统调度员决策模型π，设定worker线程数量、全局共享迭代次数、全局最大迭代次数、状态特征维度及操作指令集的全局参数；

[0083] (7)、初始化强化学习电力系统调度员决策模型π，设定全局模型公共神经网络，设置电力系统虚拟仿真环境初始化状态s0；其中，全局模型公共神经网络包括Actor网络和Critic网络；

[0084] (8)、利用A3C算法，每个worker线程采用Actor网络和Critic网络结构(与全局模型公共神经网络一样的网络结构)，独立与电力系统虚拟仿真环境进行交互，执行调度操作获得反馈，并更新本地Actor网络和Critic网络梯度；

[0085] (9)、将更新后的结果汇集到全局模型公共神经网络，更新全局模型公共神经网络的模型参数；

[0086] (10)、循环执行步骤(8)至步骤(9)，直至强化学习电力系统调度员决策模型π收敛，得到最优的强化学习电力系统调度员决策模型π。

[0087] 本实施例中的最佳执行策略用于辅助电力系统调度员执行决策具体如下：

[0088] ①、利用已经构建的数字孪生系统实时采集当前电力系统的实际运行数据，并实时更新到电力系统虚拟仿真环境；

[0089] ②、利用强化学习训练得到的强化学习电力系统调度员决策模型π，根据当前实际状况，输出下一步调度操作；

[0090] ③、记录当前电力系统虚拟仿真环境状态，强化学习电力系统调度员决策模型π推荐的下一步操作，反馈更新电力系统虚拟仿真环境；

[0091] ④、设定时间段，重复执行步骤②至步骤③，形成电力系统调度员推荐操作序列，用于辅助决策；

[0092] ⑤、电力系统调度操作员根据推荐操作，结合实际状况进行调度操作；

[0093] ⑥、电力系统获取实际操作结果，更新当前电力系统的实际运行数据，并实时更新到电力系统虚拟仿真环境，转到步骤②；

[0094] ⑦、持续更新运行状态，输出辅助推荐操作。

[0095] 本实施例中的强化学习电力系统调度员决策模型π的优化过程具体如下：

[0096] (一)、利用电力系统模拟仿真环境，针对实际每一位电力系统调度员的实际操作，采用强化学习方法训练其个性化强化学习电力系统调度员决策模型；

[0097] (二)、将电力系统调度员的个性化强化学习电力系统调度员决策模型作为模拟调度员，与电力系统模拟仿真环境进行持续交互，模拟电力系统运行和调度；

[0098] (三)、评价电力系统调度员个性化强化学习电力系统调度员决策模型的调度结果，并与最佳调度指令执行策略对比，发现其中的调度问题，进而改善调度策略；

[0099] (四)、根据实际排班情况，在电力系统模拟仿真环境下，模拟全部调度员的调度操作，并与最佳调度指令执行策略对比，发现异常环节，优化调度方式；

[0100] (五)、根据未来实际排班情况，在电力系统模拟仿真环境下，结合电力系统实际数据，模拟未来时刻电力系统运行和调度，提前发现问题，避免事故发生；

[0101] (六)、持续收集来自实际电力系统运行及调度的数据，用于优化强化学习电力系统调度员决策模型。

[0102] 实施例2：

[0103] 本发明的基于强化学习的电力系统仿真调度系统，该系统包括，[0104] 电力系统云数据中心，用于提供计算、存储及网络的云基础设施服务，并且运行电力系统的业务系统，收集来自各个参与电力系统单元的传感数据，并提供强化学习训练所需的算力及存储；

[0105] 强化学习电力系统调度员决策模型π，用于通过通过强化学习训练得到，主体是序列化神经网络模型，根据当前电力系统实际运行情况，决定电力系统调度员要执行的调度操作；其中，当前电力系统实际运行情况包括电力计划、频率情况、电压情况及检修情况；

[0106] 电力系统仿真模拟环境，用于运行在电力系统云数据中心，通过对于各个参与电力系统单元的数据采集及指令控制，实现各个参与电力系统单元的数字孪生运行体。

[0107] 本实施例中的强化学习电力系统调度员决策模型π的训练过程具体如下：

[0108] (1)、收集海量的电力系统运行数据，电力系统运行数包括来自电力系统参与单元的实时状态数据、电力系统运行日志、电力系统调度计划、电力系统故障数据、检修数据以及电力系统调度员调度执行数据的信息；

[0109] (2)、根据收集的电力系统运行历史数据，构建数字孪生系统，形成电力系统模拟仿真环境；

[0110] (3)、根据电力系统调度员实际操作，结合电力系统实际操作的上下文状态环境，构建电力系统调度员调度操作指令执行序列ExeSeq(状态s，操作指令a)；

[0111] (4)、设计强化学习电力系统调度员决策模型π，根据当前电力计划、各参与电力系统单元运行状态、电网频率状况、电压状况、检修情况、事故异常事件及事故拉闸序位表的数据，确定下一步执行调度操作；

[0112] (5)、根据电力系统调度员调度操作，基于历史数据实际执行效果，结合在电力系统模拟仿真环境，设定电力系统模拟仿真环境的奖励函数；

[0113] (6)、在电力系统云数据中心申请资源，采用A3C算法训练强化学习电力系统调度员决策模型π，设定worker线程数量、全局共享迭代次数、全局最大迭代次数、状态特征维度及操作指令集的全局参数；

[0114] (7)、初始化强化学习电力系统调度员决策模型π，设定全局模型公共神经网络，设置电力系统虚拟仿真环境初始化状态s0；其中，全局模型公共神经网络包括Actor网络和Critic网络；

[0115] (8)、利用A3C算法，每个worker线程采用Actor网络和Critic网络结构(与全局模型公共神经网络一样的网络结构)，独立与电力系统虚拟仿真环境进行交互，执行调度操作获得反馈，并更新本地Actor网络和Critic网络梯度；

[0116] (9)、将更新后的结果汇集到全局模型公共神经网络，更新全局模型公共神经网络的模型参数；

[0117] (10)、循环执行步骤(8)至步骤(9)，直至强化学习电力系统调度员决策模型π收敛，得到最优的强化学习电力系统调度员决策模型π；

[0118] 本实施例中的强化学习电力系统调度员决策模型π的优化过程具体如下：

[0119] (一)、利用电力系统模拟仿真环境，针对实际每一位电力系统调度员的实际操作，采用强化学习方法训练其个性化强化学习电力系统调度员决策模型；

[0120] (二)、将电力系统调度员的个性化强化学习电力系统调度员决策模型作为模拟调度员，与电力系统模拟仿真环境进行持续交互，模拟电力系统运行和调度；

[0121] (三)、评价电力系统调度员个性化强化学习电力系统调度员决策模型的调度结果，并与最佳调度指令执行策略对比，发现其中的调度问题，进而改善调度策略；

[0122] (四)、根据实际排班情况，在电力系统模拟仿真环境下，模拟全部调度员的调度操作，并与最佳调度指令执行策略对比，发现异常环节，优化调度方式；

[0123] (五)、根据未来实际排班情况，在电力系统模拟仿真环境下，结合电力系统实际数据，模拟未来时刻电力系统运行和调度，提前发现问题，避免事故发生；

[0124] (六)、持续收集来自实际电力系统运行及调度的数据，用于优化强化学习电力系统调度员决策模型。

[0125] 最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

查看完整全部详细技术资料

当前第1页第1页第2页第3页

基于强化学习的电力系统仿真调度方法及系统有效专利发明

技术领域

相关背景技术

具体实施方式

[0002]近年来，强化学习技术受到了大家的广泛关注，特别是与深度学习结合，给人工智能领域带来了很大...，盲点网为您提供基于强化学习的电力系统仿真调度方法及系统专利转让信息专利转让交易数据查询就上盲点网

基于强化学习的电力系统仿真调度方法及系统有效专利 发明

技术领域

相关背景技术

具体实施方式

[0002]近年来，强化学习技术受到了大家的广泛关注，特别是与深度学习结合，给人工智能领域带来了很大...，盲点网为您提供基于强化学习的电力系统仿真调度方法及系统专利转让信息专利转让交易数据查询就上盲点网

基于强化学习的电力系统仿真调度方法及系统有效专利发明