技术领域
[0001] 本发明涉及电力市场的零售套餐电价决策技术领域,具体涉及一种零售套餐电价决策模型的训练方法、应用方法及装置。
相关背景技术
[0002] 在电力零售市场中,构建合理的零售套餐定价机制,能够保证电力零售市场的公平、公正和有序运行。现有的零售套餐定价机制为固定零售套餐定价机制,该零售套餐定价机制往往仅考虑售电主体的利益,以最大化售电主体利润为目标制定零售套餐,且部署的定价策略是由抽象模型预先确定的。
[0003] 然而,仅考虑售电主体的利益,而忽略零售用户用电效用和满意度,使得零售套餐价格信号难以激励用户用电行为的调整,造成可调性调节资源浪费、用户用电成本过高等问题;以及,由于批发侧电价在市场不同阶段呈现出多变、复杂的趋势,且批发电价与零售电价之间的动态关联性呈现出高度的非线性和不确定性特征,这使得传统的线性或确定性建模方法难以全面捕捉两者之间的复杂相互作用,且无法充分反映市场的实际动态,从而采用固定零售套餐定价机制的方案,该方案存在零售电价决策灵活性较低的问题;以及,现有的零售套餐定价机制多针对不同种类零售用户的用电情况和需求来定制不同零售套餐价格,在多类零售用户共存的情况下,现有方案难以实现多方利益的最大化。
[0004] 基于此,如何兼顾售电主体利益和零售用户用电效用,同时在不确定性环境下为联合零售套餐电价(即多类零售用户的零售套餐电价)的制定提供灵活的决策支持,成为了亟待解决的技术问题。
具体实施方式
[0060] 为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
[0061] 实施例
[0062] 图1是本发明实施例提供的一种零售套餐电价决策模型的训练方法的流程示意图。如图1所示,本零售套餐电价决策模型的训练方法,包括:
[0063] 步骤101:获取预设历史时间段内的零售套餐电价决策用数据;零售套餐电价决策用数据包括时间段类型划分数据、售电主体批发侧数据、零售用户自身特性数据和售电主体与各零售用户之间的签约零售套餐约定电量数据。
[0064] 具体的,时间段类型划分数据属于市场运营参数,其具体包括电力市场在预设历史时间段内的关于峰时段Tf、谷时段Tg和平时段Tp的划分情况数据。预设历史时间段的时长可以是连续几个月。
[0065] 售电主体批发侧数据具体可以包括:售电主体的中长期批发市场峰时段月度交易均价Pf、售电主体的中长期批发市场平时段月度交易均价Pp和售电主体的中长期批发市场谷时段月度交易均价Pg、售电主体在预设历史时间段内的日前市场出清电量数据集、售电主体在预设历史时间段内的日前结算价格数据集和售电主体在预设历史时间段内的实时结算价格数据集。
[0066] 零售用户自身特性数据具体可以包括:各零售用户在预设历史时间段内的刚性负荷数据集和可调负荷数据集、价格弹性参数、对电力消费的偏好水平参数、以及边际递减效用参数。
[0067] 步骤102:基于售电主体收益模型和零售用户用电效用模型,以售电主体为智能体,构建马尔可夫决策过程。
[0068] 本说明书实施例中,售电主体收益模型中考虑了售电主体的中长期市场购电成本、现货市场购电成本和零售市场售电收入。
[0069] 本说明书实施例中,售电主体收益模型的构建过程包括:
[0070] (1)建立售电主体的中长期市场购电成本模型;中长期市场购电成本模型的公式如下:
[0071]
[0072] 其中,Cz为售电主体的中长期市场购电成本;Tf、Tp和Tg分别为峰时段、平时段和谷时段;Pf、Pp和Pg分别为售电主体的中长期批发市场峰时段、平时段和谷时段月度交易均价;I为售电主体签约零售用户集合;qi,t为第i个零售用户在第t个预设单位时间段内的零售套餐约定电量。
[0073] (2)建立售电主体的现货市场购电成本模型;现货市场购电成本模型的公式如下:
[0074]
[0075] 其中,Cx为售电主体的现货市场购电成本;T为一日内所包括的预设单位时间段的个数,预设单位时间段的时长为1小时时,T的取值为24; 为售电主体在第t个预设单位时间段内的日前市场出清电量;Pr,t为售电主体在第t个预设单位时间段内的日前结算价格; 为第i个零售用户在第t个预设单位时间段内的最优用电量;Ps,t为售电主体在第t个预设单位时间段内的实时结算价格。
[0076] 本说明书实施例中,现货市场购电成本模型的建立过程包括:
[0077] (2.1)根据售电主体日前市场出清电量与零售合同电量之间的偏差电量、售电主体日前市场结算电价,建立售电主体日前市场购电成本模型,售电主体日前市场购电成本模型Cr的公式如下:
[0078]
[0079] (2.2)根据零售用户实际用电量与售电主体日前市场出清电量之间的偏差电量、售电主体实时市场结算电价,建立售电主体实时市场购电成本模型,售电主体实时市场购电成本Cs的模型公式为:
[0080]
[0081] (2.2)令公式(3)和(4)相加,得到现货市场购电成本模型:
[0082]
[0083] (3)建立售电主体的零售市场售电收入模型;零售市场售电收入模型的公式如下:
[0084]
[0085] 其中,Rsale为售电主体的零售市场售电收入;pi,t为决策出的第i个零售用户在第t个预设单位时间段内的电力零售套餐价格。
[0086] (4)采用如下公式,构建售电主体收益模型Ctotal:
[0087]
[0088] 本发明实施例中,零售用户用电效用模型中考虑了零售套餐电价和零售用户的自身特性。
[0089] 本发明实施例中,零售用户用电效用模型的构建过程包括:
[0090] (1)建立零售用户的最优用电行为模型;最优用电行为模型的公式如下:
[0091]
[0092] 其中, 为零售用户在当前零售套餐电价下的最优用电量; 为第i个零售用户在第t个预设单位时间段内的刚性负荷; 为第i个零售用户在第t个预设单位时间段内的可调负荷;αi为第i个零售用户的价格弹性参数;βi为第i个零售用户对电力消费的偏好水平参数。
[0093] (2)基于最优用电行为模型,建立零售用户用电效用模型,零售用户用电效用模型的公式如下:
[0094]
[0095] 其中,Ui,t为第i个零售用户在第t个预设单位时间段内的用电效用;ωi为不变电力给第i个零售用户带来的边际递减效用参数。
[0096] 基于此,由于本发明考虑了边际效用递减的经济规律,使得建立的零售用户用电效用模型能够用于评估决策方法所生成零售套餐电价、用户用电行为调整后零售用户的用电满意度和对价格变化的灵敏度。
[0097] 本发明实施例中,基于售电主体收益模型和零售用户用电效用模型,以售电主体为智能体,构建马尔可夫决策过程,具体可以包括:
[0098] (1)考虑售电主体在批发侧的结算价格和出清电量、零售用户自身特性以及零售套餐约定电量对零售电价的制定有影响且可观察,设计智能体的状态空间S为:
[0099] S={st|t=1,2,...,T}......(9)
[0100]
[0101] 其中,T*用于标识当前时间段的时间段类型,时间段类型包括峰时段、平时段和谷时段。
[0102] (2)将售电主体与每个零售用户在不同时刻的零售套餐电价制定设计为智能体的动作,设计智能体的动作空间A为:
[0103] A={at|t=1,2,...,T}......(10)
[0104] at={pi∈I,t}
[0105] (3)综合考虑售电主体利益和用户效用,基于前述建立的售电主体收益模型和零售用户用电效用模型,设计智能体的奖励函数r为:
[0106]
[0107]
[0108] 其中,η为用电效用值的比例放大系数。
[0109] 步骤103:基于零售套餐电价决策用数据,使用近端策略优化(Proximal Policy Optimization,PPO)算法,对马尔可夫决策过程进行训练,得到零售套餐电价决策模型。
[0110] 具体的,步骤103:基于零售套餐电价决策用数据,使用近端策略优化算法,对马尔可夫决策过程进行训练,得到零售套餐电价决策模型,具体可以包括:
[0111] (3.1)将步骤101中获取的预设历史时间段内的零售套餐电价决策用数据,输入到PPO算法中,并生成PPO算法迭代更新所需数据,具体包括如下步骤:
[0112] (3.1.1)从预设历史时间段内的零售套餐电价决策用数据中随机选取一日数据{st|t=1,2,...,T},将t=1时的st作为初始状态输入。
[0113] (3.1.2)将st作为PPO算法actor网络的输入,actor网络感知状态输入数据输出动作at。
[0114] (3.1.3)基于生成的动作值at和前述建立的零售用户的最优用电行为模型,计算各零售用户的最优用电量
[0115] (3.1.4)使用上述公式(11)计算此步的奖励值rt。
[0116] (3.1.5)将当前得到的{st,at,rt,st+1}储存到记忆池D中作为算法进行迭代训练所需经验。
[0117] (3.1.6)执行t=t+1,重复步骤(3.1.2)至步骤(3.1.5),直至t=25为止。
[0118] (3.2)根据步骤(3.1)所生成的数据,对PPO算法进行迭代训练,包括如下步骤:
[0119] (3.2.1)从经验池D中采样出一批经验B,计算critic网络的损失函数L(φ),计算公式为:
[0120]
[0121] 其中,γ为奖励折扣因子;Vθ(st)为状态st下的价值估计;N为所取经验的轨迹条数。
[0122] (3.2.2)基于前述步骤(3.2.1)计算的损失函数值进行反向传播,对critic网络参数φ进行梯度下降更新,实现critic网络的更新迭代,更新公式为:
[0123]
[0124] 其中,α为学习率。
[0125] (3.2.3)计算PPO算法的优势函数Aπ(st,at),计算公式为:
[0126]
[0127] (3.2.4)计算actor网络的损失函数 计算公式为:
[0128]
[0129] 其中,πθ(at|st)为基于状态st生成动作at的概率;ε为超参数。
[0130] (3.2.5)基于步骤(3.2.4)计算的损失函数值,对actor网络参数θ进行梯度上升更新,实现actor网络的更新迭代,更新公式为:
[0131]
[0132] (3.3)重复执行步骤(3.1)和步骤(3.2),对PPO算法进行重复迭代训练,直至奖励值收敛,进而得到零售套餐电价决策模型。
[0133] 本发明采用以上技术方案,由于基于售电主体收益模型和零售用户用电效用模型,构建马尔可夫决策过程,使得本发明能够兼顾售电主体利益和零售用户用电效用,以及,由于以售电主体为智能体,构建马尔可夫决策过程,基于零售套餐电价决策用数据,使用近端策略优化算法,对马尔可夫决策过程进行训练,得到零售套餐电价决策模型,使得本零售套餐电价决策模型能够在不确定性环境下为联合零售套餐电价的制定提供灵活的决策支持。
[0134] 基于一个总的发明构思,本发明还提供了一种零售套餐电价决策方法。图2是本发明实施例提供的一种零售套餐电价决策方法的流程示意图。如图2所示,本零售套餐电价决策方法,包括:
[0135] 步骤201:获取待决策日内的零售套餐电价决策用数据。
[0136] 步骤202:基于零售套餐电价决策用数据,使用预设的零售套餐电价决策模型,生成待决策日的各个预设单位时间段内的零售用户零售套餐电价数据;零售用户零售套餐电价数据包括售电主体的每个零售用户分别在当前预设单位时间段内所对应的电力零售套餐价格;零售套餐电价决策模型采用前述实施例所述的零售套餐电价决策模型的训练方法训练得到。
[0137] 基于一个总的发明构思,本发明还提供了一种零售套餐电价决策模型的训练装置。图3是本发明实施例提供的一种零售套餐电价决策模型的训练装置的结构示意图。如图3所示,本零售套餐电价决策模型的训练装置,包括:
[0138] 训练数据获取模块31,用于获取预设历史时间段内的零售套餐电价决策用数据;零售套餐电价决策用数据包括时间段类型划分数据、售电主体批发侧数据、零售用户自身特性数据和售电主体与各零售用户之间的签约零售套餐约定电量数据。
[0139] 构建模块32,用于基于售电主体收益模型和零售用户用电效用模型,以售电主体为智能体,构建马尔可夫决策过程。
[0140] 训练模块33,用于基于零售套餐电价决策用数据,使用近端策略优化算法,对马尔可夫决策过程进行训练,得到零售套餐电价决策模型。
[0141] 可选的,所述售电主体收益模型中考虑了所述售电主体的中长期市场购电成本、现货市场购电成本和零售市场售电收入。
[0142] 可选的,本发明的零售套餐电价决策模型的训练装置,还可以包括售电主体收益模型构建模块,用于:
[0143] (1)建立所述售电主体的中长期市场购电成本模型;所述中长期市场购电成本模型的公式如下:
[0144]
[0145] 其中,Cz为所述售电主体的中长期市场购电成本;Tf、Tp和Tg分别为峰时段、平时段和谷时段;Pf、Pp和Pg分别为所述售电主体的中长期批发市场峰时段、平时段和谷时段月度交易均价;I为所述售电主体签约零售用户集合;qi,t为第i个零售用户在第t个预设单位时间段内的零售套餐约定电量。
[0146] (2)建立所述售电主体的现货市场购电成本模型;所述现货市场购电成本模型的公式如下:
[0147]
[0148] 其中,Cx为所述售电主体的现货市场购电成本;T为一日内所包括的预设单位时间段的个数; 为所述售电主体在第t个预设单位时间段内的日前市场出清电量;Pr,t为所述售电主体在第t个预设单位时间段内的日前结算价格; 为第i个零售用户在第t个预设单位时间段内的最优用电量;Ps,t为所述售电主体在第t个预设单位时间段内的实时结算价格。
[0149] (3)建立所述售电主体的零售市场售电收入模型;所述零售市场售电收入模型的公式如下:
[0150]
[0151] 其中,Rsale为所述售电主体的零售市场售电收入;pi,t为决策出的第i个零售用户在第t个预设单位时间段内的电力零售套餐价格。
[0152] (4)采用如下公式,构建售电主体收益模型Ctotal:
[0153] Ctotal=Rsale‑Cz‑Cx。
[0154] 可选的,所述零售用户用电效用模型中考虑了零售套餐电价和所述零售用户的自身特性。
[0155] 可选的,本发明的零售套餐电价决策模型的训练装置,还可以包括零售用户用电效用模型构建模块,用于:
[0156] (1)建立所述零售用户的最优用电行为模型;所述最优用电行为模型的公式如下:
[0157]
[0158] 其中, 为所述零售用户在当前零售套餐电价下的最优用电量; 为第i个零售用户在第t个预设单位时间段内的刚性负荷; 为第i个零售用户在第t个预设单位时间段内的可调负荷;αi为第i个零售用户的价格弹性参数;βi为第i个零售用户对电力消费的偏好水平参数。
[0159] (2)基于所述最优用电行为模型,建立所述零售用户用电效用模型,所述零售用户用电效用模型的公式如下:
[0160]
[0161] 其中,Ui,t为第i个零售用户在第t个预设单位时间段内的用电效用;ωi为不变电力给第i个零售用户带来的边际递减效用参数。
[0162] 可选的,构建模块32,具体可以用于:
[0163] (1)设计所述智能体的状态空间S为:
[0164] S={st|t=1,2,...,T}
[0165]
[0166] 其中,T*用于标识当前时间段的时间段类型,所述时间段类型包括峰时段、平时段和谷时段。
[0167] (2)设计所述智能体的动作空间A为:
[0168] A={at|t=1,2,...,T}
[0169] at={pi∈I,t}
[0170] (3)设计所述智能体的奖励函数r为:
[0171]
[0172] 其中,η为用电效用值的比例放大系数。
[0173] 基于一个总的发明构思,本发明还提供了一种零售套餐电价决策装置。图4是本发明实施例提供的一种零售套餐电价决策装置的结构示意图。如图4所示,本零售套餐电价决策装置,包括:
[0174] 决策数据获取模块41,用于获取待决策日内的零售套餐电价决策用数据;
[0175] 决策模块42,用于基于零售套餐电价决策用数据,使用预设的零售套餐电价决策模型,生成待决策日的各个预设单位时间段内的零售用户零售套餐电价数据;零售用户零售套餐电价数据包括售电主体的每个零售用户分别在当前预设单位时间段内所对应的电力零售套餐价格;零售套餐电价决策模型采用本发明前述实施例所述的零售套餐电价决策模型的训练方法训练得到。
[0176] 可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
[0177] 需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
[0178] 流程示意图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0179] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
[0180] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0181] 此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0182] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0183] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0184] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。