(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210988636.6
(22)申请日 2022.08.17
(71)申请人 广东电网有限责任公司
地址 510000 广东省广州市越秀区东 风东
路757号
(72)发明人 赵敏彤 郇嘉嘉 黄欣 何春庚
蓝晓东 刘嘉文
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 严静
(51)Int.Cl.
H02J 3/46(2006.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06Q 10/06(2012.01)
G06Q 50/06(2012.01)
(54)发明名称
基于muzero和深度强化学习的电力调度方
法、 装置及存 储介质
(57)摘要
本发明公开了一种基于muzero和深度强化
学习的电力调度方法、 装置及存储介质。 该方法
通过从电力系统获取实时电力数据, 将所述实时
电力数据输入至所述基于muzero的深度强化学
习模型, 输出各分布式电力资源的功率, 以及所
述电力系统与上级电网的联络功率; 所述基于
muzero的深度强化学习模型根据电力系统环境
模型训练得到, 所述电力系统环 境模型用于向所
述基于muzero的深度强化学习模型反馈决策奖
励; 根据所述各分布式电力资源的功率对所述电
力系统的各分布式电力资源进行调度, 并使所述
电力系统达到所述联络功率的要求。 本发明技术
方案提高了电力系统对分布式电力资源的调度
效率, 减少了电力资源的浪费。
权利要求书2页 说明书9页 附图3页
CN 115360768 A
2022.11.18
CN 115360768 A
1.一种基于muzero和深度强化学习的电力调度方法, 其特 征在于, 包括以下步骤:
从电力系统获取实时电力数据, 将所述实时电力数据输入至所述基于muzero的深度强
化学习模 型, 输出各分布式电力资源的功 率, 以及所述电力系统与上级电网的联络功率; 所
述基于muzero的深度强化学习模 型根据电力系统环 境模型训练得到, 所述电力系统环 境模
型用于向所述基于muzero的深度强化学习模型反馈决策 奖励;
根据所述各分布式电力资源的功率对所述电力系统 的各分布式电力资源进行调度, 并
使所述电力系统达 到所述联络功率的要求。
2.根据权利 要求1所述的基于muzero和 深度强化学习的电力调度 方法, 其特征在于, 建
立所述电力系统环境模型具体为: 根据电力系统的全时段运行成本、 上级电网联络效益和
碳排放成本得到所述电力系统环境模型的目标函数, 并使 所述电力系统环境模型满足电力
系统安全运行的约束条件。
3.根据权利 要求2所述的基于muzero和 深度强化学习的电力调度 方法, 其特征在于, 根
据以下步骤 对所述基于muzero的深度强化学习模型进行训练:
将所述电力系统的历史电力数据输入至所述基于muzero的深度强化学习模型, 所述基
于muzero的深度强化学习模 型决策出各分布式电力资源的功 率, 以及所述电力系统与上级
电网的联络功率;
所述电力系统环境模型根据决策出各分布式电力资源的功率, 以及所述电力系统与 上
级电网的联络功 率, 计算所述电力系统的目标成本并将所述目标成本作为决策奖励反馈至
所述基于muzero的深度强化学习模型;
所述基于muzero的深度强化学习模型根据所述目标成本对决策动作进行评判, 并根据
所述目标成本调整下一次的决策动作直至所述基于muzero的深度强化学习模型收敛。
4.根据权利 要求3所述的基于muzero和 深度强化学习的电力调度 方法, 其特征在于, 所
述满足电力系统安全运行的约束 条件, 具体为: 满足电力系统的潮流方程约束、 功 率平衡约
束、 电压安全稳定约束和储能运行安全约束。
5.根据权利 要求4所述的基于muzero和 深度强化学习的电力调度 方法, 其特征在于, 输
出各分布式电力资源的功 率, 具体包括: 风电输出功 率、 光伏输出功 率、 传统机组输出功 率、
储能输入功率和储能输出功率。
6.根据权利 要求5所述的基于muzero和 深度强化学习的电力调度 方法, 其特征在于, 根
据第一神经网络、 第二神经网络和第三神经网络构建所述基于muzero的深度强化学习模
型;
所述第一神经网络为表征网络, 用于对输入所述深度强化学习 模型的电力系统 的电力
数据进行编码;
所述第二神经网络为动态网络, 用于根据当前时刻的 电力系统状态决策出第一动作,
并根据所述第一动作获得下一个时刻的电力系统状态和获得采取所述第一动作后的即时
奖励;
所述第三神经网络为预测网络, 用于根据当前时刻的当前状态生成控制策略和价 值。
7.根据权利 要求6所述的基于muzero和 深度强化学习的电力调度 方法, 其特征在于, 所
述电力系统环境模型的目标函数 具体为:权 利 要 求 书 1/2 页
2
CN 115360768 A
2式中, Fsystem,tk表示在tk时刻所述电力系统的运行 成本, Ftrans,tk表示在tk时刻所述电力
系统与上级电网的联络效益, Fcarbon,tk表示在tk时刻所述电力系统的碳排放成本, T表示调
度时段。
8.根据权利 要求1至7任一项所述的基于muzero和 深度强化学习的电力调度方法, 其特
征在于, 所述电力数据包括电负荷功 率特性、 风电出力上限、 光伏出力上限、 传统机组出力、
储能soc、 分时电价和时间断面。
9.一种基于muzero和深度强化学习的电力调度装置, 其特征在于, 包括电力资源功率
决策模块和电力资源调度模块;
所述电力资源功率决策模块用于从电力系统获取实时电力数据, 将所述实时电力数据
输入至所述基于muzero的深度强化学习模型, 输出各分布式电力资源的功率, 以及所述电
力系统与上级电网的联络功 率; 所述基于 muzero的深度强化学习模型根据电力系统环 境模
型训练得到, 所述电力系统环境模 型用于向所述基于 muzero的深度强化学习模型反馈决策
奖励;
所述电力资源调度模块用于根据所述各分布式电力资源的功率对所述电力系统的各
分布式电力资源进行调度, 并使所述电力系统达 到所述联络功率的要求。
10.一种可读存储介质, 其特征在于, 所述可读存储介质包括存储的计算机程序, 所述
计算机程序执行时, 控制所述可读存储介质所在的设备执行如权利要求 1至8中任意一项 所
述的基于muzero和深度强化学习的电力调度方法。权 利 要 求 书 2/2 页
3
CN 115360768 A
3
专利 基于muzero和深度强化学习的电力调度方法、装置及存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:40:03上传分享