专利 基于muzero和深度强化学习的电力调度方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210988636.6 (22)申请日 2022.08.17 (71)申请人广东电网有限责任公司地址 510000 广东省广州市越秀区东风东路757号 (72)发明人赵敏彤　郇嘉嘉　黄欣　何春庚　蓝晓东　刘嘉文　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师严静 (51)Int.Cl. H02J 3/46(2006.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06Q 10/06(2012.01) G06Q 50/06(2012.01) (54)发明名称基于muzero和深度强化学习的电力调度方法、装置及存储介质 (57)摘要本发明公开了一种基于muzero和深度强化学习的电力调度方法、装置及存储介质。该方法通过从电力系统获取实时电力数据，将所述实时电力数据输入至所述基于muzero的深度强化学习模型，输出各分布式电力资源的功率，以及所述电力系统与上级电网的联络功率；所述基于 muzero的深度强化学习模型根据电力系统环境模型训练得到，所述电力系统环境模型用于向所述基于muzero的深度强化学习模型反馈决策奖励；根据所述各分布式电力资源的功率对所述电力系统的各分布式电力资源进行调度，并使所述电力系统达到所述联络功率的要求。本发明技术方案提高了电力系统对分布式电力资源的调度效率，减少了电力资源的浪费。权利要求书2页说明书9页附图3页 CN 115360768 A 2022.11.18 CN 115360768 A 1.一种基于muzero和深度强化学习的电力调度方法，其特征在于，包括以下步骤：从电力系统获取实时电力数据，将所述实时电力数据输入至所述基于muzero的深度强化学习模型，输出各分布式电力资源的功率，以及所述电力系统与上级电网的联络功率；所述基于muzero的深度强化学习模型根据电力系统环境模型训练得到，所述电力系统环境模型用于向所述基于muzero的深度强化学习模型反馈决策奖励；根据所述各分布式电力资源的功率对所述电力系统的各分布式电力资源进行调度，并使所述电力系统达到所述联络功率的要求。 2.根据权利要求1所述的基于muzero和深度强化学习的电力调度方法，其特征在于，建立所述电力系统环境模型具体为：根据电力系统的全时段运行成本、上级电网联络效益和碳排放成本得到所述电力系统环境模型的目标函数，并使所述电力系统环境模型满足电力系统安全运行的约束条件。 3.根据权利要求2所述的基于muzero和深度强化学习的电力调度方法，其特征在于，根据以下步骤对所述基于muzero的深度强化学习模型进行训练：将所述电力系统的历史电力数据输入至所述基于muzero的深度强化学习模型，所述基于muzero的深度强化学习模型决策出各分布式电力资源的功率，以及所述电力系统与上级电网的联络功率；所述电力系统环境模型根据决策出各分布式电力资源的功率，以及所述电力系统与上级电网的联络功率，计算所述电力系统的目标成本并将所述目标成本作为决策奖励反馈至所述基于muzero的深度强化学习模型；所述基于muzero的深度强化学习模型根据所述目标成本对决策动作进行评判，并根据所述目标成本调整下一次的决策动作直至所述基于muzero的深度强化学习模型收敛。 4.根据权利要求3所述的基于muzero和深度强化学习的电力调度方法，其特征在于，所述满足电力系统安全运行的约束条件，具体为：满足电力系统的潮流方程约束、功率平衡约束、电压安全稳定约束和储能运行安全约束。 5.根据权利要求4所述的基于muzero和深度强化学习的电力调度方法，其特征在于，输出各分布式电力资源的功率，具体包括：风电输出功率、光伏输出功率、传统机组输出功率、储能输入功率和储能输出功率。 6.根据权利要求5所述的基于muzero和深度强化学习的电力调度方法，其特征在于，根据第一神经网络、第二神经网络和第三神经网络构建所述基于muzero的深度强化学习模型；所述第一神经网络为表征网络，用于对输入所述深度强化学习模型的电力系统的电力数据进行编码；所述第二神经网络为动态网络，用于根据当前时刻的电力系统状态决策出第一动作，并根据所述第一动作获得下一个时刻的电力系统状态和获得采取所述第一动作后的即时奖励；所述第三神经网络为预测网络，用于根据当前时刻的当前状态生成控制策略和价值。 7.根据权利要求6所述的基于muzero和深度强化学习的电力调度方法，其特征在于，所述电力系统环境模型的目标函数具体为：权　利　要　求　书 1/2 页 2 CN 115360768 A 2式中， Fsystem,tk表示在tk时刻所述电力系统的运行成本， Ftrans,tk表示在tk时刻所述电力系统与上级电网的联络效益， Fcarbon,tk表示在tk时刻所述电力系统的碳排放成本， T表示调度时段。 8.根据权利要求1至7任一项所述的基于muzero和深度强化学习的电力调度方法，其特征在于，所述电力数据包括电负荷功率特性、风电出力上限、光伏出力上限、传统机组出力、储能soc、分时电价和时间断面。 9.一种基于muzero和深度强化学习的电力调度装置，其特征在于，包括电力资源功率决策模块和电力资源调度模块；所述电力资源功率决策模块用于从电力系统获取实时电力数据，将所述实时电力数据输入至所述基于muzero的深度强化学习模型，输出各分布式电力资源的功率，以及所述电力系统与上级电网的联络功率；所述基于 muzero的深度强化学习模型根据电力系统环境模型训练得到，所述电力系统环境模型用于向所述基于 muzero的深度强化学习模型反馈决策奖励；所述电力资源调度模块用于根据所述各分布式电力资源的功率对所述电力系统的各分布式电力资源进行调度，并使所述电力系统达到所述联络功率的要求。 10.一种可读存储介质，其特征在于，所述可读存储介质包括存储的计算机程序，所述计算机程序执行时，控制所述可读存储介质所在的设备执行如权利要求 1至8中任意一项所述的基于muzero和深度强化学习的电力调度方法。权　利　要　求　书 2/2 页 3 CN 115360768 A 3

专利 基于muzero和深度强化学习的电力调度方法、装置及存储介质

专利基于muzero和深度强化学习的电力调度方法、装置及存储介质