说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221094879 9.1 (22)申请日 2022.08.09 (71)申请人 广东电网有限责任公司广州供电局 地址 510620 广东省广州市天河区天河南 二路2号 (72)发明人 龙云 赵宏伟 张扬 卢有飞  梁雪青 刘璐豪 陈明辉 吴任博  张少凡 邹时容 蔡燕春 刘璇  张冠宇  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 郑秋松 (51)Int.Cl. G06Q 50/06(2012.01) G06N 3/08(2006.01)G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称 深度强化学习与PI控制结合的负荷频率控 制方法 (57)摘要 本发明公开了一种深度强化学习与PI控制 结合的负荷频率控制方法, 包括以下步骤: S1、 构 建深度强化学习控制器, 包 括Actor网络、 Critic 网络、 Actor目标网络和Critic目标网络; S2、 将 频率信息通过信号处理器处理为状态信号并分 别输入Actor网络和Actor目标网络; S3、 Actor网 络根据策略选取一个动作, 输入电力系统和 Critic网络, 计算奖励信息并分别输入Actor网 络和Actor 目标网络; S4、 更新状态价值, 计算动 作价值, 计算Crtic网络的误差, 计算Crtic网络 的梯度, 计算A ctor网络的梯度; S5、 比较Actor网 络和Actor目标网络 的参数、 以及Critic网络和 Critic目标网络的参数是否相同, 判断是否继续 训练; S6、 将PI控制器和深度强化学习控制器接 入电力系统, 将频率变化量与设定值相比较, 选 取控制器对发电机调速 器进行控制。 权利要求书2页 说明书7页 附图1页 CN 115471358 A 2022.12.13 CN 115471358 A 1.一种深度强化学习与PI控制结合的负荷频率控制方法, 其特 征在于, 包括以下步骤: S1、 构建深度强化学习控制 器, 包括Actor网络、 Critic网络、 Actor目标网络和Critic 目标网络, 初始化Actor 网络和Critic网络的参数, 将Actor 网络和Critic网络的参数分别 赋予Actor目标网络和Critic目标网络; S2、 电力系统将频率信息通过信号处理器处理为频率变化量、 频率变化率、 频率变化总 量, 将频率变化量、 频率变化率、 频率变化总 量作为当前状态的状态信号分别输入Actor网 络和Actor目标网络; S3、 Actor网络根据策略选取一个动作, 将该动作作为深度强化学习控制器的动作信 号, 分别输入电力系统和Cr itic网络, 电力系统进入 更新状态, 根据状态信号计算当前状态 的奖励信息, 并分别输入Actor网络和Actor目标网络; S4、 通过Critic 网络更新当前状态的状态价值, 并计算当前状态该动作的动作 价值, 计 算Actor网络的梯度并更新Actor 网络的参数, 计算Crtic网络的误差, 计算Crtic网络的梯 度并更新Cr tic网络的参数; S5、 分别比较Actor网络和Actor目标网络的参数、 以及Critic网络和Critic目标网络 的参数是否相同, 如果参数相同, 则停止训练, 如果参数不同, 则继续通过频率信息对深度 强化学习控制器进行训练; S6、 将PI控制器和训练完成后的深度强化学习控制器一同接入电力系 统, 将电力系统 的频率变化量与设置的切换频率常数相比较, 根据两者的比较结果选取控制器, 对电力系 统的发电机调速器进行控制。 2.根据权利要求1的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, 奖 励信息的计算方法为: 其中, rt为当前状态的奖励, rt‑1为上一个状态的奖励, Δf为系统的频率变化量, 为 系统的频率变 化率, k1为体现对频率变 化量重视 程度的常数, k2为对频率变 化率重视 程度的 常数。 3.根据权利要求2的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, 当 前状态的状态价 值的更新方法为: V(st)=V(st)+α [rt+1+γV(st+1)‑V(st)] 其中, V(st)为当前状态的状态价值, rt+1为下一个状态的奖励, γ为折扣率, V(st+1)为下 一个状态的状态价 值, α 为学习率。 4.根据权利要求3的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, 动 作价值的计算方法为: Q(s,a)=r+γV(st+1) 其中, Q(s,a)为s状态下动作a的动作价 值, r为执 行当前动作a得到的奖励。 5.根据权利要求4的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, Actor网络的梯度的计算方法为:权 利 要 求 书 1/2 页 2 CN 115471358 A 2其中, 为Actor网络的梯度, N为随机选取用于计算的相邻的状态数, 为对Actor 网络求关于动作a的梯度, Q(s,a∣Q)为根据Crtic网络的参数Q计算出的s状态下动作a的动 作价值, si为第i个状态, a为根据策略μ选择的动 作, 为对策略μ求关于θ 的梯度, μ(s∣μ)为 选择动作的策略。 6.根据权利要求4的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, Crtic网络的误差的计算方法为: TD‑error=r+γV'(st+1)‑V(st) 其中, TD‑error为Crtic网络的误差, V'(st+1)为Crtic目标网络计算的下一个状态的状 态价值, r为执 行当前动作a得到的奖励。 7.根据权利要求6的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, Crtic网络的梯度计算方法为: 其中, 为Crtic网络的梯度, N为随机选取用于计算的相邻的状态数, 为对 Critic网络的参数Q求关于θ 的梯度, Q(s,a∣Q)为根据Crtic网络的参数Q计算出的s状态下 动作a的动作价值, s为状态, si为第i个状态, μ为选择动作的策略, a为根据策略μ选择的动 作。 8.根据权利要求1的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, 将 电力系统的频率变化量与设置的切换频率常数相比较, 根据两者的比较结果选取控制 器, 具体为: 若电力系统 的频率变化量大于或等于设置的切换频率常数, 则使用深度强化学习控制 器; 若电力系统的频率变化 量小于设置的切换 频率常数, 则使用PI控制器。权 利 要 求 书 2/2 页 3 CN 115471358 A 3

.PDF文档 专利 深度强化学习与PI控制结合的负荷频率控制方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 深度强化学习与PI控制结合的负荷频率控制方法 第 1 页 专利 深度强化学习与PI控制结合的负荷频率控制方法 第 2 页 专利 深度强化学习与PI控制结合的负荷频率控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:41:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。