(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221094879 9.1
(22)申请日 2022.08.09
(71)申请人 广东电网有限责任公司广州供电局
地址 510620 广东省广州市天河区天河南
二路2号
(72)发明人 龙云 赵宏伟 张扬 卢有飞
梁雪青 刘璐豪 陈明辉 吴任博
张少凡 邹时容 蔡燕春 刘璇
张冠宇
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 郑秋松
(51)Int.Cl.
G06Q 50/06(2012.01)
G06N 3/08(2006.01)G06N 3/04(2006.01)
G06K 9/62(2022.01)
(54)发明名称
深度强化学习与PI控制结合的负荷频率控
制方法
(57)摘要
本发明公开了一种深度强化学习与PI控制
结合的负荷频率控制方法, 包括以下步骤: S1、 构
建深度强化学习控制器, 包 括Actor网络、 Critic
网络、 Actor目标网络和Critic目标网络; S2、 将
频率信息通过信号处理器处理为状态信号并分
别输入Actor网络和Actor目标网络; S3、 Actor网
络根据策略选取一个动作, 输入电力系统和
Critic网络, 计算奖励信息并分别输入Actor网
络和Actor 目标网络; S4、 更新状态价值, 计算动
作价值, 计算Crtic网络的误差, 计算Crtic网络
的梯度, 计算A ctor网络的梯度; S5、 比较Actor网
络和Actor目标网络 的参数、 以及Critic网络和
Critic目标网络的参数是否相同, 判断是否继续
训练; S6、 将PI控制器和深度强化学习控制器接
入电力系统, 将频率变化量与设定值相比较, 选
取控制器对发电机调速 器进行控制。
权利要求书2页 说明书7页 附图1页
CN 115471358 A
2022.12.13
CN 115471358 A
1.一种深度强化学习与PI控制结合的负荷频率控制方法, 其特 征在于, 包括以下步骤:
S1、 构建深度强化学习控制 器, 包括Actor网络、 Critic网络、 Actor目标网络和Critic
目标网络, 初始化Actor 网络和Critic网络的参数, 将Actor 网络和Critic网络的参数分别
赋予Actor目标网络和Critic目标网络;
S2、 电力系统将频率信息通过信号处理器处理为频率变化量、 频率变化率、 频率变化总
量, 将频率变化量、 频率变化率、 频率变化总 量作为当前状态的状态信号分别输入Actor网
络和Actor目标网络;
S3、 Actor网络根据策略选取一个动作, 将该动作作为深度强化学习控制器的动作信
号, 分别输入电力系统和Cr itic网络, 电力系统进入 更新状态, 根据状态信号计算当前状态
的奖励信息, 并分别输入Actor网络和Actor目标网络;
S4、 通过Critic 网络更新当前状态的状态价值, 并计算当前状态该动作的动作 价值, 计
算Actor网络的梯度并更新Actor 网络的参数, 计算Crtic网络的误差, 计算Crtic网络的梯
度并更新Cr tic网络的参数;
S5、 分别比较Actor网络和Actor目标网络的参数、 以及Critic网络和Critic目标网络
的参数是否相同, 如果参数相同, 则停止训练, 如果参数不同, 则继续通过频率信息对深度
强化学习控制器进行训练;
S6、 将PI控制器和训练完成后的深度强化学习控制器一同接入电力系 统, 将电力系统
的频率变化量与设置的切换频率常数相比较, 根据两者的比较结果选取控制器, 对电力系
统的发电机调速器进行控制。
2.根据权利要求1的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, 奖
励信息的计算方法为:
其中, rt为当前状态的奖励, rt‑1为上一个状态的奖励, Δf为系统的频率变化量,
为
系统的频率变 化率, k1为体现对频率变 化量重视 程度的常数, k2为对频率变 化率重视 程度的
常数。
3.根据权利要求2的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, 当
前状态的状态价 值的更新方法为:
V(st)=V(st)+α [rt+1+γV(st+1)‑V(st)]
其中, V(st)为当前状态的状态价值, rt+1为下一个状态的奖励, γ为折扣率, V(st+1)为下
一个状态的状态价 值, α 为学习率。
4.根据权利要求3的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, 动
作价值的计算方法为:
Q(s,a)=r+γV(st+1)
其中, Q(s,a)为s状态下动作a的动作价 值, r为执 行当前动作a得到的奖励。
5.根据权利要求4的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于,
Actor网络的梯度的计算方法为:权 利 要 求 书 1/2 页
2
CN 115471358 A
2其中,
为Actor网络的梯度, N为随机选取用于计算的相邻的状态数,
为对Actor
网络求关于动作a的梯度, Q(s,a∣Q)为根据Crtic网络的参数Q计算出的s状态下动作a的动
作价值, si为第i个状态, a为根据策略μ选择的动 作,
为对策略μ求关于θ 的梯度, μ(s∣μ)为
选择动作的策略。
6.根据权利要求4的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于,
Crtic网络的误差的计算方法为:
TD‑error=r+γV'(st+1)‑V(st)
其中, TD‑error为Crtic网络的误差, V'(st+1)为Crtic目标网络计算的下一个状态的状
态价值, r为执 行当前动作a得到的奖励。
7.根据权利要求6的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于,
Crtic网络的梯度计算方法为:
其中,
为Crtic网络的梯度, N为随机选取用于计算的相邻的状态数,
为对
Critic网络的参数Q求关于θ 的梯度, Q(s,a∣Q)为根据Crtic网络的参数Q计算出的s状态下
动作a的动作价值, s为状态, si为第i个状态, μ为选择动作的策略, a为根据策略μ选择的动
作。
8.根据权利要求1的深度强化学习与PI控制结合的负荷频率控制方法, 其特征在于, 将
电力系统的频率变化量与设置的切换频率常数相比较, 根据两者的比较结果选取控制 器,
具体为:
若电力系统 的频率变化量大于或等于设置的切换频率常数, 则使用深度强化学习控制
器;
若电力系统的频率变化 量小于设置的切换 频率常数, 则使用PI控制器。权 利 要 求 书 2/2 页
3
CN 115471358 A
3
专利 深度强化学习与PI控制结合的负荷频率控制方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:41:42上传分享