(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210918026.9
(22)申请日 2022.08.01
(71)申请人 广东电网有限责任公司
地址 510000 广东省广州市越秀区东 风东
路757号
申请人 广东电网有限责任公司电力调度控
制中心
(72)发明人 李溢杰 梁文娟 张正峰 卢建刚
梁宇图 邓晓智
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 许羽冬
(51)Int.Cl.
H04L 41/142(2022.01)
H04L 45/00(2022.01)G06Q 10/04(2012.01)
G06Q 10/06(2012.01)
G06Q 50/06(2012.01)
G06Q 50/30(2012.01)
G06K 9/62(2022.01)
(54)发明名称
基于强化学习的电力通信通道 规划方法、 装
置及存储介质
(57)摘要
本发明公开了一种基于强化学习的电力通
信通道规划方法、 装置及存储介质。 该方法包括
步骤: 获取起始站点、 结束站点和通信通道 参数;
将所述起始站点、 结束站点和通信通道参数输入
至基于深度强化学习的通信通道预测模型, 输出
最优通信通道。 本发明提高了承 载稳控业务的电
力通信通道规划的效率。
权利要求书1页 说明书5页 附图1页
CN 115086187 A
2022.09.20
CN 115086187 A
1.一种基于强化学习的电力通信通道规划方法, 其特 征在于, 包括以下步骤:
获取起始 站点、 结束站点和通信通道参数;
将所述起始站点、 结束站点和通信通道参数输入至基于深度强化学习的通信通道预测
模型, 输出最优通信通道。
2.根据权利要求1所述的方法, 其特征在于, 所述通信通道参数包括最大通道数量、 端
口类型、 带宽、 网络类型、 传输段最大电路数量、 最大网元数、 最大公里长度、 路由方式、 是否
配置SNCP、 预留纤芯数和最大衰耗。
3.根据权利要求2所述的基于强化学习的电力通信通道规划方法, 其特征在于, 根据以
下模型建立所述基于深度强化学习的通信通道预测模型:
Q(s,c)= Q(s,c)+c[Re+Re ·maxc·Q(s’,c’)‑Q(s,c)]
Q表示强化学习模型, s表示当前状态, c表示所述当前状态对应的输入数据, s ’表示下
一状态,c ’表述所述下一状态对应的输入数据, Re表示奖励值。
4.根据权利要求1至3任一项所述的基于强化学习的电力通信通道规划方法, 其特征在
于, 根据以下步骤 对所述基于深度强化学习的通信通道预测模型进行训练:
步骤1: 初始化 Q值表、 学习速率、 折扣因子和探索速率;
步骤2: 从训练集中随机选择一组训练数据作为初始状态s输入至所述基于深度强化学
习的通信通道预测模型;
步骤3: 判断当前步数是否大于总步数; 若否, 则获取0 ‑1之间的随机数num; 若是, 转至
步骤7;
步骤4: 判断随机数num是否大于探索速率α; 若是, 则选取当前状态最大Q值对应的动
作; 若否, 则随机 选取一个动作;
步骤5: 执 行步骤4中选取的动作得到模型的下一个 状态s’和奖励, 并更新 Q值表;
步骤6: 将 s’设置为当前状态; 判断s ’是否为最终状态, 若是, 则进入下一步骤; 若否, 则
转至所述 步骤3;
步骤7: 更新探索速率α;
步骤8: 判断当前学习次数是否大于总学习次数; 若是, 则结束训练; 若否, 则转至步骤
2。
5.一种基于强化学习的电力通信通道规划装置, 其特征在于, 包括规划数据获取模块
和通信通道规划模块;
所述规划数据获取模块用于获取起始 站点、 结束站点和通信通道参数;
所述通信通道规划模块用于将所述起始站点、 结束站点和通信通道参数输入至基于深
度强化学习的通信通道预测模型, 输出最优通信通道。
6.根据权利要求5所述的基于强化学习的电力通信通道规划装置, 其特征在于, 所述规
划数据获取模块中的所述通信通道参数包括最大通道数量、 端口类型、 带宽、 网络类型、 传
输段最大电路数量、 最大网元数、 最大公里长度、 路由方式、 是否配置SNCP、 预留纤芯数和最
大衰耗。
7.一种可读存储介质, 其特征在于, 所述可读存储介质包括存储的计算机程序, 所述计
算机程序执行时, 控制所述可读存储介质所在的设备执行如权利要求 1至4中任意一项所述
的基于强化学习的电力通信通道规划方法。权 利 要 求 书 1/1 页
2
CN 115086187 A
2基于强化学习的电力通信通道规划方 法、 装置及存储介质
技术领域
[0001]本发明涉及电力通信通道规划技术领域, 尤其涉及一种基于强化学习的电力通信
通道规划方法、 装置及存 储介质。
背景技术
[0002]电力通信调度人员, 通过人工方式对承载稳控业务的电力通信网络路由线路进行
规划。 通过人工方式开展路由路线的规划, 一旦网络规模过大, 因为网络复杂度大, 规划所
用时间长; 另外, 路由节点超过数十个后, 人工可能无法穷举全量的路径, 无法选中最优路
径。
发明内容
[0003]本发明提供一种基于强化学习的电力通信通道规划方法、 装置及存储介质, 提高
了承载稳控业务的电力通信通道规划的效率。
[0004]本发明一实施例提供一种基于强化学习的电力通信通道规划方法, 包括以下步
骤:
[0005]获取起始 站点、 结束站点和通信通道参数;
[0006]将所述起始站点、 结束站点和通信通道参数输入至基于深度强化学习的通信通道
预测模型, 输出最优通信通道。
[0007]进一步的, 所述通信通道参数包括最大通道数量、 端口类型、 带宽、 网络类型、 传输
段最大电路数量、 最大网元数、 最大公里长度、 路由方式、 是否配置SNCP、 预留纤芯数和最大
衰耗。
[0008]进一步的, 根据以下模型建立所述基于深度强化学习的通信通道预测模型:
[0009]Q(s,c)= Q(s,c)+c[Re+Re ·maxc·Q(s’,c’)‑Q(s,c)]
[0010]Q表示强化学习模型, s表示当前状态, c表示所述当前状态对应的输入数据, s ’表
示下一状态,c ’表述所述下一状态对应的输入数据, Re表示奖励值。
[0011]进一步的, 根据以下步骤对所述基于深度强化学习的通信通道预测模型进行训
练:
[0012]步骤1: 初始化 Q值表、 学习速率、 折扣因子和探索速率;
[0013]步骤2: 从训练集中随机选择一组训练数据作为初始状态s输入至所述基于深度强
化学习的通信通道预测模型;
[0014]步骤3: 判断当前步数是否大于总步数; 若否, 则获取0 ‑1之间的随机数num; 若是,
转至步骤7;
[0015]步骤4: 判断随机数nu m是否大于探索 速率α; 若是, 则选取当前状态最大Q值对应的
动作; 若否, 则随机 选取一个动作;
[0016]步骤5: 执 行步骤4中选取的动作得到模型的下一个 状态s’和奖励, 并更新 Q值表;
[0017]步骤6: 将s ’设置为当前状态; 判断s ’是否为最终状态, 若是, 则进入下一步骤; 若说 明 书 1/5 页
3
CN 115086187 A
3
专利 基于强化学习的电力通信通道规划方法、装置及存储介质
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:40:35上传分享