说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210918026.9 (22)申请日 2022.08.01 (71)申请人 广东电网有限责任公司 地址 510000 广东省广州市越秀区东 风东 路757号 申请人 广东电网有限责任公司电力调度控 制中心 (72)发明人 李溢杰 梁文娟 张正峰 卢建刚  梁宇图 邓晓智  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 许羽冬 (51)Int.Cl. H04L 41/142(2022.01) H04L 45/00(2022.01)G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 50/06(2012.01) G06Q 50/30(2012.01) G06K 9/62(2022.01) (54)发明名称 基于强化学习的电力通信通道 规划方法、 装 置及存储介质 (57)摘要 本发明公开了一种基于强化学习的电力通 信通道规划方法、 装置及存储介质。 该方法包括 步骤: 获取起始站点、 结束站点和通信通道 参数; 将所述起始站点、 结束站点和通信通道参数输入 至基于深度强化学习的通信通道预测模型, 输出 最优通信通道。 本发明提高了承 载稳控业务的电 力通信通道规划的效率。 权利要求书1页 说明书5页 附图1页 CN 115086187 A 2022.09.20 CN 115086187 A 1.一种基于强化学习的电力通信通道规划方法, 其特 征在于, 包括以下步骤: 获取起始 站点、 结束站点和通信通道参数; 将所述起始站点、 结束站点和通信通道参数输入至基于深度强化学习的通信通道预测 模型, 输出最优通信通道。 2.根据权利要求1所述的方法, 其特征在于, 所述通信通道参数包括最大通道数量、 端 口类型、 带宽、 网络类型、 传输段最大电路数量、 最大网元数、 最大公里长度、 路由方式、 是否 配置SNCP、 预留纤芯数和最大衰耗。 3.根据权利要求2所述的基于强化学习的电力通信通道规划方法, 其特征在于, 根据以 下模型建立所述基于深度强化学习的通信通道预测模型: Q(s,c)= Q(s,c)+c[Re+Re ·maxc·Q(s’,c’)‑Q(s,c)] Q表示强化学习模型, s表示当前状态, c表示所述当前状态对应的输入数据, s ’表示下 一状态,c ’表述所述下一状态对应的输入数据, Re表示奖励值。 4.根据权利要求1至3任一项所述的基于强化学习的电力通信通道规划方法, 其特征在 于, 根据以下步骤 对所述基于深度强化学习的通信通道预测模型进行训练: 步骤1: 初始化 Q值表、 学习速率、 折扣因子和探索速率; 步骤2: 从训练集中随机选择一组训练数据作为初始状态s输入至所述基于深度强化学 习的通信通道预测模型; 步骤3: 判断当前步数是否大于总步数; 若否, 则获取0 ‑1之间的随机数num; 若是, 转至 步骤7; 步骤4: 判断随机数num是否大于探索速率α; 若是, 则选取当前状态最大Q值对应的动 作; 若否, 则随机 选取一个动作; 步骤5: 执 行步骤4中选取的动作得到模型的下一个 状态s’和奖励, 并更新 Q值表; 步骤6: 将 s’设置为当前状态; 判断s ’是否为最终状态, 若是, 则进入下一步骤; 若否, 则 转至所述 步骤3; 步骤7: 更新探索速率α; 步骤8: 判断当前学习次数是否大于总学习次数; 若是, 则结束训练; 若否, 则转至步骤 2。 5.一种基于强化学习的电力通信通道规划装置, 其特征在于, 包括规划数据获取模块 和通信通道规划模块; 所述规划数据获取模块用于获取起始 站点、 结束站点和通信通道参数; 所述通信通道规划模块用于将所述起始站点、 结束站点和通信通道参数输入至基于深 度强化学习的通信通道预测模型, 输出最优通信通道。 6.根据权利要求5所述的基于强化学习的电力通信通道规划装置, 其特征在于, 所述规 划数据获取模块中的所述通信通道参数包括最大通道数量、 端口类型、 带宽、 网络类型、 传 输段最大电路数量、 最大网元数、 最大公里长度、 路由方式、 是否配置SNCP、 预留纤芯数和最 大衰耗。 7.一种可读存储介质, 其特征在于, 所述可读存储介质包括存储的计算机程序, 所述计 算机程序执行时, 控制所述可读存储介质所在的设备执行如权利要求 1至4中任意一项所述 的基于强化学习的电力通信通道规划方法。权 利 要 求 书 1/1 页 2 CN 115086187 A 2基于强化学习的电力通信通道规划方 法、 装置及存储介质 技术领域 [0001]本发明涉及电力通信通道规划技术领域, 尤其涉及一种基于强化学习的电力通信 通道规划方法、 装置及存 储介质。 背景技术 [0002]电力通信调度人员, 通过人工方式对承载稳控业务的电力通信网络路由线路进行 规划。 通过人工方式开展路由路线的规划, 一旦网络规模过大, 因为网络复杂度大, 规划所 用时间长; 另外, 路由节点超过数十个后, 人工可能无法穷举全量的路径, 无法选中最优路 径。 发明内容 [0003]本发明提供一种基于强化学习的电力通信通道规划方法、 装置及存储介质, 提高 了承载稳控业务的电力通信通道规划的效率。 [0004]本发明一实施例提供一种基于强化学习的电力通信通道规划方法, 包括以下步 骤: [0005]获取起始 站点、 结束站点和通信通道参数; [0006]将所述起始站点、 结束站点和通信通道参数输入至基于深度强化学习的通信通道 预测模型, 输出最优通信通道。 [0007]进一步的, 所述通信通道参数包括最大通道数量、 端口类型、 带宽、 网络类型、 传输 段最大电路数量、 最大网元数、 最大公里长度、 路由方式、 是否配置SNCP、 预留纤芯数和最大 衰耗。 [0008]进一步的, 根据以下模型建立所述基于深度强化学习的通信通道预测模型: [0009]Q(s,c)= Q(s,c)+c[Re+Re ·maxc·Q(s’,c’)‑Q(s,c)] [0010]Q表示强化学习模型, s表示当前状态, c表示所述当前状态对应的输入数据, s ’表 示下一状态,c ’表述所述下一状态对应的输入数据, Re表示奖励值。 [0011]进一步的, 根据以下步骤对所述基于深度强化学习的通信通道预测模型进行训 练: [0012]步骤1: 初始化 Q值表、 学习速率、 折扣因子和探索速率; [0013]步骤2: 从训练集中随机选择一组训练数据作为初始状态s输入至所述基于深度强 化学习的通信通道预测模型; [0014]步骤3: 判断当前步数是否大于总步数; 若否, 则获取0 ‑1之间的随机数num; 若是, 转至步骤7; [0015]步骤4: 判断随机数nu m是否大于探索 速率α; 若是, 则选取当前状态最大Q值对应的 动作; 若否, 则随机 选取一个动作; [0016]步骤5: 执 行步骤4中选取的动作得到模型的下一个 状态s’和奖励, 并更新 Q值表; [0017]步骤6: 将s ’设置为当前状态; 判断s ’是否为最终状态, 若是, 则进入下一步骤; 若说 明 书 1/5 页 3 CN 115086187 A 3

.PDF文档 专利 基于强化学习的电力通信通道规划方法、装置及存储介质

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的电力通信通道规划方法、装置及存储介质 第 1 页 专利 基于强化学习的电力通信通道规划方法、装置及存储介质 第 2 页 专利 基于强化学习的电力通信通道规划方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:40:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。