(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210955011.X
(22)申请日 2022.08.10
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 张韦嘉 张乐 刘浩 韩金栋
秦川 祝恒书 熊辉
(74)专利代理 机构 北京英赛 嘉华知识产权代理
有限责任公司 1 1204
专利代理师 王达佐 马晓亚
(51)Int.Cl.
G06Q 50/06(2012.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
充电站的信息调整模 型的训练方法、 装置及
产品
(57)摘要
本公开提供了一种充电站的信息调整模型
的训练方法、 装置、 电子设备、 存储介质及程序产
品, 涉及人工智 能技术领域, 具体涉及多智 能体
强化学习技术领域。 具体实现方案为: 获取充电
请求, 确定充电站集合中的每个充电站对应的环
境状态信息; 通过初始策略网络, 根据每个充电
站对应的环 境状态信息, 确定充电站对于充电请
求的目标运营信息; 通过初始价值网络, 根据充
每个充电站对应的环境状态信息和目标运营信
息, 确定充电请求对应的累计奖励期望; 采用 深
度确定性策略梯度算法, 训练初始策略网络和初
始价值网络; 将训练后的策略网络, 确定为充电
站对应的信息调整模型。 本公开提高了充电站确
定目标运营信息的实时性、 合理性, 以及充电站
之间的协调性。
权利要求书4页 说明书16页 附图8页
CN 115330556 A
2022.11.11
CN 115330556 A
1.一种充电站的信息调整模型的训练方法, 包括:
获取充电请求, 并确定充电站集 合中的每 个充电站对应的环境状态信息;
通过初始策略网络, 根据所述充电站集合中的每个充电站对应的环境状态信息, 确定
所述充电站集 合中的每 个充电站对于所述充电请求的目标运营信息;
通过初始价值网络, 根据所述充电站集合中的每个充电站对应的环境状态信 息和目标
运营信息, 确定所述充电请求对应的累计奖励期望;
采用深度确定性策略梯度算法, 训练所述初始策略网络和所述初始价值网络, 得到训
练后的策略网络和价值网络, 其中, 在训练过程中, 通过时间差 分方法更新所述初始价值网
络, 以最大化充电请求对应的累计奖励期望为目标 更新所述初始策略网络;
将所述训练后的策略网络, 确定为所述充电站集合中的每个充电站对应的信 息调整模
型。
2.根据权利要求1所述的方法, 其中, 所述通过初始价值网络, 根据所述充电站集合中
的每个充电站对应的环境状态信息和目标运营信息, 确定所述充电请求对应的累计奖励期
望, 包括:
通过智能体池化模块, 根据 所述充电站集合中的每个充电站对应的环境状态信 息和目
标运营信息, 确定表征 所述充电站集 合中的所有 充电站的集成表示信息;
通过所述初始价值网络, 根据所述集成表示信息, 确定所述充电请求对应的累计奖励
期望。
3.根据权利要求2所述的方法, 其中, 所述通过智能体池化模块, 根据所述充电站集合
中的每个充电站对应的环境状态信息和目标运营信息, 确定表征所述充电站 集合中的所有
充电站的集成表示信息, 包括:
通过映射向量, 将所述充电站集合中的每个充电站对应的环境状态信 息和目标运营信
息, 映射为表征充电站的重要性的分数 特征;
根据所述分数特征, 从所述充电站集合中确定出预设数量个充电站, 并确定所述预设
数量个充电站对应的环境状态信息、 目标运营信息和分数 特征;
归一化所述预设数量个充电站对应的分数 特征, 得到门控向量;
根据所述预设数量个充电站对应的环境状态信息、 目标运营信息和门控向量, 确定门
控特征;
根据所述门控特 征, 确定所述充电站集 合中的所有 充电站的集成表示信息 。
4.根据权利要求2所述的方法, 其中, 所述采用深度确定性策略梯度算法, 训练所述初
始策略网络和所述初始价 值网络, 包括:
通过所述时间差分方法确定所述初始价 值网络对应的第一损失;
通过自监 督对比学习方法确定所述智能体池化模块对应的第二损失;
根据所述第一损失和所述第二损失, 更新所述初始价 值网络和所述智能体池化模块;
以最大化充电请求对应的累计奖励期望为目标 更新所述初始策略网络 。
5.根据权利要求4所述的方法, 其中, 所述通过自监督对比学习方法确定所述智能体池
化模块对应的第二损失, 包括:
对于联合特征中的第一子集, 通过所述智能体池化模块确定第一集成表示信 息, 其中,
所述联合特征中包括所述充电站集合中的每个充电站对应的环境状态信息和目标运营信权 利 要 求 书 1/4 页
2
CN 115330556 A
2息;
对于所述联合特 征中的第二子集, 通过 所述智能体池化模块确定第二 集成表示信息;
对于与所述充电请求不同的其他充电请求对应的联合特征中的第 三子集, 通过所述智
能体池化模块确定第三 集成表示信息;
将根据所述第一集成表示信 息、 所述第 二集成表示信 息和所述第 三集成表示信 息确定
的自监督对比学习损失, 作为所述第二损失。
6.根据权利要求4所述的方法, 其中, 所述通过所述 时间差分方法确定所述初始价值网
络对应的第一损失, 包括:
通过预设奖励函数, 确根据 所述充电请求对应的充电对象的充电行为, 确定奖励信 息,
其中, 所述充电站集合中的每个充电站共享所述奖励信息, 所述预设奖励函数对于不同充
电行为的奖励不同;
通过所述时间差分算法, 根据所述充电请求对应的累计奖励期望、 所述充电请求对应
的奖励和所述充电请求的下一充电请求对应的累计奖励期 望, 确定所述初始 价值网络对应
的第一损失。
7.一种充电站的选择 方法, 包括:
获取充电请求;
确定充电站集 合中的每 个充电站对应的环境状态信息;
对于所述充电站集合中的每个充电站, 通过该充电站对应的、 训练后的信息调整模型,
根据该充电站对应的环境状态信息, 确定该充电站对于所述充电请求的目标运营信息, 其
中, 所述信息调整模型在所述充电站集合中的充电站之 间感知彼此的环境状态信息的基础
上, 基于深度确定性策略梯度算法进行多智能体强化学习得到;
展示所述充电站集 合中的每 个充电站对于所述充电请求的目标运营信息;
接收选择指令, 并根据所述选择指令从所述充电站集 合中确定出目标充电站。
8.一种充电站的信息调整模型的训练装置, 包括:
第一确定单元, 被配置成获取充电请求, 并确定充电站集合中的每个充电站对应的环
境状态信息;
第二确定单元, 被配置成通过初始策略网络, 根据所述充电站集合中的每个充电站对
应的环境状态信息, 确定所述充电站集合中的每个充电站对于所述充电请求的目标运营信
息;
第三确定单元, 被配置成通过初始价值网络, 根据所述充电站集合中的每个充电站对
应的环境状态信息和目标运营信息, 确定所述充电请求对应的累计奖励期望;
训练单元, 被配置成采用深度确定性策略梯度算法, 训练所述初始策略网络和所述初
始价值网络, 得到训练后的策略网络和价值网络, 其中, 在训练过程中, 通过时间差分方法
更新所述初始价值网络, 以最大化充电请求对应的累计奖励期 望为目标更新所述初始策略
网络;
第四确定单元, 被配置成将所述训练后的策略网络, 确定为所述充电站集合中的每个
充电站对应的信息调整模型。
9.根据权利要求8所述的装置, 其中, 所述第三确定单 元, 进一步被配置成:
通过智能体池化模块, 根据 所述充电站集合中的每个充电站对应的环境状态信 息和目权 利 要 求 书 2/4 页
3
CN 115330556 A
3
专利 充电站的信息调整模型的训练方法、装置及产品
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:39:40上传分享