专利 充电站的信息调整模型的训练方法、装置及产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210955011.X (22)申请日 2022.08.10 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人张韦嘉　张乐　刘浩　韩金栋　秦川　祝恒书　熊辉　 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 1 1204 专利代理师王达佐　马晓亚 (51)Int.Cl. G06Q 50/06(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称充电站的信息调整模型的训练方法、装置及产品 (57)摘要本公开提供了一种充电站的信息调整模型的训练方法、装置、电子设备、存储介质及程序产品，涉及人工智能技术领域，具体涉及多智能体强化学习技术领域。具体实现方案为：获取充电请求，确定充电站集合中的每个充电站对应的环境状态信息；通过初始策略网络，根据每个充电站对应的环境状态信息，确定充电站对于充电请求的目标运营信息；通过初始价值网络，根据充每个充电站对应的环境状态信息和目标运营信息，确定充电请求对应的累计奖励期望；采用深度确定性策略梯度算法，训练初始策略网络和初始价值网络；将训练后的策略网络，确定为充电站对应的信息调整模型。本公开提高了充电站确定目标运营信息的实时性、合理性，以及充电站之间的协调性。权利要求书4页说明书16页附图8页 CN 115330556 A 2022.11.11 CN 115330556 A 1.一种充电站的信息调整模型的训练方法，包括：获取充电请求，并确定充电站集合中的每个充电站对应的环境状态信息；通过初始策略网络，根据所述充电站集合中的每个充电站对应的环境状态信息，确定所述充电站集合中的每个充电站对于所述充电请求的目标运营信息；通过初始价值网络，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定所述充电请求对应的累计奖励期望；采用深度确定性策略梯度算法，训练所述初始策略网络和所述初始价值网络，得到训练后的策略网络和价值网络，其中，在训练过程中，通过时间差分方法更新所述初始价值网络，以最大化充电请求对应的累计奖励期望为目标更新所述初始策略网络；将所述训练后的策略网络，确定为所述充电站集合中的每个充电站对应的信息调整模型。 2.根据权利要求1所述的方法，其中，所述通过初始价值网络，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定所述充电请求对应的累计奖励期望，包括：通过智能体池化模块，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定表征所述充电站集合中的所有充电站的集成表示信息；通过所述初始价值网络，根据所述集成表示信息，确定所述充电请求对应的累计奖励期望。 3.根据权利要求2所述的方法，其中，所述通过智能体池化模块，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定表征所述充电站集合中的所有充电站的集成表示信息，包括：通过映射向量，将所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，映射为表征充电站的重要性的分数特征；根据所述分数特征，从所述充电站集合中确定出预设数量个充电站，并确定所述预设数量个充电站对应的环境状态信息、目标运营信息和分数特征；归一化所述预设数量个充电站对应的分数特征，得到门控向量；根据所述预设数量个充电站对应的环境状态信息、目标运营信息和门控向量，确定门控特征；根据所述门控特征，确定所述充电站集合中的所有充电站的集成表示信息。 4.根据权利要求2所述的方法，其中，所述采用深度确定性策略梯度算法，训练所述初始策略网络和所述初始价值网络，包括：通过所述时间差分方法确定所述初始价值网络对应的第一损失；通过自监督对比学习方法确定所述智能体池化模块对应的第二损失；根据所述第一损失和所述第二损失，更新所述初始价值网络和所述智能体池化模块；以最大化充电请求对应的累计奖励期望为目标更新所述初始策略网络。 5.根据权利要求4所述的方法，其中，所述通过自监督对比学习方法确定所述智能体池化模块对应的第二损失，包括：对于联合特征中的第一子集，通过所述智能体池化模块确定第一集成表示信息，其中，所述联合特征中包括所述充电站集合中的每个充电站对应的环境状态信息和目标运营信权　利　要　求　书 1/4 页 2 CN 115330556 A 2息；对于所述联合特征中的第二子集，通过所述智能体池化模块确定第二集成表示信息；对于与所述充电请求不同的其他充电请求对应的联合特征中的第三子集，通过所述智能体池化模块确定第三集成表示信息；将根据所述第一集成表示信息、所述第二集成表示信息和所述第三集成表示信息确定的自监督对比学习损失，作为所述第二损失。 6.根据权利要求4所述的方法，其中，所述通过所述时间差分方法确定所述初始价值网络对应的第一损失，包括：通过预设奖励函数，确根据所述充电请求对应的充电对象的充电行为，确定奖励信息，其中，所述充电站集合中的每个充电站共享所述奖励信息，所述预设奖励函数对于不同充电行为的奖励不同；通过所述时间差分算法，根据所述充电请求对应的累计奖励期望、所述充电请求对应的奖励和所述充电请求的下一充电请求对应的累计奖励期望，确定所述初始价值网络对应的第一损失。 7.一种充电站的选择方法，包括：获取充电请求；确定充电站集合中的每个充电站对应的环境状态信息；对于所述充电站集合中的每个充电站，通过该充电站对应的、训练后的信息调整模型，根据该充电站对应的环境状态信息，确定该充电站对于所述充电请求的目标运营信息，其中，所述信息调整模型在所述充电站集合中的充电站之间感知彼此的环境状态信息的基础上，基于深度确定性策略梯度算法进行多智能体强化学习得到；展示所述充电站集合中的每个充电站对于所述充电请求的目标运营信息；接收选择指令，并根据所述选择指令从所述充电站集合中确定出目标充电站。 8.一种充电站的信息调整模型的训练装置，包括：第一确定单元，被配置成获取充电请求，并确定充电站集合中的每个充电站对应的环境状态信息；第二确定单元，被配置成通过初始策略网络，根据所述充电站集合中的每个充电站对应的环境状态信息，确定所述充电站集合中的每个充电站对于所述充电请求的目标运营信息；第三确定单元，被配置成通过初始价值网络，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定所述充电请求对应的累计奖励期望；训练单元，被配置成采用深度确定性策略梯度算法，训练所述初始策略网络和所述初始价值网络，得到训练后的策略网络和价值网络，其中，在训练过程中，通过时间差分方法更新所述初始价值网络，以最大化充电请求对应的累计奖励期望为目标更新所述初始策略网络；第四确定单元，被配置成将所述训练后的策略网络，确定为所述充电站集合中的每个充电站对应的信息调整模型。 9.根据权利要求8所述的装置，其中，所述第三确定单元，进一步被配置成：通过智能体池化模块，根据所述充电站集合中的每个充电站对应的环境状态信息和目权　利　要　求　书 2/4 页 3 CN 115330556 A 3

专利 充电站的信息调整模型的训练方法、装置及产品

专利充电站的信息调整模型的训练方法、装置及产品