说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210972878.6 (22)申请日 2022.08.15 (71)申请人 云南电网有限责任公司玉 溪供电局 地址 653199 云南省玉 溪市红塔区红塔大 道42号 (72)发明人 李邦源 李杨 龚玉辛 马旭  叶小虎 陈仕龙 姚一 杨金  王莉莉 周新盛 方绍磊  (74)专利代理 机构 昆明合众智 信知识产权事务 所 53113 专利代理师 范严生 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 10/00(2012.01)G06Q 50/06(2012.01) (54)发明名称 基于Word2vec的监控告警信息向量化模型 建立方法 (57)摘要 本发明涉及电网运维管 理技术领域, 具体地 说, 涉及基于Word2vec的监控告警信息向量化模 型建立方法。 包括如下步骤: 构建Word2vec模型 并进行模型训练, 实现使用分布式向量表示文 本; 获取历史监控告警信息, 采用Word2vec模型 对监控告警信息进行向量化处理: 分词, 去停用 词, 向量化建模, 平均化处理。 本发明设计使用 Word2vec表示词向量可以解决传统模型的高维 稀疏特征问题, 还可以将上下文语义特征引入模 型中, 有助于短文本的分类; 采用Word2vec模型 对监控告警信息进行向量化建模, 可以为后续事 件的识别模 型提供输入基础, 进而辅助分析异常 及影响, 提升巡视效率, 为调空人员工作减负, 提 升对电网状态实时掌控能力, 提高电网的运行健 康度。 权利要求书4页 说明书10页 附图5页 CN 115358370 A 2022.11.18 CN 115358370 A 1.基于Word2vec的监控告警信息向量 化模型建立方法, 其特 征在于: 包括如下步骤: S1、 构建W ord2vec模型并进行模型训练, 实现使用分布式向量表示文本; S2、 获取历史监控告警信息, 采用W ord2vec模型对监控告警信息进行向量 化处理: S2.1、 分词: 梳理历史监控告警信息中的线路名称融入知识库; S2.2、 去停用词: 剔除停用词表中无意 义的字符, 实现数据清洗; S2.3、 向量化建模: 利用Word2vec模型对监控告警信息进行无监督训练, 生成蕴含语义 特征的高维词向量; S2.4、 平均化处理: 利用短文本特征表达方式, 将单条监控告警信息中的所有词向量求 平均值, 得到监控告警信息句向量, 用于表达信息语义。 2.根据权利要求1所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征 在于: 所述S1中, Word2vec模型主要分为CBOW模型和Skip ‑gram模型两种; 两种模型均包含 输入层、 投影层/隐藏层和输出层; 其中: CBOW模型的输入是周围词的词向量, 输出是当前词的词向量, 即通过周围词来预测当 前词; Skip‑gram模型则与CBOW模型相反, 其输入是当前词的词 向量, 输出是周围词的词 向 量, 即通过当前词预测周围词; 同时, CBOW模型和Skip ‑gram模型均可通过层次softmax、 negative  sampling负采样的 方式来进行训练。 3.根据权利要求2所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征 在于: 所述CBOW模型的具体构建及训练方法包括如下步骤: Step1、 构建CBOW模型的模型网络图, 按输入、 投影及输出三层来分层描述其网络结构, 并构建输出层的二叉霍夫 曼树; Step2、 基于层次softmax来训练模型: 基于前述 的二叉霍夫曼树, softmax概率计算沿 着树形结构从根节点 一直走到叶子节点的词即可; Step3、 基于negative  sampling来训练模型: 用于解决训练样本里的中心词是一个很 生僻的词导 致其在霍夫 曼树中训练效率低的问题。 4.根据权利要求3所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征 在于: 所述 步骤Step1中, CBOW模型的网络结构具体描述 为: 输入层INPUT: 即文本中预先设定 的窗口中包含的词向量, 这个词向量是以one ‑hot编 码表示的; 投影层PROJE CTION: 可以理解 为隐藏层, 即直接将输入的向量进行累加求和; 输出层OUTPUT: 输出层对应一个二叉树, 其以文本中出现过的词当做叶子节点, 以各词 出现的次数当做权值, 来构建霍夫 曼Huffman树。 5.根据权利要求4所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征 在于: 所述步骤Step2中, 在word2vec中, 沿着二叉霍夫曼树树形结构从根节点一直走到叶 子节点的softmax概率计算采用逻辑回归的方法:即规定沿着左子树走就是负 类, 沿着右子 树走就是正类; 其中, 判别正类和负类的方法使用sigmo id函数, 即: 权 利 要 求 书 1/4 页 2 CN 115358370 A 2其中, x, w是当前内部节点的词向量, 而θ则是需要从训练样本求出的逻辑回归的模型 参数; 则信息被划分为负例的概率为P( ‑)=1‑P(+), 从而在节 点的内部, 需要看到的子树树 形就是往左还是往右, 即是判断P(+)、 P( ‑)哪一个概 率大; 进而, 判断P(+)、 P( ‑)哪一个概率大即基于层次softmax的wor d2vec本身, 找到合适的 所有节点的词向量和所有内部节点θ, 使训练样本 达到最大似然。 6.根据权利要求5所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征 在于: 所述步骤Step2中, 基于层次softmax训练模 型的过程中, 使训练样 本达到最大似然的 具体算法如下: 假设需要最大化的函数为: 则先定义以下几个 变量: 定义输入的词为w; 输入层词向量求和平均后的霍夫曼树根节点词向量为xw; 从根节点 到w所在的叶子节点, 包含的节点总数为lw; w在霍夫曼树中从根节点开始, 经过的第i个节 点表示为 对应的霍夫曼编码为 其中i=2,3,...,lw; 该节点对应的模 型参数 表示为 其中i=1,2,...,lw‑1; 其中, 定义w经过的霍夫曼树某一个节点j的逻辑回归概率为 其表达 式为: 那么对于某一个目标输出词w, 其 最大似然为: 进而可以得到w的对数似然函数L如下: 使用梯度上升法求解模型的梯度, 从而得到模型中w词向量和内部节点的模型参数θ, 其中, 使用梯度上升法求 解模型 的梯度为: 同样的方法, 可以求出xw的梯度表达式如下: 基于梯度表达式, 即可用梯度上升法进行迭代来 一步步的求解所需的所有的参数。 7.根据权利要求6所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征权 利 要 求 书 2/4 页 3 CN 115358370 A 3

.PDF文档 专利 基于Word2vec的监控告警信息向量化模型建立方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Word2vec的监控告警信息向量化模型建立方法 第 1 页 专利 基于Word2vec的监控告警信息向量化模型建立方法 第 2 页 专利 基于Word2vec的监控告警信息向量化模型建立方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:40:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。