(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210972878.6
(22)申请日 2022.08.15
(71)申请人 云南电网有限责任公司玉 溪供电局
地址 653199 云南省玉 溪市红塔区红塔大
道42号
(72)发明人 李邦源 李杨 龚玉辛 马旭
叶小虎 陈仕龙 姚一 杨金
王莉莉 周新盛 方绍磊
(74)专利代理 机构 昆明合众智 信知识产权事务
所 53113
专利代理师 范严生
(51)Int.Cl.
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 10/00(2012.01)G06Q 50/06(2012.01)
(54)发明名称
基于Word2vec的监控告警信息向量化模型
建立方法
(57)摘要
本发明涉及电网运维管 理技术领域, 具体地
说, 涉及基于Word2vec的监控告警信息向量化模
型建立方法。 包括如下步骤: 构建Word2vec模型
并进行模型训练, 实现使用分布式向量表示文
本; 获取历史监控告警信息, 采用Word2vec模型
对监控告警信息进行向量化处理: 分词, 去停用
词, 向量化建模, 平均化处理。 本发明设计使用
Word2vec表示词向量可以解决传统模型的高维
稀疏特征问题, 还可以将上下文语义特征引入模
型中, 有助于短文本的分类; 采用Word2vec模型
对监控告警信息进行向量化建模, 可以为后续事
件的识别模 型提供输入基础, 进而辅助分析异常
及影响, 提升巡视效率, 为调空人员工作减负, 提
升对电网状态实时掌控能力, 提高电网的运行健
康度。
权利要求书4页 说明书10页 附图5页
CN 115358370 A
2022.11.18
CN 115358370 A
1.基于Word2vec的监控告警信息向量 化模型建立方法, 其特 征在于: 包括如下步骤:
S1、 构建W ord2vec模型并进行模型训练, 实现使用分布式向量表示文本;
S2、 获取历史监控告警信息, 采用W ord2vec模型对监控告警信息进行向量 化处理:
S2.1、 分词: 梳理历史监控告警信息中的线路名称融入知识库;
S2.2、 去停用词: 剔除停用词表中无意 义的字符, 实现数据清洗;
S2.3、 向量化建模: 利用Word2vec模型对监控告警信息进行无监督训练, 生成蕴含语义
特征的高维词向量;
S2.4、 平均化处理: 利用短文本特征表达方式, 将单条监控告警信息中的所有词向量求
平均值, 得到监控告警信息句向量, 用于表达信息语义。
2.根据权利要求1所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征
在于: 所述S1中, Word2vec模型主要分为CBOW模型和Skip ‑gram模型两种; 两种模型均包含
输入层、 投影层/隐藏层和输出层; 其中:
CBOW模型的输入是周围词的词向量, 输出是当前词的词向量, 即通过周围词来预测当
前词;
Skip‑gram模型则与CBOW模型相反, 其输入是当前词的词 向量, 输出是周围词的词 向
量, 即通过当前词预测周围词;
同时, CBOW模型和Skip ‑gram模型均可通过层次softmax、 negative sampling负采样的
方式来进行训练。
3.根据权利要求2所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征
在于: 所述CBOW模型的具体构建及训练方法包括如下步骤:
Step1、 构建CBOW模型的模型网络图, 按输入、 投影及输出三层来分层描述其网络结构,
并构建输出层的二叉霍夫 曼树;
Step2、 基于层次softmax来训练模型: 基于前述 的二叉霍夫曼树, softmax概率计算沿
着树形结构从根节点 一直走到叶子节点的词即可;
Step3、 基于negative sampling来训练模型: 用于解决训练样本里的中心词是一个很
生僻的词导 致其在霍夫 曼树中训练效率低的问题。
4.根据权利要求3所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征
在于: 所述 步骤Step1中, CBOW模型的网络结构具体描述 为:
输入层INPUT: 即文本中预先设定 的窗口中包含的词向量, 这个词向量是以one ‑hot编
码表示的;
投影层PROJE CTION: 可以理解 为隐藏层, 即直接将输入的向量进行累加求和;
输出层OUTPUT: 输出层对应一个二叉树, 其以文本中出现过的词当做叶子节点, 以各词
出现的次数当做权值, 来构建霍夫 曼Huffman树。
5.根据权利要求4所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征
在于: 所述步骤Step2中, 在word2vec中, 沿着二叉霍夫曼树树形结构从根节点一直走到叶
子节点的softmax概率计算采用逻辑回归的方法:即规定沿着左子树走就是负 类, 沿着右子
树走就是正类; 其中, 判别正类和负类的方法使用sigmo id函数, 即:
权 利 要 求 书 1/4 页
2
CN 115358370 A
2其中, x, w是当前内部节点的词向量, 而θ则是需要从训练样本求出的逻辑回归的模型
参数; 则信息被划分为负例的概率为P( ‑)=1‑P(+), 从而在节 点的内部, 需要看到的子树树
形就是往左还是往右, 即是判断P(+)、 P( ‑)哪一个概 率大;
进而, 判断P(+)、 P( ‑)哪一个概率大即基于层次softmax的wor d2vec本身, 找到合适的
所有节点的词向量和所有内部节点θ, 使训练样本 达到最大似然。
6.根据权利要求5所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征
在于: 所述步骤Step2中, 基于层次softmax训练模 型的过程中, 使训练样 本达到最大似然的
具体算法如下:
假设需要最大化的函数为:
则先定义以下几个 变量:
定义输入的词为w; 输入层词向量求和平均后的霍夫曼树根节点词向量为xw; 从根节点
到w所在的叶子节点, 包含的节点总数为lw; w在霍夫曼树中从根节点开始, 经过的第i个节
点表示为
对应的霍夫曼编码为
其中i=2,3,...,lw; 该节点对应的模 型参数
表示为
其中i=1,2,...,lw‑1;
其中, 定义w经过的霍夫曼树某一个节点j的逻辑回归概率为
其表达
式为:
那么对于某一个目标输出词w, 其 最大似然为:
进而可以得到w的对数似然函数L如下:
使用梯度上升法求解模型的梯度, 从而得到模型中w词向量和内部节点的模型参数θ,
其中, 使用梯度上升法求 解模型
的梯度为:
同样的方法, 可以求出xw的梯度表达式如下:
基于梯度表达式, 即可用梯度上升法进行迭代来 一步步的求解所需的所有的参数。
7.根据权利要求6所述的基于Word2vec的监控告警信息向量化模型建立方法, 其特征权 利 要 求 书 2/4 页
3
CN 115358370 A
3
专利 基于Word2vec的监控告警信息向量化模型建立方法
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:40:07上传分享