(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210965713.6
(22)申请日 2022.08.12
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市钱塘新区白杨
街道2号大街1 158号
(72)发明人 左一帆 涂海程 夏永祥 刘春山
(51)Int.Cl.
G06K 9/62(2022.01)
G06Q 50/06(2012.01)
(54)发明名称
基于改进聚类算法的电力系统运行关键特
征选择方法
(57)摘要
本发明公开了一种基于改进聚类算法的电
力系统运行关键特征选择方法, 包括如下步骤:
S1、 将高维的电力数据组成的数据集处理成由每
一个电气特征组成的数据集; S2、 通过部分优先
聚 类 算 法 产 生 聚 类 成 员 ; S 3 、通 过 C o ‑
association矩阵进行聚类融合; S4、 特征选择算
法对电气特征进行聚类, 并选择出关键属性。 本
发明方法通过改进的聚类算法来实现电力大数
据的快速精确聚类, 然后 在得到聚类结果的基础
上实现关键特征选择, 实现对数据集的降维。 本
发明一方面有利于快速实现聚类, 降低计算复杂
度的同时还 可以减少时间复杂度。 另一方面可以
实现可靠的聚类结果, 保证了对电力大数据进行
关键特征选择的可靠性。
权利要求书2页 说明书6页 附图2页
CN 115310545 A
2022.11.08
CN 115310545 A
1.一种基于改进聚类算法的电力系统运行关键特征选择方法, 其特征在于, 包括如下
步骤:
S1、 将高维的电力数据组成的数据集处 理成由每一个电气特 征组成的数据集;
S2、 通过部分优先聚类算法产生聚类成员
S2‑1、 参数初始化: 根据数据 集的大小, 选择 聚类成员个数ρ; 设定距离参数r, 判断典型
样本A的最大迭代次数cs, 以及样本点α 邻域内最小个数 μ;
S2‑2、 从数据集中随机 选取一个样本A, 然后从A中再随机 选取一个样本点α;
S2‑3、
为样本点α的均值, N为样本点数据的个数; 数据Xi的均值为
若
则判定Xi在样本点α 的邻域内, 统计α邻域内的数据量Num, 若Num
> μ时, 则判定A 为典型样 本, 否则, 则重复步骤S2 ‑2, 但是如果超过最大判断次数cs, 则结束
算法;
S2‑4、 若A为典型样本, 计算聚类中心, 表达式如下:
其中|A|为典型样本中数据量, 根据C遍历整个数据集, 将
的数据归到A 中, 否
则就判断下一个数据, 此时即得到以C为聚类中心的数据组成的一类, 然后 将其中的重复数
据删除, 得到新的一类Cluster, 将Cluster从数据集中删除, 使Cluster中的数据不得参与
下一次分类, 从而降低运行时间;
S2‑5、 重复步骤S2 ‑2至S2‑4得到剩下的ρ ‑1个聚类成员;
S3、 通过Co ‑association矩阵进行聚类融合;
S4、 特征选择算法对电气特 征进行聚类, 并选择 出关键特 征。
2.根据权利要求1所述的基于改进聚类算法的电力系统运行关键特征选择方法, 其特
征在于, 所述步骤S1中将高维的电力数据组成的数据集Xjt={T1t,T2t,…,Tnt}转换为Xij=
{Ti1,Ti2,…,Tin}的形式, 其中, Xjt是表示第j个区域t时刻的一个高维数据, 其中Tnt表示t时
刻的第n个电气 特征值, 其中Xij表示第j个区域第i个特征的一个数据, Tin表示第n个时刻的
第i个电气特 征的值。
3.根据权利要求2所述的基于改进聚类算法的电力系统运行关键特征选择方法, 其特
征在于, 所述 步骤S1中数据集的转换 方法为:
S1‑1、 统一数据集维度, 删除与数据集中大多数样本维度不 一致的样本;
S1‑2、 对数据集中剩余的数据样本进行观察, 若所有样本中均是某些特征存在数值上
的重复, 则只保留其中的一个特 征;
S1‑3、 对数据集进行归一 化处理。
4.根据权利要求1所述的基于改进聚类算法的电力系统运行关键特征选择方法, 其特
征在于, 所述 步骤S3中, Co ‑association矩阵CM的定义为:权 利 要 求 书 1/2 页
2
CN 115310545 A
2其中, K表示聚类成员的个数, V表示基簇中的数据的个数, CCkv表示在第k个类中的第v
个基簇, 其中δ(i,j,C Ckv)函数的定义如下:
5.根据权利要求4所述的基于改进聚类算法的电力系统运行关键特征选择方法, 其特
征在于, 所述 步骤S3中聚类融合的方法如下:
S3‑1、 通过Co ‑association矩阵计算C M值;
S3‑2、 若CM的值大于0.5, 则将这一基簇的数据记为聚类融合后新一类中的数据成员,
所有的基簇通过C M值的判定后, 即可 形成新的一类C1;
S3‑3、 将C1中的数据经 过处理, 删除重复的数据, 即可 得到有效的一类C2;
S3‑4、 计算其聚类中心, 遍历整个数据集, 并实时更新聚类中心, 得到最终聚类的第一
类C3, 然后将C 3从数据集中删除, 使得C 3中的数据不 参与下一次的聚类;
S3‑5、 重复上述部分优先聚类和聚类融合的步骤。
6.根据权利要求1所述的基于改进聚类算法的电力系统运行关键特征选择方法, 其特
征在于, 所述 步骤S4的具体方法如下:
S4‑1、 数据经过S2和 S3处理后, 即可得到最终的聚类结果, 选择数据量满足设定条件的
类;
S4‑2、 将选择后类中的数据与电气特征进行匹配, 统计每一个类中每一个特征的数据
量;
S4‑3、 通过计算每一个电气特征的平均数据量占比, 根据占比情况将电气特征进行分
类, 分类后从每一类中挑选出一个电气特 征组成最终的关键特 征。
7.根据权利要求6所述的基于改进聚类算法的电力系统运行关键特征选择方法, 其特
征在于, 所述步骤S4 ‑1中, 所述设定的条件为: 数据变量初始化, 就是根据每一次仿真后的
得到的一组类中, 选择 数据量较多的类。权 利 要 求 书 2/2 页
3
CN 115310545 A
3
专利 基于改进聚类算法的电力系统运行关键特征选择方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:40:39上传分享