首页 / 一种基于降维聚类的双判据异常用电检测方法

一种基于降维聚类的双判据异常用电检测方法实质审查 发明

技术领域

[0001] 本发明涉及用电检测技术领域,具体来说,涉及一种基于降维聚类的双判据异常用电检测方法。

相关背景技术

[0002] 非技术性损失(Non‑technical Loss,NTL)指电网输配电损失中无法用技术解释的部分,异常用电是造成电力系统非技术性损失的主要原因,直接影响电网的安全稳定运行。传统异常用电的检测采用人工巡检方式,需要消耗大量的人力物力资源,已不能满足实际需求;近年来随着智慧电网的发展,电力公司在发电、输电、配电和用电端部署了大量的智能电表等数据采集传感器,可以按每天数十次的频率采集和记录电力系统各个环节的相关数据,这些数据中隐含着不同用户的用电行为信息,也为异常用电检测提供了间接证据,如何对这些信息进行有效挖掘利用,从而快速准确地定位异常用电用户,是电力企业亟待解决的一个难题,也是当前研究的热点。
[0003] 现有异常用电检测技术采用的电力负荷检测算法可根据是否需要数据标签分为有监督和无监督两大类。其中,有监督算法通过训练集学习异常用电用户的特征,从而获得辨识异常用电用户的能力,例如支持向量机和神经网络等,这些算法需要大量带有标签的样本数据作为训练基础,而电力负荷数据常常面临类别不平衡的问题,即异常用电用户所占比例较小,这可能导致训练过程中出现欠拟合现象,最终影响检测结果的准确度。
[0004] 与有监督算法相比,无监督算法的优势在于它们不需要依赖数据标签,并且由于省去了训练过程,数据类别不平衡对模型性能的影响相对较小。目前,基于深度学习的无监督算法通常作为有监督检测算法的补充,以减轻类别不平衡数据对检测结果的负面影响;然而,基于离群因子的无监督算法不适合检测具有多种用电模式的用户负荷,而基于聚类的无监督算法能够实现异常用电检测的全过程无监督,但在异常检测中也面临一些挑战,如参数选择通常依赖于经验,且无监督算法由于缺乏异常用户标签,难以评估所选参数的优劣,这使得获取最优参数变得更加困难。
[0005] 针对相关技术中的问题,目前尚未提出有效的解决方案。

具体实施方式

[0070] 为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
[0071] 根据本发明的实施例,提供了一种基于降维聚类的双判据异常用电检测方法。
[0072] 现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明的一个实施例,提供了一种基于降维聚类的双判据异常用电检测方法,该基于降维聚类的双判据异常用电检测方法包括以下步骤:
[0073] S1、基于原始智能电表数据,建立用电用户的日月用电量数据集,并构造特征指标,归一化得到高维日月用电量特征集;
[0074] S2、利用均匀流形逼近和投影算法降维处理高维日月用电量特征集,得到低维投影特征集,并基于无监督聚类算法,设定双判据检测规则,构建异常用电检测模型;
[0075] S3、基于异常用电检测模型,输入低维投影特征集,输出异常用电检测结果,并利用模型评估指标评估输出。
[0076] 在一个实施例中,基于原始智能电表数据,建立用电用户的日月用电量数据集,并构造特征指标,归一化得到高维日月用电量特征集包括以下步骤:
[0077] S11、预处理原始智能电表数据,生成用电用户的日月用电量数据集;
[0078] 具体的,对电力负荷进行数据预处理,在本实施例中,调用爱尔兰能源监管委员会发布的原始智能电表数据,原始智能电表数据共包含约1.6亿行用户用电量信息,且包含时间段数据,无法直接输入模型;因此,根据时段信息,按天将每个用户的用电量累加,得到6445个用电用户536天的日用电量数据,数据集中包含一整天用电量为0的数据点,初步分析发现,这在实际中是正常的,但这些数据点会在特征构造时使某些特征值无法求取;因此,本发明将一天用电量为0的数据点均修改为0.01,用一个很小的值表示用户一天内没有用电的情况,生成处理后的6445个用电用户日用电量数据,为了后续构造能反映长时间跨度下的用电特征,在用户日用电量数据集基础上,将每30天的日用电量数据进行累加,得到所有用户18个月的月用电量数据;这一步得到了6445个爱尔兰用电用户536天的日用电量数据和18个月用电量数据。
[0079] S12、基于用电用户的日月用电量数据集,构造特征指标;
[0080] 具体的,特征构造,本实施例中在步骤S11生成6445个用电用户的日月用电量数据基础上,对日月用电量数据进行特征构造,特征构造可以挖掘原负荷数据的深层信息,提高异常检测模型的准确度;本发明基于用户的日、月用电量数据构造了其形态、波动性、趋势性和相关性四类特征指标:①形态指标,包括(1)日平均用电量,(2)月平均用电量,(3)日用电量率,(4)月用电量率,即平均用电量与最大用电量的比值,(5)月用电量峰谷差率,即最大最小用电量的差值与最大用电量的比值,(6)第一季度用电量占全年用电量的比例,(7)第二季度用电量占全年用电量的比例,(8)第三季度用电量占全年用电量的比例,(9)第四季度用电量占全年用电量的比例,其中,日、月用电量率反映用电量的整体变化,峰谷差率反映用电量变化幅度的大小,每季度用电量占比反映用电量的分布情况;②波动性指标,包括(10)日用电量离散系数,(11)月用电量离散系数,即日、月用电量标准差与日、月用电量均值的比值,(12)日用电量离散系数与行业日用电量离散系数的比值,(13)月用电量离散系数与行业月用电量离散系数的比值(本发明中用所有用户用电量的平均值代表行业用电量),(14)前后m个月用电量的首尾差值,其中,每户用电量的离散系数表示该用户用电量曲线相对于平均值曲线的偏离程度,可以较为详细的反映用户用电量的波动情况,某些用电量很高的日数据会对离散系数产生较大影响。用电量数据的首尾差值以长时间跨度的月用电量数据为根据,可以反映用户用电量的整体波动情况;③趋势性指标,包括(15)日用电量序列线性拟合的斜率k,(16)月用电量序列的上升趋势,(17)月用电量序列的下降趋势;④相关性指标,包括(18)每户日用电量序列与典型日用电量序列(本发明中用所有用户日均值序列表示)的皮尔逊相关系数;根据上面方法提取特征值,共计18个。
[0081] S13、归一化处理特征指标,得到高维日月用电量特征集。
[0082] 具体的,归一化处理,由于步骤S12中的18个特征的数量级并不相同,为平衡各特征对结果的影响,需对以上特征进行归一化处理。
[0083] 具体的,本实施例中采用的归一化方法是min‑max归一化,也称离差归一化,归一化处理特征指标的计算公式为:
[0084]
[0085] 式中,xi、Xi分别为第i个数据点的某特征归一化前、后的数值,xmin、xmax分别为该特征的最小值和最大值。
[0086] 在一个实施例中,预处理原始智能电表数据,生成用电用户的日月用电量数据集包括以下步骤:
[0087] S111、根据时段信息,按天将原始智能电表数据中每个用户的用电量累加,得到日用电量数据;
[0088] S112、识别日用电量数据中一天用电量为0的数据点,并利用预设值替换数据点的数据,生成用户日用电量数据集;
[0089] S113、基于用户日用电量数据集,提取预设时间跨度下的用电量数据并累加,生成用户月用电量数据集,并结合用户日用电量数据集建立用电用户的日月用电量数据集。
[0090] 在一个实施例中,特征指标包括形态指标、波动性指标、趋势性指标及相关性指标;
[0091] 其中,形态指标包括日月平均用电量、日月用电量率、月用电量峰谷差率及每季度用电量占全年用电量的比例;
[0092] 波动性指标包括日月用电量离散系数、日月用电量离散系数与行业日月用电量离散系数的比值、用电量首尾差值;
[0093] 趋势性指标包括日用电量序列线性拟合的斜率、月用电量序列的上升趋势及月用电量序列的下降趋势;
[0094] 相关性指标包括每户日用电量序列的皮尔逊相关系数、典型日用电量序列的皮尔逊相关系数。
[0095] 在一个实施例中,利用均匀流形逼近和投影算法降维处理高维日月用电量特征集,得到低维投影特征集,并基于无监督聚类算法,设定双判据检测规则,构建异常用电检测模型包括以下步骤:
[0096] S21、基于高维日月用电量特征集,构建高维拓扑权重,并进行低维度投影,生成低维投影特征集;
[0097] S22、构建指数型密度距离评价指标,并引入轮廓系数,制定多阶段聚类策略,其中,多阶段聚类策略包括预聚类阶段策略与优化阶段策略;
[0098] S23、根据δ‑ρ决策图和数据点的实际坐标,建立双判据检测规则,并结合多阶段聚类策略,构建异常用电检测模型,其中,双判据检测规则包括第一异常点判据规则与第二异常点判据规则。
[0099] 在一个实施例中,基于高维日月用电量特征集,构建高维拓扑权重,并进行低维度投影,生成低维投影特征集包括以下步骤:
[0100] S211、基于数据点构建高维拓扑权重,并引入加权邻接矩阵,确保任意两个数据点之间的权重一致性;
[0101] S212、构建交叉熵函数,优化交叉熵损失;
[0102] S213、利用随机梯度下降法优化交叉熵函数,得到所有低维度数据点的权重,并建立低维投影特征集。
[0103] 具体的,延续步骤S13,在特征降维部分,本发明选用均匀流形逼近和投影(Uniform Manifold Approximation and Projection,UMAP)算法,在计算速度上较快,同时能更好的保留原数据的局部结构与全局结构,可以较好的提高异常用电用户的精准率。
[0104] 具体的,本发明中利用均匀流形逼近和投影算法降维处理高维日月用电量特征集,得到低维投影特征集,实现过程主要包括高维拓扑构造和低维投影两个阶段;在高维拓扑构造阶段,其核心内容是创建一个加权k近邻图,其中,V为顶点集,即N个高维数据点的集合X={x1,x2,…,xN},E为边集,即根据k个邻近点能构成的有向边的集合,W为权重函数,其计算表达式为:
[0105]
[0106] 式中,Wij为点xi与xj在高维空间中的权重函数,sij为xi与xj之间的距离;ρi为xi与邻近点之间的距离(由局部连通性约束导出);σi为根据黎曼度量设置的平滑标准化因子。
[0107] 具体的,计算完毕所有数据点的Wij,为了保持任意的两个数据点之间的权重一致性,引入表达式:
[0108]
[0109] 式中,A为所有Wij组成的加权邻接矩阵;为矩阵的哈达玛积;B为最终图G的加权邻接矩阵。
[0110] 具体的,完成高维拓扑的构建后,为了实现低维度投影,需要构建低维度下的权重函数,表达式为:
[0111]
[0112] 式中,Vij为点xi与xj在低维空间中的权重函数,dij为低维度数据点Y={y1,y2,…,yN}中yi与yj之间的距离;a和b均为超参数。
[0113] 具体的,为了使降维后的数据集与原数据集尽可能接近,需要优化Vij和Wij之间的交叉熵损失。
[0114] 具体的,构建交叉熵函数,优化交叉熵损失的表达式为:
[0115]
[0116] 式中, 表示约束相似数据点形成簇的吸引力分量, 表示确保形成的簇之间有足够间隔的排斥力分量。
[0117] 具体的,在交叉熵函数中,求和的第一项为约束相似数据点形成簇的吸引力分量,第二项为确保形成的簇之间有足够间隔的排斥力分量;本实施例中利用随机梯度下降法对函数f进行优化,得到所有低维度数据点的权重后,完成低维度下加权k近邻图的构建,最终实现高维拓扑结构的低维度表示。
[0118] 具体的,在上述实施例中,本发明通过均匀流形逼近和投影算法,最终将18个特征降至3个特征。
[0119] 在一个实施例中,构建指数型密度距离评价指标,并引入轮廓系数,制定多阶段聚类策略包括以下步骤:
[0120] S221、提取数据集的初步分群,并设定动态范围进行预聚类;
[0121] S222、对于动态范围内每一个预聚类结果,计算对应的轮廓系数,识别最优簇数量;
[0122] S223、构建一个指数型密度距离评价指标,识别潜在聚类中心点。
[0123] 需要说明的是,无监督聚类算法是机器学习中用于探索数据内在结构的一类重要算法,包括K‑Means聚类算法、层次聚类算法及密度峰值聚类算法等,本发明对密度峰值聚类算法(Density Peaks Clustering,DPC)进行改进,对步骤S213得到的低维投影特征集进行聚类,将低维投影特征集分成若干簇(不同簇表示不同类型的用电用户),同一类型的用电用户有着相似的用电模式,在每种类型的用电用户中进行更精细化的异常检测,就可以一定程度上消除不同类别用户之间的相互干扰;应用于用电异常行为检测的主要有基于划分的和基于密度的两类,基于划分的聚类将用户的特征集合经过划分后将子集合中离中心较偏远的离群点作为异常点,基于密度的聚类则认为那些远离高密度点并且自己本身处于低密度区域的点属于异常点。
[0124] 具体的,传统密度峰值聚类算法选取聚类中心需要依靠人工在决策图中选取局部密度ρi和最近邻距离δi相对都大的点,为了提高密度峰值聚类(DPC)算法的自动化水平和效率,并克服其对人工选择簇中心依赖性的问题,本发明采取了一种创新的多阶段聚类策略,借助K‑means算法的高效初始聚类性能,并结合轮廓系数作为聚类有效性的量化评估指标,以自动确定最优的簇数量。
[0125] 具体的,1)预聚类阶段:利用K‑means算法作为初步聚类工具,以其快速收敛的特性迅速得到数据集的初步分群,通过设定一个动态范围(本实施例中为k值从1至10),本发明对每个预设的k值执行K‑means聚类,并记录相应的结果。
[0126] 2)优化阶段:引入轮廓系数作为衡量聚类质量的重要指标;本发明对于每一个k值所产生的聚类结果,计算其对应的轮廓系数,并从中识别出具有最优异轮廓系数值的k值,此k值反映了数据集聚类的最优簇数量。
[0127] 具体的,对上一阶段预聚类中每一个k(1‑10)值所聚类的效果分别计算其对应的轮廓系数,并从中识别出轮廓系数最大的k值,选择该k值则为数据集聚类的最优簇数量。
[0128] 需要说明的是,轮廓系数(Silhouette Coefficient)是聚类效果好坏的一种评价方式,本发明中用轮廓系数作为描述聚类后各个类别的轮廓清晰度的指标,具体包含两种因素,内聚度和分离度,其中,内聚度可以理解为反映一个样本点与类内元素的紧密程度,分离度可以理解为反映一个样本点与类外元素的紧密程度。
[0129] 具体的,对于其中的一个样本点i来说,计算a(i)=average(点i到所有它属于的簇中其它点的距离),计算b(i)=min(点i到某一不包含它的簇内的所有点的平均距离),从而得到样本点i轮廓系数的计算公式为:
[0130]
[0131] 式中,a(i)表示i向量到同一簇内其他点不相似程度的平均值,b(i)表示i向量到其他簇的平均不相似程度的最小值。
[0132] 具体的,由上述公式可得,轮廓系数的值介于[‑1,1],越趋近于1代表内聚度和分离度都相对较优,将所有点的轮廓系数求平均,得到该聚类结果总的轮廓系数。
[0133] 具体的,通过上述步骤共计算出10个轮廓系数值,选出最大的轮廓系数所对应的k值,此时的k值为最优簇数量。
[0134] 3)DPC聚类应用阶段:将上一阶段获得的最优簇数量直接应用于DPC算法中,这一步骤使得DPC算法能够在无需人为干预的情况下,自适应地确定簇中心,并进行高效的数据集聚类分析。
[0135] 具体的,为克服传统方法中可能因人工手动选取过于依赖单一变量而导致的聚类中心选取不准确的问题,本发明还引入了一种创新的决策函数,通过构建一个指数型密度距离评价指标,实现了对潜在聚类中心点的更加精确的识别,指数型密度距离评价指标的表达式为:
[0136]
[0137] 式中,γ(i)为每个样本点的指数型密度距离评价指标,ρi和δi分别为每个样本点的局部密度和相对距离。
[0138] 具体的,在上述实施例中,先通过计算数据集中每个点的ρi和δi,然后,利用这两个变量的乘积作为指数函数的输入,计算每个样本点的γ(i),最后通过对评价指标进行降序排列,并按照指标最大化的原则来确定聚类中心;这种方法确保了选取的聚类中心不仅仅是密度高的点,而且是在数据空间中具有相对较远距离的点,从而减少了单一变量对聚类中心选取过程的影响;新指标为每个数据点提供了一个综合的评分,同时考虑了点的局部密度和其与其他点的相对距离。
[0139] 具体的,进一步验证改进DPC聚类算法优于传统DPC聚类算法,本发明将数据集降至2维、3维和4维,以验证改进聚类方法面对不同数据集的有效性,分别计算传统DPC聚类算法和改进聚类算法的轮廓系数和DB指数,如表1所示,对比不同维度的数据聚类后的DB指数,4维数据下,除改进DPC聚类算法略高于传统DPC聚类算法外,其他均远低于,证明改进算法簇间距离更大,聚类效果更好。
[0140] 表1
[0141]
[0142]
[0143] 在一个实施例中,根据δ‑ρ决策图和数据点的实际坐标,建立双判据检测规则,并结合多阶段聚类策略,构建异常用电检测模型包括以下步骤:
[0144] S231、基于δ‑ρ决策图,计算每个簇的基准密度和基准距离;
[0145] S232、若数据点位于δ‑ρ决策图左上方,则判定满足第一异常点判据规则;
[0146] S233、定义每个簇的边界点,并计算每个簇的边界密度;
[0147] S234、若数据点的密度小于所属簇的边界密度,则判定满足第二异常点判据规则;
[0148] S235、结合多阶段聚类策略,构建异常用电检测模型,并将同时满足第一异常点判据规则与第二类异常点判据规则的数据点标记为异常点。
[0149] 具体的,构建双判据异常检测模型,本发明根据DPC聚类算法异常值的识别原理,分别基于δ‑ρ决策图和数据点的实际坐标设置了识别异常值的2个判据,位于δ‑ρ决策图左上方的点为异常点,由此给出第1个异常点的判据,即判据1:如果某个数据点的密度ρi小于基准密度ρ0且距离δi大于基准距离δ0,那么这个点是异常点,各个簇的基准密度和基准距离的计算表达式为:
[0150]
[0151] 式中:ρ0(c)与δ0(c)分别为第c个簇的基准密度与基准距离;α、β为经验常数;N(c)为第(c)c个簇包含的数据点的总个数;M 为第c个簇包含的数据点集合。
[0152] 具体的,实际坐标越远离聚类中心的点越可能是异常点,由此给出第2个异常点的判据,即判据2:如果某个数据点的密度ρi小于这个点所属簇的边界密度ρb,那么这个点是异常点。
[0153] 需要说明的是,在DPC(Density Peaks Clustering)聚类中,聚类中心的识别主要基于以下两个核心假设:首先,预设簇中心点往往展现出比其周边数据点更高的局部密度;其次,簇中心点相较于那些密度大于它们的样本点往往保持较远的距离。
[0154] 具体的,判据2中密度ρi是聚类过程中计算出的值,设有数据集X={x1,x2,…,xn},xi={xi1,xi2,…,xim},i=1,2,…,n,xij代表第i个样本的第j维属性,j=1,2,…,m,为了识别簇中心,对每一样本点xi,均计算其局部密度ρi和该样本点到密度更大样本点的距离δi。
[0155] 具体的,判据2中计算各样本点的局部密度ρi有两种方法,基于截断核计算局部密度与基于高斯核计算局部密度,其中,基于截断核计算局部密度的表达式为:
[0156]
[0157] 基于高斯核计算局部密度的表达式为:
[0158]
[0159] 式中,χ(·)代表分段函数,用于判断距离dij是否小于截断距离;dij代表点xi与xj之间的距离;n代表样本点个数;dc代表截断距离。
[0160] 具体的,本实施例中采用基于高斯核计算局部密度,以上两种方法不论是采用基于截断核还是基于高斯核进行局部密度ρi的计算,其过程均与预先设定的截断距离dc密切相关,dc的计算公式为:
[0161]
[0162] 式中,dc∈D,D={d1,d2,…,dNd}为两样本点间的距离集合,且d1≤d2≤…≤dNd,为D中距离总数, P一般取为2%左右。
[0163] 具体的,对于点xi而言,其与比自身密度更高的样本点间的距离δi的计算表达式为:
[0164]
[0165] 式中,针对并非局部密度最大的样本点xi,δi代表了点xi到密度大于其自身的样本点的最短距离;若点xi为当前最大密度点,则δi定义为点xi到距自身最远样本点的距离。
[0166] 在一个实施例中,定义每个簇的边界点,计算每个簇的边界密度包括以下步骤:
[0167] S2331、定义每个簇的边界点,令所有簇的边界密度的初值为0;
[0168] S2332、将满足边界点条件的两个点的平均密度作为这两个点所属簇的边界密度;
[0169] S2333、重复执行步骤S2332,直至得到所有簇的边界密度;
[0170] S2334、选取每个簇中的最大边界密度,作为该簇的边界密度。
[0171] 具体的,本发明定义分别属于不同簇且欧氏距离小于ω倍的dc的2个点分别为这2(c)个簇的边界点(有很多组边界点),由边界点可以求取各个簇的边界密度ρb (上标c表示簇号),求取过程如下:
[0172] 步骤I、令所有簇的边界密度ρb(c)的初值为0;
[0173] 步骤II、将满足边界点条件的2个点的平均密度作为这2个点所属簇的边界密度;
[0174] 步骤III、重复步骤II得到所有簇的多个边界密度;
[0175] 步骤IV、取每个簇中的最大边界密度作为这个簇最终的ρb(c)。
[0176] 具体的,参数α、β决定判据1的严格程度,α越小、β越大则模型依据判据1检测出的异常值越少;参数ω决定判据2的严格程度,ω越小则模型依据判据2检测出的异常值越少;基于双判据检测规则构建的异常用电检测模型将同时满足上述2个单一判据的点判定为异常点。
[0177] 具体的,本发明的异常用电检测模型由“特征构造—维度规约—聚类—异常检测”四部分构成,在聚类分析阶段,利用DPC聚类计算出每户所对应的密度ρi和距离δi,同时根据用户用电特性记将用户聚为几类。
[0178] 具体的,在异常检测阶段,引入双判据检测规则作为异常用电检测模型检测异常用电用户的检测标准。
[0179] 具体的,判据1,借助上一步骤聚类中每户所对应的密度ρi和距离δi,通过判据1的(c) (c)计算公式计算出每个簇的基准密度ρ0 和基准距离δ0 ,α、β是经验参数,需人工选取;遍历(c)
每个用电用户,当存在某个用户所对应的密度ρi小于基准密度ρ0 ,距离δi大于基准距离(c)
δ0 ,则判据1识别该用户为异常用户,并且将该户所对应的编号保存。
[0180] 具体的,判据2,同样借助上一步骤聚类中计算出的密度ρi和距离δi,通过判据2的(c)计算公式,计算出每个簇的边界密度ρb ,ω是经验参数,需人工选取;遍历每个用电用户,(c)
当存在某户自身所对应的密度ρi小于其所属簇的边界密度ρb ,则判据2识别该户1为异常用户,并且将该户所对应的编号保存。
[0181] 异常用电检测模型检测出的异常用电用户则是指被判据1和判据2同时检测为异常的用户。
[0182] 在一个实施例中,基于异常用电检测模型,输入低维投影特征集,输出异常用电检测结果,并利用模型评估指标评估输出包括以下步骤:
[0183] S31、将低维投影特征集输入异常用电检测模型,得到异常用电检测结果;
[0184] S32、基于异常用电检测结果,构建电力负荷异常检测混淆矩阵;
[0185] S33、基于电力负荷异常检测混淆矩阵,分别计算召回率、精确率、真阳率和假阳率,评估异常用电检测模型的检测效果。
[0186] 具体的,根据模型输出的输出异常用电检测结果,对异常用电检测模型效果评估,电力负荷的异常检测是一个类别不平衡的二分类问题,不能使用以准确度为依据的评价指标,本发明中异常用电检测模型的优劣采用受试者工作特征(receiver operating characteristic,ROC)曲线下方包围的面积(area under curve,AUC)来评价,它是一个可以同时反映分类模型检出率和精确率的综合指标,在本实施例中,为求取AUC,首先获取二分类器的混淆矩阵。
[0187] 具体的,混淆矩阵包含了一个二分类器所有可能的分类结果,如表2所示。
[0188] 表2电力负荷异常检测混淆矩阵
[0189]
[0190] 表2中字母T、F分别表示分类器分类结果的正确、错误,字母P、N分别表示分类器预测为异常、正常;TP、TN表示2种正确的分类结果,FP、FN表示2种错误的分类结果。
[0191] 具体的,基于混淆矩阵,计算异常用电检测模型的召回率R与精确率P,召回率R的计算表达式为:
[0192]
[0193] 式中,ATP表示分类器预测为异常实际也是异常的用户数量;AFN表示分类器预测为正常而实际是异常的用户数量;R表示正确检测出的异常数据个数占异常数据总数的比例,即检出率,召回率R越大,则分类器性能越好。
[0194] 精确率P的计算表达式为:
[0195]
[0196] 式中,AFP表示分类器预测为异常而实际是正常的用户数量;P表示正确检测出的异常数据个数占全部检测出的异常数据个数的比例,P越大则误检率越低,分类器性能越好。
[0197] 具体的,根据混淆矩阵可以计算分类器的真阳率(true positive rate,TPR)和假阳率(false positive rate,FPR),分别可以反映检出率和误检率,不同的阈值对应不同的TPR和FPR数值;ROC曲线以FPR为横轴、TPR为纵轴,反映了不同阈值下检出率和误检率之间的权衡,计算表达式为:
[0198]
[0199] 式中,ATN表示分类器预测为正常实际也是正常的用户数量,TPR的含义与召回率R相同;FPR表示分类器预测为异常而实际是正常的用户数量占所有正常用户的比例,可以反映分类器的误检率。
[0200] 具体的,AUC指标的取值范围为[0,1],表示ROC曲线与坐标横轴所围成的面积,AUC数值越大,ROC曲线就越靠近最佳分类点(0,1),分类效果越好。
[0201] 为了方便理解本发明的上述技术方案,以下对本发明进行具体说明如下:
[0202] 如图2所示,是本发明异常检测模型工作流程图;本发明首先对原始数据集进行数据处理,数据累加得到所有用电用户的日、月用电量数据集;然后,进行特征指标构造,特征归一化,再对该特征集用UMAP方法进行降维处理得到一个新特征集,从而将预处理后信息密度较低的高维日、月用电量数据集浓缩为一个信息密度较高的低维新特征集,以提高模型的计算效率并方便检测结果的可视化分析;最后,将得到的新特征集输入异常检测模型,在改进DPC聚类算法将所有用户分类后,根据异常值判据逐类别检测,并输出被模型预测为异常的用户编号。检测完成后,使用模型评估指标评价模型的检测效果。
[0203] 如图3‑图5所示,是本发明不同降维算法用户聚类效果图,本发明绘制了使用不同数据降维方法的低维特征三维空间结构图,如图所示,每个坐标轴都代表一个主成分,在这里,本技术方案发现不同的降维方法产生了截然不同的数据表现,PCA和LDA降维方法的数据中心发生了改变且数据结构的改变较大,数据结构拥挤,在低维空间中,PCA和LDA降维只能控制降维后数据的累计贡献率,不能保证数据的可视化和数据结构的变化情况;反观UMAP低维空间数据分布图,低维特征很好的保留了数据之间的结构关系,更有利于数据结构的保持,使高维空间中距离较远的数据在低维空间中也保持较远的距离(即最高的相似性),解决了数据拥挤问题,为后续聚类及异常检测提供了较好的特征数据。
[0204] 如图6‑图8所示,是本发明不同降维算法的聚类中心用户日用电量曲线图,一个簇的聚类中心可以表示簇内所有样本的总体特征,因此,将各类别聚类中心用户的用电量曲线作为对应类别的典型用电量曲线;调取UMAP、PCA和LDA模型所确定的聚类中心用户的日用电量数据,PCA模型确定的3类用户的典型日用电量曲线在大部分时间内相互交叉,不利于聚类算法的分簇;LDA模型确定的第1类用户的典型日用电量曲线和第2、3类用户的典型日用电量曲线只存在少部分交叉,较清晰,但第2、3类用户的典型日用电量曲线绝大多数时间内相互交叉,也不利于聚类算法的分簇,UMAP模型确定的3类用户的典型日用电量曲线大部分时间不存在交叉,3类用户的类别属性较为明确,有利于聚类算法的分簇以及模型的异常用户检测。
[0205] 如图9‑图11所示,是本发明不同降维算法下模型的异常检测结果图,通过图像观察,灰圈为双判据都诊断为异常的用户,灰点为实际异常用户,黑点为正常用户;可以发现,UMAP模型比PCA和LDA模型的灰色灰心圆圈更多且灰色空心圆圈更少,也就是说,UMAP模型比PCA和LDA模型的检出率更高,误检率更低;其次,本发明再次进行数据分析,分别计算三种不同降维算法的AUC值,PCA、LDA和UMAP的AUC值分别为0.8985、0.8461和0.9647,UMAP的AUC值远远高于PCA和LDA,综上可以得出结论,对于检测异常用户,UMAP降维模型效果优于PCA和LDA。
[0206] 如图12‑图14所示,是本发明3类用户在不同判据下模型检测结果图,在三维坐标图上,判据1检测第1类用户时会将处于聚类中心附近的正常用户误认为异常(如图12所示);判据2在检测第一类用户时,识别出的异常用户大多是用户所属簇边缘的点,识别效果较准确,所以得出判据2在识别第一类用户上的表现较好;如图13、图14所示,在三维坐标图上,判据2检测为异常用户的评判标准过于宽泛,导致在检测第2、3类用户时会将处于聚类边缘附近的正常用户误认为异常,同时也将少数处于聚类中心附近的正常用户误识别为异常用户,而判据1在识别第2、3类用户时,识别出的异常用户大多是用户所属簇边缘的点,识别效果较好;综上得出,2个单一判据面对不同类别的用户检测异常效果上各有利弊,双判据识别出的异常用户为图5中2个单一判据同时标记的用户,兼具2个单一判据的优势。
[0207] 如图15‑图17所示,是本发明不同判据参数对检测模型性能的影响图,为验证双判据在模型的不同参数内均有较好的表现,本发明采用控制变量法;在α0、β0、ω0的基础上,改变其中一个参数,保持另外2个参数不变,计算不同参数下模型的AUC指标;不合理的参数分别会导致判据1模型、判据2模型的AUC远低于最佳值,但3个参数的变动对双判据模型的AUC影响均很小;虽然面对不合理的参数,双判据的AUC值也有轻微下降,但仍然保持在较佳的水平同时远高于单一判据AUC值;可以得出结论,双异常值判据的设置使检测结果受参数变化的影响变小,增大了各参数的合理值区间,降低了参数的选取难度;此外,双判据模型异常检测的综合性能也优于单判据模型。
[0208] 综上所述,借助于本发明的上述技术方案,可以高效的保留电力负荷数据的局部和全局结构,有效提高聚类的效果;改进DPC聚类算法实现了全过程无监督,不受人工误差干扰,同时聚类效果远远优于传统DPC聚类算法;双判据检测规则的设置使检测结果受参数变化的影响变小,增大了各参数的合理值区间,降低了参数的选取难度;此外,异常用电检测模型的综合性能也优于单判据模型。
[0209] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页
相关技术
异常用电相关技术
检测方法相关技术
王艺博发明人的其他相关专利技术