首页 / 一种基于大模型的告警数据分析方法

一种基于大模型的告警数据分析方法实质审查 发明

技术领域

[0001] 本发明涉及数据安全技术领域,具体涉及一种基于大模型的告警数据分析方法。

相关背景技术

[0002] 大模型通常指的是一个复杂的,参数数量庞大的机器学习模型,可用于处理大规模的数据集,因此在告警数据的识别与分析中展现出巨大潜力,对于提升数据安全的管理效率至关重要。告警数据通常具有多样性和复杂性,涵盖了从网络流量到系统日志的各种信息,在对告警数据分析时,由于告警数据的多样性和复杂性,为了提高大模型对告警数据的准确分类和预测能力,需要在大量的告警数据中提取出关键信息,因此需要对大量的告警数据进行降维分析。
[0003] 现有技术在对数据进行降维时,通常利用主成分分析方法对数据进行降维,得到降维结果,但是由于告警数据的类型不同,其中包含的信息也不尽相同,且会存在大量相似以及不具代表性的信息,因此在利用主成分分析方法进行降维时,会影响到关键特征的提取,进而影响到模型的训练准确度。

具体实施方式

[0043] 为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大模型的告警数据分析方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0044] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0045] 下面结合附图具体的说明本发明所提供的一种基于大模型的告警数据分析方法的具体方案。
[0046] 请参阅图1,其示出了本发明一个实施例提供的一种基于大模型的告警数据分析方法的方法流程图,该方法包括以下步骤:
[0047] 步骤S1:获取多条告警数据,且每条告警数据中包含多种类型的数据;对所有告警数据中的每种类型的数据进行向量转化,得到所有告警数据对应的初始协方差矩阵。
[0048] 在企业IT基础架构中,在对各种设备和服务的运行状态进行监控时,一旦出现故障或异常,就会生成告警数据。在网络安全领域,当出现潜在的网络攻击、恶意行为或异常流量时,也会产生告警数据。在工业自动化领域,当生产线上的设备、传感器和控制系统出现异常时,同样会产生告警数据。
[0049] 而随着企业规模的扩大和数字化程度的提高,告警数据量呈指数级增长,而大模型通常指的是一个复杂的,参数数量庞大的机器学习模型,可用于处理大规模的数据集,所以可将其应用于告警数据的识别与分析中。由于告警数据的多样性和复杂性,其中会存在冗余信息;为了提高大模型对告警数据的准确分类和预测能力,提升数据安全的保障水平,所以需要对大量的告警数据进行降维处理,用于提取主要的数据特征。
[0050] 首先获取多条告警数据,且每条告警数据中通常会包含多种类型的数据,例如:告警开始时间、告警结束时间、告警持续时长、告警次数、设备ID、告警级别、错误代码、告警内容、相关用户、告警ID等等。
[0051] 需要说明的是,上述告警数据的获取方式可以通过网络监控设备、数据库监控工具、安全监控设备等进行获取,具体获取方式可根据实施场景进行调整,在此不做限定;且告警数据的采集与获取均经过了相关用户授权,其过程不违反相关法律法规,且不违背公序良俗。
[0052] 在获取到多条告警数据后,由于每条告警数据中包含了多个维度,且本发明该实施例中后续过程利用主成分分析方法进行降维,用于提取特征数据,而数据又具有不同的格式,例如告警开始时间、告警结束时间、告警持续时长、告警次数属于数值型的数据;设备ID、告警级别、告警ID属于分类型的数据;错误代码、告警内容、相关用户则属于文本型的数据,所以需要对所有告警数据中的不同类型格式的数据进行向量转化,从而得到初始协方差矩阵,这是主成分分析方法中的必要步骤和准备工作。
[0053] 在本发明该实施例中,举例列出了告警数据中10种常见的类型,其可以视为10个维度,若告警数据也为10条,则每个维度下就存在10组数据,对于数值型的数据,可以使用归一化处理的方法将数值型数据指定固定范围,那么对于数值型的数据,其每个维度都对应一个列向量,列向量中的元素值为转化后的数值;对于分类型的数据,可以使用独热编码将其转换为二进制向量数据,对于文本型的数据,则可以使用词嵌入向量将其转化为向量数据,需要说明的是,由于文本型的数据和分类型的数据在进行向量转化时,长度可能不局限于一个元素值,因此属于文本型的数据维度以及分类型的数据维度对应的向量可能具有多个列向量,例如,某条告警数据的告警内容转化后的向量为[1,2,1,1],那么所有的告警数据中告警内容这个维度转化后的向量就存在四个列向量。将得到的所有列向量进行标准化处理,从而计算可以得到标准化后的向量对应的初始协方差矩阵。
[0054] 需要说明的是,在对数据进行处理时使用的归一化方法、独热编码、词嵌入向量均为本领域技术人员熟知的技术手段,在此不作过多赘述;计算初始协方差矩阵为主成分分析方法中的一部分,也为本领域技术人员熟知的技术手段,在此不作赘述;上述举例的10种常见的数据类型,仅用作举例说明,在本发明其他实施例中,也可根据实际情况进行增加或者减少,在此不做限定。
[0055] 步骤S2:对初始协方差矩阵进行区域划分,得到所有的初始区域块;对于任意一个初始区域块,分析该初始区域块中元素值之间的差异、随机性以及位置分布之间的关系,得到该初始区域块的保留特征值;根据所有初始区域块的保留特征值,区分低保留度区域块和高保留度区域块。
[0056] 矩阵不同特征值对应的特征向量是线性无关的,这样就能保证完全提取出矩阵内的数据特征。而当矩阵中相似的值较多时,矩阵内的元素值自身的线性相关性就比较高,那么此时提取出的特征值大部分都相等,此时得到的矩阵特征向量基本都是线性相关的,则矩阵内的数据特征就不能完全被提取出,所以为了保证或者说降低元素之间的相关性,进而增加不相等的特征值,提取出矩阵内数据的更多特征,需要对数据进行调整。
[0057] 首先需要先找出不具备数据特征的数据,不具备数据特征的数据应当是与其他数据具有较高的相似性,那么这种数据往往更容易被替代,所以本发明该实施例中,从初始协方差矩阵的局部区域出发,分析元素值之间的差异性,从而评价元素值的保留程度,也就是其是否具备数据特征。
[0058] 优选地,本发明一个实施例中,对初始协方差矩阵进行区域划分,得到所有的初始区域块,包括:
[0059] 将初始协方差矩阵均匀划分为预设第一数量个初始区域块,此时初始协方差矩阵中每个元素值都处于一个初始区域块中。需要说明的是,在本发明该实施例中,预设第一数量设置为4,具体数值不做限定,可根据实际情况进行调整。
[0060] 基于上述方法可以将初始协方差矩阵进行划分,得到若干个初始区域块,进而可以对每个初始区域块中的元素值进行分析,评价其保留程度,主要从初始区域块中元素值之间的差异、随机性以及位置分布入手,得到初始区域块的保留特征值。
[0061] 优选地,本发明一个实施例中,保留特征值的获取方法包括:
[0062] 请参阅图2,其示出了本发明一个实施例提供的一种保留特征值的获取方法的方法流程图,该方法包括以下步骤:
[0063] 步骤S201:对于任意一个初始区域块,分析该初始区域块中所有元素值的分布随机性,得到该初始区域块对应的随机性特征值。
[0064] 在步骤S1中,每个维度的数据均为列向量,因此每个初始区域块中的元素值应该会来自不同的维度,即使来自同一维度,如文本型的数据,那么其中不同列的元素值也表征了文本中的不同字符,所以初始区域块中的元素值的数值分布应该呈现出较大的随机性,而熵可以用于衡量随机变量的不确定性或者随机性,通过计算该初始区域块中所有元素值的熵,能够量化的评估该初始区域块中元素值的分布随机性,所以对于任意一个初始区域块,将该初始区域块中所有元素值的熵值作为随机性特征值,记作SJ。
[0065] 其中,熵值越大,说明元素值的分布越均匀,元素值出现的概率越接近,该初始区域块内元素的随机性越高,可视为该初始区域块中的元素值之间的重复性较低;反之,熵值越小,说明元素值的分布较为集中,元素值出现的概率差异较大,该初始区域块中的元素值的相似性较高。
[0066] 步骤S202:分析该初始区域块中元素值之间的差异以及位置分布特征,计算该初始区域块的保留因子。
[0067] 为了更加细致的分析该初始区域块中元素值之间的相似情况,可以将该初始区域块中的所有元素值进行两两组合,得到所有不重复的元素值组合,例如元素值为4个,分别记作元素值1、元素值2、元素值3以及元素值4,则所有的元素值组合包括:(元素值1,元素值2)、(元素值1、元素值3)、(元素值1,元素值4)、(元素值2,元素值3)、(元素值2,元素值4)、(元素值3,元素值4)。对于任意一个元素值组合,计算两个元素值之间的差异,作为差异因子,差异因子反映了元素值之间的实际差异,用于表征相似情况,计算两个元素值位置上的欧式距离,作为距离因子,距离因子则体现了元素值在初始区域块中的相对位置。
[0068] 结合元素值之间的差异因子以及距离因子,可以更全面的评估两个元素值之间的相似情况。所以根据差异因子和距离因子得到两个元素值的重要性得分,重要性得分和差异因子呈正相关,重要性得分和距离因子呈负相关,且重要性得分的取值为归一化后的数值。
[0069] 最后将该初始区域块中所有元素值组合对应的重要性得分的均值,作为该初始区域块的保留因子。
[0070] 其中,正相关关系表示因变量会随着自变量的增大而增大,因变量会随着自变量的减小而减小,具体关系可以为相乘关系、相加关系、指数函数的幂等,由实际应用进行确定;负相关关系表示因变量会随着自变量的增大而减小,因变量会随着自变量的减小而增大,可以为相减关系、相除关系等,由实际应用进行确定。保留因子的公式模型具体可以例如为:
[0071]
[0072] 其中,BYi表示第i个初始区域块的保留因子;Ri表示第i个初始区域块中的元素值组合数; 表示第j个元素值组合中的第1个元素值; 表示第j个元素值组合中的第2个元素值;dj表示第j个元素值组合中两个元素值之间的距离因子;norm()表示归一化函数;γ1表示预设第一参数。
[0073] 在保留因子的公式模型中,对于任意一个元素值组合,计算两个元素值之间的差异,作为差异因子 该值越大,说明两个元素值之间相差越大,视为相似性较低,那么这类数据更应该被保留下来,因为其在大量的数据中更加具有不可替代性,更能作为特征数据,反之,该值越小,说明两个元素值之间相差较小,视为相似性较高,说明这种数据更容易被替代,存在的价值较小,为特征数据的可能性较低。然后计算两个元素值之间的距离因子dj,距离因子的计算方法也就是两个元素值位置上的欧式距离,具体可以以初始区域块的左下角为原点,水平向右方向为横轴,竖直向上方向为纵轴,建立二维坐标系,此时初始区域块中的每个元素值都具有一个形如(x,y)的二维坐标,请参阅图3,其示出了二维坐标系的示意图,其中,元素值p的坐标为(3,3)。当两个元素值之间的距离因子越小时,那么计算出来的差异因子的可信度就会更高,反之则可信度较低,所以将距离因子作为分母部分,将差异因子作为分子部分,并将比值进行归一化处理,得到两个元素值的重要性得分该值越大,说明这两个元素值的保留程度应该越高。然后将所有元素值组合对应的重要性得分进行累加求均,所得均值作为该初始区域块的保留因子,且保留因子越大,说明该初始区域块中的元素值之间的相似程度较低,更可能是特征数据,应该被保留下来。
[0074] 需要说明的是,预设第一参数γ1的作用为防止分母为0,在此可取值为0.001,具体数值可根据实际情况进行调整,在此不做限定。
[0075] 步骤S203:根据该初始区域块的随机性特征值以及保留因子,得到该初始区域块的保留特征值。
[0076] 步骤S201中计算出来的随机性特征值可用于衡量初始区域块中元素值的分布随机性,步骤S202中计算出来的保留因子则评价了初始区域块中元素值之间的相似性以及位置分布特征,故在此,可将二者进行结合,量化初始区域块中元素值的保留程度,得到初始区域块的保留特征值;其中保留因子以及随机性特征值均与保留特征值呈正相关,且保留特征值的取值为归一化后的数值。保留特征值的公式模型具体可以例如为:
[0077] BTi=norm(SJi×BYi)
[0078] 其中,BTi表示第i个初始区域块的保留特征值;SJi表示第i个初始区域块的随机性特征值;BYi表示第i个初始区域块的保留因子;norm()表示归一化函数。
[0079] 在保留特征值的公式模型中,由于初始区域块的随机性特征值越大,说明该初始区域块内元素值的随机性越高,可视为该初始区域块中的元素值之间的重复性较低;保留因子越大,说明该初始区域块中的元素值之间的相似程度较低,更可能是特征数据,应该被保留下来,所以二者相乘,并将所得乘积进行归一化处理,从而得到该初始区域块的保留特征值。
[0080] 由于保留因子以及随机性特征值均与保留特征值呈正相关,因此在本发明其他实施例中,也构建如下保留特征值的公式模型:
[0081] BTi=norm(SJi+BYi)
[0082] 其中,BTi表示第i个初始区域块的保留特征值;SJi表示第i个初始区域块的随机性特征值;BYi表示第i个初始区域块的保留因子;norm()表示归一化函数。
[0083] 在该公式模型中,同样的,初始区域块的随机性特征值越大,说明该初始区域块内元素值的随机性越高,可视为该初始区域块中的元素值之间的重复性较低;保留因子越大,说明该初始区域块中的元素值之间的相似程度较低,更可能是特征数据,应该被保留下来,所以二者相加,并将所得和值进行归一化处理,从而得到该初始区域块的保留特征值。
[0084] 至此,通过上述过程可以得到每个初始区域块的保留特征值,且保留特征值越大,说明这个初始区域块中的元素值之间的相似性越低,其中隐含的特征数据就会更多,更应该被保留下来作为后续降维的主体部分,而对于保留程度较低的初始区域块中的元素值,因为其相似程度较高,信息冗余度较大,因此可以在后续过程中对其进行优化,降低这部分元素值对降维结果的影响。
[0085] 优选地,本发明一个实施例中,基于保留特征值对所有的初始区域块进行区分,得到低保留度区域块和高保留度区域块,包括:
[0086] 将大于或等于预设保留阈值的保留特征值对应的初始区域块,作为高保留度区域块;将小于预设保留阈值的保留特征值对应的初始区域块,作为低保留度区域块。
[0087] 需要说明的是,由于保留特征值的取值为归一化后的数值,而保留阈值是对初始区域块进行保留程度的区分,筛选出低保留度区域块,便于后续对其中元素值进行调整优化而设置的阈值,故其取值范围可以在0‑1之间,且取值越大说明低保留度区域块和低保留度区域块之间的区分标准越严格,故在该实施例中优选地将预设保留阈值设置为0.85,在本发明其他实施例中可根据实施场景进行调整,在此不做限定。
[0088] 步骤S3:确定每个低保留度区域块中每个元素值的邻域块;对于任意一个低保留度区域块中的任意一个元素值,根据该元素值对应的邻域块中的元素值之间的差异、以及对应邻域块中元素值之间的数值波动情况,得到该元素值的去重复性得分;根据该元素值的去重复性得分对该元素值进行调整,得到更新值。
[0089] 在上述步骤中,可以筛选出低保留度区域块,低保留度区域块中的元素值的相似性会较高,其可替代性较大,且由于元素值重复性较高,导致具备的数据特征较少,所以可以对这种数据进行优化,从而使得初始协方差矩阵中的元素值彼此之间重复性降低,由此可以在后续降维过程中得到更多的特征数据。
[0090] 首先,确定每个低保留度区域块中每个元素值的邻域块,确定邻域块的目的在于更进一步地分析元素值与其周围元素值之间的关系,从而分析元素值之间的重复性,用于后续的数值调整过程中。
[0091] 优选地,在本发明一个实施例中,确定每个低保留度区域块中每个元素值的邻域块,包括:
[0092] 以每个元素值为中心,将预设方向上相邻最近的预设第二数量个元素值作为邻域元素值,将中心元素值与对应的邻域元素值构成的区域作为中心元素值对应的邻域块。由于每个维度都具备了列向量,所以在分析元素之间的重复性时,优先考虑元素在列向量上的重复性。故在此,将预设方向设置为竖直方向,将预设第二数量设置为4,具体数值的设置可根据实施场景进行调整,在此不做限定。以元素值q为例,q1、q2、q3、q4均为元素值q的邻域元素值,请参阅图4,其示出了本发明一个实施例提供的一种邻域块的示意图。
[0093] 此时,每个低保留度区域块中的每个元素值都有对应的邻域块,进而可以在邻域块中,分析元素值之间的重复性,重复性主要由元素值之间的差异以及元素值的数值波动情况进行表征,重复性越高,那么去重复性得分就相应的会越高,越需要对这种元素值进行调整,避免影响后续的降维结果。
[0094] 优选地,本发明一个实施例中,去重复性得分的获取方法包括:
[0095] 请参阅图5,其示出了本发明一个实施例提供的一种去重复性得分的获取方法的方法流程图,该方法包括以下步骤:
[0096] 步骤S301:基于邻域块中元素值之间的差异情况,得到中心元素值的第一重复因子。
[0097] 对于任意一个低保留度区域块中的任意一个元素值,将该元素值与对应的每个邻域元素值之间的数值差异作为该元素值的差异系数。
[0098] 然后将该元素值对应的所有差异系数的均值进行负相关映射并归一化后的值,作为第一重复因子。以元素值a为例,第一重复因子的公式模型具体可以例如为:
[0099]
[0100] 其中,CFa表示元素值a的第一重复因子;Na表示元素值a的邻域元素值总数;ga表示元素值a; 表示元素值a的第k个邻域元素值;exp()表示以自然常数e为底的指数函数。
[0101] 在第一重复因子的公式模型中,计算元素值与对应的邻域元素值之间的差异,作为差异系数 当该值越大时,说明元素之间的重复性较低,反之,该值越小,且等于0时,说明元素发生了重复,将元素值对应的所有差异系数进行求均后进行负相关映射并归一化,得到第一重复因子。当元素值与其邻域元素值之间的重复性越高,也就是差异系数为
0的情况越多,那么第一重复因子的值就会越大,就越需要对这种元素值进行调整,从而降低协方差矩阵中元素之间的重复性,提高后续提取特征数据的准确度。
[0102] 步骤S302:基于邻域块中元素值之间的波动情况,确定中心元素值的第二重复因子。
[0103] 在该低保留度区域块中,计算该元素值所在邻域块中所有元素值的均值,作为均值特征值,将该元素值与均值特征值之间的差异,作为偏差值;根据该元素值与对应的偏差值得到该元素值对应的第二重复因子,且偏差值与该元素值均与第二重复因子呈负相关。第二重复因子的公式模型具体可以例如为:
[0104]
[0105] 其中,CFa′表示元素值a的第二重复因子;ga表示元素值a; 表示元素值a对应的均值特征值;γ2表示预设第二参数。
[0106] 在第二重复因子的公式模型中,将邻域块中所有元素值的均值作为均值特征值,该均值特征值表征了该邻域块中所有元素值的平均水平,然后计算中心元素值与该均值特征值之间的差异,作为偏差值 偏差值越大,说明中心元素值在对应的邻域块中,与元素值的整体水平相差较大,那么在一定程度上可以表征出重复性越低,反之,偏差值越小,说明中心元素值与元素值的整体水平较为接近,则视为出现重复的概率较高,所以将偏差值作为了分母部分,用于调整逻辑关系;当元素值越接近0时,视为其包含特征较少,也需要进行后续的调整,所以将元素值也放在分母部分,最终得到第二重复因子,且第二重复因子越大,越需要对元素值进行调整,用于降低元素值之间的重复性。
[0107] 需要说明的是,预设第二参数γ2的作用为防止分母为0,在此可取值为0.001,具体数值可根据实际情况进行调整,在此不做限定。
[0108] 步骤S303:将中心元素值的第一重复因子和第二重复因子进行融合,得到中心元素值的去重复性得分。
[0109] 将该元素值的第一重复因子和第二重复因子的乘积进行归一化处理,得到该元素值的去重复性得分。去重复性得分的公式模型具体可以例如为:
[0110] QCa=norm(CFa×CFa′)
[0111] 其中,QCa表示元素值a的去重复性得分;CFa表示元素值a的第一重复因子;CFa′表示元素值a的第二重复因子;norm()表示归一化函数。
[0112] 在去重复性得分的公式模型中,由于第一重复因子越大,就越需要对这种元素值进行调整;同样的,第二重复因子越大,越需要对元素值进行调整,用于降低元素值之间的重复性从而降低协方差矩阵中元素之间的重复性,提高后续提取特征数据的准确度,所以将第一重复因子与第二重复因子相乘,并将所得乘积进行归一化处理后的值作为元素值的去重复性得分。
[0113] 在本发明其他实施例中,也可构建如下去重复性得分的公式模型:
[0114] QCa=norm(CFa+CFa′)
[0115] 其中,QCa表示元素值a的去重复性得分;CFa表示元素值a的第一重复因子;CFa′表示元素值a的第二重复因子;norm()表示归一化函数。
[0116] 在该公式模型中,由于第一重复因子越大,就越需要对这种元素值进行调整;同样的,第二重复因子越大,越需要对元素值进行调整,用于降低元素值之间的重复性从而降低协方差矩阵中元素之间的重复性,提高后续提取特征数据的准确度,所以将第一重复因子与第二重复因子相加,并将所得和值进行归一化处理后的值作为元素值的去重复性得分。
[0117] 基于上述过程可以得到任意一个低保留度区域块中的任意一个元素值的去重复性得分,然后可以基于这种元素值的去重复性得分对元素值进行调整,得到更新值。
[0118] 优选地,本发明一个实施例中,更新值的获取方法包括:
[0119] 对于任意一个低保留度区域块中的任意一个元素值,将该元素值的去重复性得分与预设常数的和值作为调整权重。
[0120] 基于每个元素值对应的调整权重对元素值进行加权调整,得到每个元素值对应的更新值。以元素值a为例,更新值的公式模型具体可以例如为:
[0121] GXa=ga×*α+QCa+
[0122] 其中,GXa表示元素值a的更新值;ga表示元素值a;QCa表示元素值a的去重复性得分;α表示预设常数。
[0123] 在更新值的公式模型中,在去重复性得分的计算过程中,由于考虑了元素值与0的接近情况,且当元素值越接近于0,元素值的去重复性得分会越大,所以在对元素值进行调整时,应当调大的程度也会相应的更大,反之,若元素值越远离0,则元素值的去重复性得分会较小,那么调整的程度也会相应的小一些,故将去重复性得分与预设常数的和值作为调整权重α+QCa,且在本发明该实施例中,为了保证调整后的更新值与未调整时的元素值相差太大,所以在此将预设常数α设置为1,最后将调整权重与元素值的乘积作为更新值。
[0124] 至此,基于上述方法可以得到所有低保留区域块中每个元素值对应的更新值。
[0125] 步骤S4:根据所有低保留度区域块中的各个元素值对应的更新值以及高保留度区域块中的元素值,得到更新协方差矩阵;对更新协方差矩阵进行主成分分析,得到降维结果进行模型训练。
[0126] 低保留度区域块中的元素值经过调整,得到的更新值此时会具有较低的重复性,也就会隐含着更多的特征信息,所以可以根据低保留度区域块中的各个元素值对应的更新值,以及原本就包含着更多特征信息的高保留度区域块中的元素值,对初始协方差矩阵进行更新,得到更新协方差矩阵。
[0127] 优选地,本发明一个实施例中,更新协方差矩阵的获取方法包括:
[0128] 将所有低保留度区域块中的元素值替换为对应的更新值,所有高保留度区域块中的元素值不变,得到更新协方差矩阵。
[0129] 在得到更新协方差矩阵之后,此时的更新协方差矩阵可以提取出更多的特征数据,所以对更新协方差矩阵进行后续的主成分分析过程,得到降维结果。主成分分析是一种常用的降维技术,它可以将高维数据投影到低维空间,同时保留数据中的主要变化方向。在这个过程中,对更新协方差矩阵进行特征值分解,得到一系列的主成分(即特征向量)和对应的方差(即特征值)。需要说明的是,主成分分析方法为本领域技术人员熟知的技术手段,在此不作过多赘述。
[0130] 降维后的告警数据不仅维度降低,而且保留了原始数据中的主要变化信息,这使得大模型能够更高效地处理数据。将降维后的数据作为大模型的输入,训练模型对告警数据进行分类、聚类或异常检测。降维后的数据能够更好地适应大模型的训练需求,使得模型能够更快地收敛并达到更好的性能。同时,降维还有助于减少模型的复杂性和过拟合风险,提高模型的泛化能力。
[0131] 需要说明的是,为了方便运算,本发明实施例中所参与运算的所有指标数据均经过数据预处理,进而取消量纲影响。具体去量纲影响的手段为本领域技术人员熟知的技术手段,在此不做限定。
[0132] 本发明实施例还提供一种与前述实施方式所提供的方法相对应的计算机可读存储介质,请参阅图6,其示出的存储介质为光盘,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
[0133] 需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型有的随机存取存储器(RAM)、只读存储器(ROM)、其他光学、磁性存储介质,在此不做一一赘述。
[0134] 综上所述,本发明实施例针对在对大量的告警数据进行降维分析,提取主要成分时,由于告警数据存在重复性等特征,导致降维结果可信度低的问题,首先获取大量的告警数据,并且每条告警数据中均会包含多种类型的数据,例如数值型、文本型等,然后依据数据的类型选择不同的向量转化方式,从而可以得到主成分分析过程中的初始协方差矩阵。由于大量的告警数据会存在相似性的特征,所以此时初始协方差矩阵中会存在大量的相似的元素值,从而会使得最终提取的特征向量具有较强的相关性,那么告警数据中的关键数据特征就不能被完全提出,所以需要对初始协方差矩阵中的元素值进行调整。将初始协方差矩阵进行区域划分,得到初始区域块,由于与其他数据具有显著差异的数据应当具有更高的研究价值,也就是其应该是特征数据,所以对于每个初始区域块,分析其中元素值之间的差异以及位置分布,得到保留特征值用于区分低保留度区域块和高保留度区域块,其中低保留度区域块中的数据就是非特征数据。对于低保留度区域块中的数据,因为其中数据重复度较高,因此数据的稀疏性相对会增强,为了使其在后续降维过程中降低这部分数据的影响,需要对其进行数值调整:对于任意一个低保留度区域块中的任意一个元素值,根据该元素值对应的邻域块中的元素值之间的差异、以及对应邻域块中元素值之间的数值波动情况,得到该元素值的去重复性得分;并根据该元素值的去重复性得分对该元素值进行调整,得到更新值,此时调整后的低保留度区域中的数据重复性会降低,因而可以降低这部分非特征数据对后续降维过程的影响。故在初始协方差矩阵中,将更新值替换掉对应的元素值,然后继续进行后续的主成分降维过程,得到降维结果,此时的降维结果由于消除了数据的,所以更能代表告警数据的关键特征,从而再利用降维结果进行模型的训练时,准确度也会得到提高。
[0135] 需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0136] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

当前第1页 第1页 第2页 第3页