技术领域
[0001] 本发明涉及数据安全技术领域,主要涉及一种终端数据访问行为异常检测方法和系统。
相关背景技术
[0002] 电网数据在源端和目的端之间频繁交互,面对不断复杂化和多变化的数据业务场景,不同业务类型和复杂数据流量使得异常访问行为难以及时发现,安全隐患也难以有效防范。因此,如何有效检测终端数据的访问行为成为解决电网数据安全难题的关键之一。
[0003] CN113468555A《一种客户端访问行为识别方法、系统及装置》公开了“一种客户端访问行为识别方法、系统及装置,该系统包括水平分类模型和层次分类模型;客户端访问行为的数据输入水平分类模型,得到大类特征向量,水平分类模型用于根据大类特征向量识别客户端访问行为的大类;多数类样本大类的大类特征向量输入层次分类模型,得到小类特征向量,层次分类模型用于根据小类特征向量识别客户端访问行为的小类;大类包括多数类样本大类和少数类样本大类,类型包括小类和少数类样本大类”,所述发明融合了多种机器学习方法,能在节省人工构建、更新和维护规则库的成本的前提下,实现较好的客户端访问行为的识别,但所述发明在数据预处理和特征提取上相对较简单,主要依赖于预定义的特征向量和分类模型,这可能导致在需要处理大规模、高维度数据时,模型的泛化能力不足,识别的效率和准确率无法达到用户的需求。因此,亟需一种适合处理数据复杂度高、模式不确定且具备高效率和准确度的访问行为检测方法。
具体实施方式
[0038] 下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0039] 本发明提供以下技术方案:一种终端数据访问行为异常检测方法和系统。
[0040] 实施例1
[0041] 本实施例提供了一种终端数据访问行为异常检测方法,所述方法包括:
[0042] S1、采集用户终端数据,所述用户终端数据包括正常类别和异常类别的访问行为数据;
[0043] 所述访问行为数据包括访问频率、访问位置、访问行为模式、访问设备信息和访问IP地址等数据;
[0044] S2、对所述用户终端数据进行数据预处理,获得数据预处理后的用户终端数据;
[0045] 所述数据预处理包括检测数据中的缺失值和异常值并进行处理,并对筛选后获得的数据进行标准化和归一化处理;
[0046] 更近一步地,所述数据缺失值处理采用插值方法进行填充;所述数据异常值处理采用平滑处理方法;所述数据标准化处理采用Z‑score标准化方法;所述数据标归一化处理采用Logistic函数方法;
[0047] S3、利用PCA主成分分析法对数据预处理后的用户终端数据进行特征提取和降维处理,获得主成分作为最终特征;
[0048] 具体步骤包括:
[0049] 计算数据预处理后的用户终端数据变量之间的协方差矩阵,矩阵反映了各个变量之间的线性相关性;
[0050] 对所述协方差矩阵进行特征值分解,获得特征值和对应的特征向量,特征值表示数据中的方差大小,特征向量表示数据在特征空间的方向;
[0051] 根据特征值的大小排序,选择前k个特征值对应的特征向量构成投影矩阵,通常选择保留累积贡献率达到一定阈值(如95%)的特征值;
[0052] 使用投影矩阵将用户终端数据转换到所选的主成分空间中,生成主成分,所述主成分为用户终端数据特征的线性组合;
[0053] 舍弃方差较小的主成分,降低数据维度,将最终剩余主成分作为最终特征,构建最终特征数据集;
[0054] S4、构建鲁棒性随机分割森林‑双向长短期记忆‑多头注意力机制RRCF‑BiLSTM‑Multihead Attention组合模型,将所述最终特征作为输入,访问行为数据对应类别作为输出,训练所述RRCF‑BiLSTM‑Multihead Attention组合模型,并将训练完成的RRCF‑BiLSTM‑Multihead Attention组合模型作为终端数据访问行为异常发现模型;
[0055] S41、所述鲁棒性随机分割森林‑双向长短期记忆‑多头注意力机制RRCF‑BiLSTM‑Multihead Attention组合模型包括RRCF模块和BiLSTM‑Multihead Attention模型,RRCF模块旨在通过多个随机分割器的集成来提取输入数据的关键特征,每个随机分割器独立处理输入数据的不同方面,例如局部模式、频率变化或者时间间隔,这种多样性的处理有助于提升模型对复杂数据分布的鲁棒性;每个随机分割器生成的特征子集都被集成到后续模型中,从而形成一个综合的、对噪声具有鲁棒性的序列表示。通过RRCF模块作为前置模块,模型能够更有效地处理来自不同来源和环境的数据,提高在变化和不确定性环境下的性能表现,本实施例中,所述RRCF模块为若干随机分割器的集成,用于进行特征处理,所述特征处理具体步骤包括:
[0056] 通过所述随机分割器随机选择最终特征数据集中任一特征和一切分阈值,所述切分阈值为最大值和最小值之间的值,将最终特征数据集根据切分阈值分为两部分,包括小于或等于切分阈值部分和大于切分阈值部分;
[0057] 通过若干随机分割器对最终特征数据集的随机切分,递归地构建多叉树,直至达到最大树深度或者节点中最终特征数低于预设阈值;
[0058] 计算每个最终特征在每棵树中到达叶节点所经过的路径长度,优选的,路径长度的期望值受到分割次数和最终特征点之间的距离的影响,具体地说,路径长度的期望值可以表示为(分割次数·最终特征点之间的距离),其中分割次数是特征点在树上被分割的次数的期望,这个期望路径长度与异常点的概念相关联,因为异常点往往具有与其他点不同的路径长度;
[0059] 通过所述路径长度计算每个最终特征的平均路径长度,优选的,预期大多数正常点的路径长度应接近于(分割次数·最终特征点之间的距离)的期望值,而异常点通常因为其路径长度明显偏离正常点而被标记为异常,因此,设定一个异常阈值,如果某个最终特征的平均路径长度超过这个阈值,就会被判定为异常点,通过对这些数据集中的异常点进行标记,获得输入特征集;
[0060] S42、双向长短期神经网络BiLSTM用于捕捉时序数据中的长期和短期依赖关系,相较于单向的神经网络,BiLSTM结合了正向和反向两个方向的信息流,这种双向结构允许模型同时学习和利用输入序列中不同时间步的上下文信息。通过模型中的BiLSTM能够有效地捕捉数据中复杂的时间动态和依赖关系,从而提升对数据的建模能力;
[0061] 而多头注意力机制Multihead Attention能够增强模型对输入序列中重要部分的关注和处理能力,多头注意力机制允许模型并行计算多个注意力头,每个头专注于数据的不同方面或特征。通过这种并行处理,模型能够同时捕捉序列中的多个关键方面,如语义信息、局部模式或者长距离依赖关系,而无需显式地将它们耦合在一起;每个注意力头生成的加权输出被整合成最终的状态表示,从而使模型能够更全面地理解和利用输入数据的信息;
[0062] 在本实施例中,所述BiLSTM和Multihead Attention构成了BiLSTM‑Multihead Attention模型,所述BiLSTM‑Multihead Attention模型包括输入层、BiLSTM层、Multihead Attention层、全连接层和输出层,其中:
[0063] 所述输入层将输入特征集作为BiLSTM‑Multihead Attention模型的输入;所述BiLSTM层利用BiLSTM对输入特征集进行隐藏状态提取,所述隐藏状态包含局部时间信息和双向语境信息,并输出所述隐藏状态至Multihead Attention层;所述Multihead Attention层通过多个注意力头分别计算每个隐藏状态的注意力得分,为BiLSTM层输出的隐藏状态进行加权,结合隐藏状态和对应权值输出加权隐藏状态表示;所述全连接层用于组合Multihead Attention层输出的加权隐藏状态表示,并映射至用户终端访问行为对应类别;所述输出层用于输出用户终端访问行为对应类别;
[0064] 优选的,获得加权隐藏状态表示以公式表达为:
[0065]
[0066] 式中,Q、K、V分别表示查询、键和值的矩阵,dk为注意力头的维度,T为数据数量;
[0067] S5、获取待分析用户终端的最终特征,利用所述终端数据访问行为异常发现模型对待分析用户终端的访问行为进行检测;
[0068] 实施例2
[0069] 本实施例提供了一种终端数据访问行为异常检测系统,所述系统包括数据获取单元、数据处理单元、行为检测单元和输出单元,其中:
[0070] 所述数据获取单元用于采集待分析用户终端的访问行为数据,并将所述访问行为数据传输至数据处理单元;
[0071] 所述数据处理单元用于对所述用户终端数据进行数据预处理,获得数据预处理后的用户终端数据,并利用内置的PCA主成分分析法对数据预处理后的用户终端数据进行特征提取和降维处理,获得主成分作为最终特征,并传输最终特征至行为检测单元;
[0072] 所述行为检测单元通过将最终特征输入内置的终端数据访问行为异常发现模型,所述终端数据访问行为异常发现模型为训练完成的鲁棒性随机分割森林‑双向长短期记忆‑多头注意力机制RRCF‑BiLSTM‑Multihead Attention组合模型,获得访问行为数据对应类别,根据所述访问行为数据对应类别输出用户终端的访问行为检测结果至输出单元;
[0073] 所述输出单元用于显示用户终端访问行为检测结果。
[0074] 优选的,所述鲁棒性随机分割森林‑双向长短期记忆‑多头注意力机制RRCF‑BiLSTM‑Multihead Attention组合模型包括RRCF模块和BiLSTM‑Multihead Attention模型,所述RRCF模块为若干随机分割器的集成,用于进行特征处理,去除最终特征数据集中的异常点,获得输入特征集;所述BiLSTM‑Multihead Attention模型包括输入层、BiLSTM层、Multihead Attention层、全连接层和输出层,其中:
[0075] 所述输入层将输入特征集作为BiLSTM‑Multihead Attention模型的输入;所述BiLSTM层利用BiLSTM对输入特征集进行隐藏状态提取,所述隐藏状态包含局部时间信息和双向语境信息,并输出所述隐藏状态至Multihead Attention层;所述Multihead Attention层通过多个注意力头分别计算每个隐藏状态的注意力得分,为BiLSTM层输出的隐藏状态进行加权,结合隐藏状态和对应权值输出加权隐藏状态表示;所述全连接层用于组合Multihead Attention层输出的加权隐藏状态表示,并映射至用户终端访问行为对应类别;所述输出层用于输出用户终端访问行为对应类别。
[0076] 实施例3
[0077] 本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例1所述的一种终端数据访问行为异常检测方法。
[0078] 实施例4
[0079] 本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例1所述的一种终端数据访问行为异常检测方法。
[0080] 值得说明的是,本发明所述系统、电子设备和计算机可读存储介质,均与本发明实施例1的方法基于相同的发明构思,在此不再赘述。
[0081] 以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
[0082] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0083] 可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。