一种面向高级持续性威胁的端边协同防御优化部署方法

一种面向高级持续性威胁的端边协同防御优化部署方法实质审查发明

技术领域

[0001] 本申请涉及网络攻防安全领域，更具体地，涉及一种面向高级持续性威胁的端边协同防御优化部署方法。

具体实施方式

[0046] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0047] 应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

[0048] 应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

[0049] 术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

[0050] 术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

[0051] 实施例一：

[0052] 为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例，并参照附图1，对本发明的技术方案进行清楚、完整地描述。

[0053] 为解决现有技术问题，本发明提供了一种面向高级持续性威胁的端边协同防御优化部署方法，包括以下步骤：

[0054] 步骤一：设实验包含K＝1000个时隙；环境中存在1个边缘服务器和N＝10个物联网设备，进行端边协同防御高级持续性威胁。在边缘计算服务器初始化所设计的四个级联结构的深度强化学习网络(四个级联结构的深度强化学习网络分别估计在当前时隙下针对各设备的检测持续时间、设备CPU频率、边缘服务器的CPU处理频率、任务卸载率，即模型网络的Q值，并由此构成安全防御的端边策略，从而大大降低了经典深度强化学习算法的计算复杂度。具体来说，在所设计的四个级联的Q神经网络中，每个网络由三个全连接层构成，其中第j(1≤j≤4)个网络的权重参数为θj，前两个全连接层的节点数目分别为fj,1和为fj,2，并通过整流线性单元函数进行激活。每个网络的输出节点个数由每个动作的可选动作集决定)，设备端可根据该网络获得安全防御任务的卸载率及其执行策略。其中，采用迁移学习技术为深度强化学习网络载入初始化参数，从而加速模型的启动速度。

[0055] 步骤二：在第k个时隙，模拟攻击者使用僵尸程序病毒感染大量主机，被感染主机作为僵尸主机执行模拟攻击者发出的指令，对环境中的设备端进行高级持续性威胁，攻击(k)间隔为y ∈[0，5]。

[0056] 步骤三：在第k个时隙，将第i个设备端的状态定义为其中表示第i个设备的重要性，由设备端
的数据量决定，表示第i个设备的检测延迟，表示第i个设备的受损数据，表示设备剩余的计算力，表示设备将任务上传至边缘服务器的传输时间，由任务量的多少决定；将作为DQN的输入，可得到该设备在该时隙下的动作
其中为检测间隔，为
检测持续时间，为设备端的CPU处理频率，为边缘服务器
的CPU处理频率，为安全防御任务的卸载率，其中，表示计算任务在
设备端执行，表示计算任务完全卸载至边缘服务器中执行，取其他值则表示计算任务部分卸载至边缘服务器中执行。

[0057] 步骤四：在第k个时隙，已知环境中全部设备的状态s(k)和动作a(k)，即可进一步计算动作能够获得的总奖励和设备下一状态其中表示所有任务在本地完成的开销，表示端边协同完成所
(k)
有任务的开销，总奖励u 即可看作端边协同完成任务所节省开销的比例；一个任务在本地执行时的开销包括由于较高的检测延时而增加的开销、设备端的CPU运行能量以及由于数据损坏而造成的经济开销；一个任务完整卸载至边缘服务器的开销包括由于较高的检测延时而增加的开销、边缘服务器的CPU运行能量、由于数据损坏而造成的经济开销和将任务卸载至边缘服务器的传输能耗；和的计算公式如下：

[0058]

[0059]

[0060] 其中，Wi为设备端的发射功率。

[0061] 步骤五：设置一个经验池，用来存储所有设备的状态下一状态动作和奖励

[0062] 步骤六：边缘服务器从经验池中按均匀分布随机采取batch_size＝128个样本组成批数据，并根据随机梯度下降法对DQN的参数进行更新，使得预测的Q值逐渐趋近于目标Q值，即损失函数最小。目标Q值其中γ为衰减系数，γ趋于0，表示强化学习
更考虑即时回报，γ趋于1，表示强化学习更考虑未来回报；为
根据设备下一状态和所有可能的动作所获得的奖励最大值。

[0063] 步骤七：重复步骤2～6，当k＝1000时结束迭代，得到最终的奖励结果，通过最终奖励结果获得安全防御任务的卸载率及其执行策略。

[0064] 实施例二：

[0065] 本实施例提供一种面向高级持续性威胁的端边协同防御优化部署系统，包括：

[0066] 初始化模块，初始化边缘计算服务器所设计的的深度强化学习网络，设备端可根据该网络获得安全防御任务的卸载率及其执行策略；

[0067] 攻击模块，攻击者使用僵尸程序病毒感染大量主机，被感染主机作为僵尸主机执(k)行攻击者发出的指令，并确认攻击的时间k与攻击间隔y ；

[0068] 数据采集模块，将第i个设备的状态定义为将作为深度强化学习的输入，(k)可得到该设备在该时隙下的动作在第k个时隙，已知环境中全部设备的状态s 和动(k) (k)
作a ，即可进一步计算动作能够获得的总奖励u 和设备下一状态

[0069] 数据储存模块：设置一个经验池，用来存储所有设备的状态下一状态动作和奖励

[0070] 学习优化模块，经验池中按均匀分布随机采取样本组成批数据，以奖励最大为目标根据随机梯度下降法对深度强化学习DQN的参数进行更新。

[0071] 实施例三：

[0072] 本实施例提供一种电子设备，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明任一实施例所述的一种面向高级持续性威胁的端边协同防御优化部署方法。

[0073] 实施例四：

[0074] 本实施例提供一种计算机可读介质，用于存储一个或者多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如本发明任一实施例所述的一一种面向高级持续性威胁的端边协同防御优化部署方法。

[0075] 本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

[0076] 本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

[0077] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0078] 在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read‑Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

[0079] 以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

查看完整全部详细技术资料

当前第1页第1页第2页第3页