技术领域
[0001] 本发明涉及攻防博弈算法技术领域,尤其是一种基于超博弈的算力网络攻防对抗博弈模型。
相关背景技术
[0002] 随着5G、云计算、边缘计算和移动互联网技术的不断发展,AR/VR、车联网等新型网络业务和应用的不断成熟,计算资源呈现出无处不在的部署趋势。为了更高效利用海量分布式计算资源,满足急迫的算力需求,推动边缘计算与网络深入整合,算力网络得到了广泛的关注。算力网络是一个边‑端‑云的分布式网络结果,旨在通过动态整合和共享计算资源和网络资源,将分布的计算节点连接起来,形成算力可感知,可分配的网络系统。
[0003] 相较于传统的网络安全威胁,算力网络拥有高度泛化、跨区域整合、算网一体、灵活连接性等特征,从而带来更广泛的安全暴露面和更高的数据连接频次,也显著提高了资源受攻击的风险,对网络安全策略提出了新的挑战。算力网络由于其独特的架构和用途,在面对分布式攻击,僵尸网络攻击时表现出与传统网络不同的脆弱性和维护挑战。由于通常使用简单的处理器和操作系统,算力网络的边缘设备往往无法支持复杂的安全防御方案,更加容易成为攻击的切入点与攻击傀儡,而云端的控制平面受到攻击将导致整体网络的故障。
[0004] 对于算力网络下的防御策略,现有的网络安全防御策略主要包括防火墙,补丁管理,节点维护等,此外,还包括将欺骗性防御策略。欺骗性防御策略包括蜜罐和蜂蜜信息。蜜罐策略即在给定的网络拓扑中部署一些蜜罐节点,构建蜜罐网络,引诱攻击者攻击蜜罐节点。蜜罐节点主要负责识别和干扰攻击者的行动,破坏蜜罐节点不会对网络完整造成影响,攻击者不能从蜜罐节点达到常规节点。蜂蜜信息即传播虚假信息来干扰攻击者行动。
[0005] 博弈论是一套有效的攻击者‑防御者模型分析工具,旨在帮助理解在多个攻防决策主体相互作用的情境中所呈现的行为模式和决策动态。现有的博弈假设中假设博弈双方拥有同样的视角,参与者双方拥有相同且完善的公有知识与全局理解。然而,现实冲突中,对于博弈的有限认知和不完全信息可能导致各决策者可能无法正确认知博弈相关信息,各决策者对于所处博弈状态的主观认知偏好将进一步影响博弈策决策与最终结果,从而严重影响防御结果。
具体实施方式
[0077] 下面结合附图对本发明的具体实施方式作进一步说明:
[0078] 如图1、图10所示,本实施例提供一种基于超博弈的算力网络攻防对抗博弈模型,包括以下步骤:
[0079] S1)、设计算力网络架构,将算力网络简化为三级节点的分布式网络;其中,本实施例中所述的三级节点的分布式网络为边‑端‑云的三级节点层次互联的分布式网络,如图2所示。
[0080] 攻击者可以在算力网络上实施的高级持续性攻击策略集合,并且每个攻击策略的特征可以建模为:1)攻击成本,表示攻击者采取该策略需要的成本;2)攻击效用预期,表示该策略对节点的预期效用3)攻击可用条件,以节点状态和策略成功概率评估攻击策略在节点上的可用性,如表1所示:
[0081] 表1算力网络攻防任务下攻击者策略集合
[0082]
[0083] 防御者可以部署不同类型的防御策略来对抗攻击者,本实施例考虑了三种经典防御策略和两种流行的防御性欺骗策略,其中,经典防御策略包括防火墙、网络管理、节点修复,以及两种防御性欺骗策略,包括蜜罐和蜂蜜信息。每个防御策略的特征可以建模为:1)防御成本,表示防御者采取该策略需要的成本;2)防御效用预期,表示该策略对节点的预期效用;3)可用条件,以节点状态和策略成功概率评估策略在节点上的可用性,如表2所示:
[0084] 表2防御者可行策略集合
[0085]
[0086] S2)、基于参与者对攻防博弈的理解,构建可能存在的子博弈集,初始化参与者对可能存在子博弈的发生情况的信念以及参与者对当前信念的不确定度,如表4所示。本实施例中,如表3所示,所述的子博弈集包括四个可能存在子博弈,分别为:
[0087] 子博弈1:防御者不会使用欺骗策略集合;
[0088] 子博弈2:防御者使用欺骗策略——蜜罐;
[0089] 子博弈3:防御者使用欺骗策略——蜂蜜信息;
[0090] 子博弈4:防御者使用欺骗策略——蜜罐、蜂蜜信息。
[0091] 本实施例中,所述的防御者使用的欺骗策略为包含蜜罐网络和蜂蜜信息的欺骗性防御策略。如图2所示,当选择蜜罐策略时,蜜罐节点将被激活,这将改变网络的拓扑结构,引诱攻击者攻击蜜罐节点。为了进一步保护合法节点,只允许常规节点到达蜜罐节点,蜜罐节点间全连接,但是攻击者不能从蜜罐节点到达常规节点。蜂蜜信息策略可以通过传播虚假信息来引诱攻击者,如蜂蜜标记、假补丁等。这些文件和数据库中的数据被设计为对攻击者有吸引力,但实际上对攻击者了解算力网络真实状态无实际用处。
[0092] 表3可能存在的四个子博弈
[0093]
[0094] 表4超博弈范式的行参与者信念和不确定初始化示例
[0095]
[0096]
[0097] S3)、基于特定算力网络状态下,对当前可能进行的子博弈中存在的所有攻防策略计算收益矩阵,并结合感知参数构建超博弈范式矩阵;本实施例构建的超博弈范式参见表13所示:
[0098] 表13博弈范式矩阵
[0099]
[0100] 对于特定攻击策略和防御策略下的攻防收益矩阵,其计算如下:
[0101] S31)、定义系统的损失函数:
[0102]
[0103] 式中,AV为定义算力网络需要提供的最小算力,poweri为节点i的初始化算力,ayi为节点的可用状态,vali为节点重要性参数,p2为可接受网络受损程度比例,max定义为一个极大值,作为系统受损导致网络不可用的惩罚;ndi为节点i的受损程度,取值为0‑1;ndi越大表示节点受损程度越高,公式如下:
[0104]
[0105] S32)、收益函数:所述的模型使用网络整体受损程度评估策略对算力网络造成的影响,表示玩家行使各个策略带来的收益;
[0106] impact(Di,Sj,Aq)=SF*‑SF;
[0107] 式中,Di为防御者采用的常规防御策略i,Sj为防御者采用的欺骗策略j,Aq为攻击*者采用的攻击策略q,SF表示执行策略之后系统受损程度,SF表示执行策略之前系统受损程度;
[0108] S33)、定义防御者的效用函数,防御者希望最小化网络运营成本;
[0109] UD(Di,Sj,Aq)=‑costD(Di,Sj)+impact(Di,Sj,Aq)*μ+aff(t)*θ;
[0110] 式中,Di为防御者采用的常规防御策略i,Sj为防御者采用的欺骗策略j,Aq为攻击者采用的攻击策略q,impact(Di,Sj,Aq)表示策略组合对系统的结构完整性的影响,μ为影响权重,aff(t)为欺骗策略的长期收益,θ为长期收益权重;
[0111] S34)、定义攻击者的效用函数,攻击者在考虑攻击成本的情况下尽可能破坏算力网络节点;
[0112]
[0113] 其中Di为防御者采用的常规防御策略i,Sj为防御者采用的欺骗策略j,Aq为攻击者采用的攻击策略q,impact(Di,Sj,Aq)表示策略组合对系统的结构完整性的影响, 为对应权重,aff(t)为欺骗策略的长期收益,v为长期收益权重;
[0114] S35)、定义执行防御策略的成本函数,对于防御者,本实施例划定防御者选择基本策略Di,欺骗策略Sj,并将策略应用在节点集合Node中,因此,所述的成本函数为:
[0115]
[0116] 式中,当取Sj=S1时,防御者第一次使用欺骗性防御策略S1,基于设计的蜜罐节点数量定义欺骗策略成本为 HoneyNode集合表示为设定的蜜罐节点集合,stage表示博弈阶段即策略S1的成本随博弈进行递减;对于Sj=S2,蜂蜜信息仅作用于当前博弈阶段,定义 其中cDi,cs1,cs2均来自
先验公共知识;
[0117] S36)、对于攻击者,本实施例划定攻击者选择攻击策略Aq,将策略Aq应用在策略对应节点集合Anode当中,cAq来自先验公共知识,定义执行攻击策略的成本函数为:
[0118]
[0119] S4)、基于超博弈范式矩阵,综合考虑参与者的策略预期收益以及对可能的最坏情况,计算各个策略的超博弈预期效用;
[0120] 本实施例中,所述的超博弈预期效用的表达式如下:
[0121] HEU(Rx)=(1‑gD)×EU(Rx,Aall)+gD×EUworst(Rx,Aall);
[0122] HEU(Aq)=(1‑gA)×EU(Rall,Aq)+gA×EUworst(Rall,Aq);
[0123] 式中,Rx=(Di,Sj)为将经典防御策略与防御性欺骗策略视为一个策略组合,将攻防双方的策略空间限制的二维平面,gD表示参与者对当前博弈感知的不确定度,EU(Rx,Aall)表示策略组合Rx的预期效用,EU(Rall,Aq)表示攻击策略Aq的预期效用,gA表示攻击者对博弈的不确定度,EUworst(Rx,Aall)表示参与者采用策略集合中的最坏情况。
[0124] 所述的超博弈预期效用用于评估当列玩家在所有可用策略中选择一个策略时,行玩家在选择策略i时的预期效用:
[0125]
[0126] EUworst(Rx,Aall)=n*min{UD(Rx,Aq),Aq∈Aset}*wmin;
[0127]
[0128] EUworst(Rall,Aq)=m*min{UA(Rx,Aq),Rx∈Rset}*wmin;
[0129] 式中,wq为攻击策略q被选择的概率,UD(Rx,Aq)为策略组合UD(Rx,Aq)的防御者效用;wmin为最坏策略被选择的概率;wx为防御策略组合Rx被选择的概率,UA(Rx,Aq)为策略组合UD(Rx,Aq)的攻击者效用;n、m分别为防御策略数量和攻击策略数量。
[0130] 基于超博弈范式,行参与者对于列参与者选择策略j的概率表达式如下:
[0131]
[0132] 式中,PK为行参与者认为子博弈k进行的概率,colkj为在子博弈k中,行参与者认为列参与者采取策略j的概率,wj为在超博弈中,行参与者认为列参与者采取策略,的概率;
[0133] 基于超博弈定义参与者对于可能存在的子博弈的感知,对于策略收益矩阵中的参与者和列参与者,定义在行参与者认知中列参与者在子博弈k中的使用策略i的概率为:
[0134]
[0135] 式中,CMSk为子博弈k中,行参与者认为列参与者选择策略的偏好向量;
[0136] 定义行参与者在子博弈k中的偏好向量为:
[0137]
[0138] 式中,RMSk为子博弈k中,行参与者选择策略的偏好向量,rowki为在子博弈k中,行参与者选择策略i的概率;
[0139] 定义行参与对超博弈的信念,即行参与者认为列参与者选择进行子博弈j的概率为:
[0140]
[0141] 式中,Pk为行参与者认为子博弈k进行的概率;
[0142] S5)、参与者选择能够最大化预期效用的策略,根据双方参与者的策略选择更新网络节点状态,以及参与者的不确定度;
[0143] 本实施例中,防御者策略与攻击者策略将直接带来节点受损状态的变化,其中算力网络节点状态变化如下:
[0144]
[0145] 其中,ndi表示当前节点i的受损程度,e(Di,Sj,Aq)表示防御策略组合(Di,Sj)以及攻击策略Aq对节点受损程度的影响, 为更新后节点i的受损程度。
[0146] S6)、参与者在每个博弈阶段选择满足最大化预期效用函数的策略进行行动,并对算力网络状态造成影响,直到算力网络系统崩溃。
[0147] 本实施例选用纳什均衡实现完全信息博弈下策略决策,基于策略收益矩阵,找出参与者对于其余参与者策略组合的最优对策,当任何一方采取的策略都是对其余所有方采取策略组合下的最佳对策,即为纳什均衡解,如表5、6、7所示,考虑到算力网络攻防博弈的纳什解的多样性,综合纯纳什均衡和混合纳什均衡,寻找博弈的纳什均衡解。
[0148] 表5完全信息博弈的初期阶段中的通过收益矩阵寻找纳什均衡解
[0149]
[0150]
[0151] 表6完全信息博弈的中期阶段中的通过收益矩阵寻找纳什均衡解
[0152]
[0153]
[0154] 表7完全信息博弈的后期阶段中的通过收益矩阵寻找纳什均衡解
[0155]
[0156]
[0157]
[0158] 本实施例考虑的攻击者‑防御者博弈是一个包含完全信息和不完全信息的重复博弈,其中每个博弈过程都是一个多阶段博弈。假设参与博弈的双方对正在进行的子博弈有自己的理解。如果将博弈双方感知到子博弈设为原始的完全信息博弈,那么当前进行的博弈就是一个完全信息博弈。模型让玩家在给定的算力网络结构中重复博弈,在每个博弈中,攻击者和防御者双方采取多次行动,并对网络结构产生实时影响。
[0159] 如表5、6、7所示,表中,灰色格为严格劣策略,蓝色格为目标纳什均衡策略。分析收益矩阵与纳什均衡策略发现,由于算力网络状态下攻击初期不能使用基于僵尸网络的策略,因此部分攻击策略退化为不进行操作,导致多个纳什均衡解。在博弈的不同阶段,随着网络受损程度增加,攻防策略选择发生变化。攻击者从监视网络发展到基于已经占领的节点进行分布式攻击或僵尸网络攻击。长效收益鼓励防御者在早期使用欺骗性防御策略中的蜜罐。同时,防御者在后期选择蜂蜜信息。观察收益矩阵发现欺骗策略能够有效降低攻击者的预期收益,并为防御者带来更高收益。
[0160] 另外,本实施例还通过仿真实验,验证本实施例的超博弈决策方法和欺骗模型的有效性。攻击者在不同子博弈信念下超博弈范式的求解分析如表8、9所示,如果参与者对正在进行的其他子博弈有一定感知,修改不确定度会影响参与者对博弈的预期。随着参与者不确定度的增加,参与者对博弈的预期降低,可能会改变博弈的策略选择。如表2所示,当攻击者完全确信防御者以相同概率选择进行四个子博弈时,攻击者会选择策略5;随着攻击者对正在进行博弈的不确定度增加,攻击者可能选择更加保守的策略2。
[0161] 表8包含四个子博弈的超博弈初期基于超博弈范式计算超博弈预期效用[0162]
[0163]
[0164]
[0165] 表9包含两个子博弈的超博弈初期基于超博弈范式计算超博弈预期效用[0166]
[0167]
[0168] 如图3‑5、以及表10所示,重复30次,对比无欺骗的完全博弈和包含欺骗的完全博弈,发现将防御者将欺骗策略引入策略集合将有效延长网络崩溃的时间,并降低攻击者的收益。在第六回合结束时,不引入欺骗的攻击者累计平均收益大于600,而引入欺骗的累计平均攻击者收益小于200。引入欺骗策略将网络持续时间延长了27%。虽然蜜罐能够在一定程度上迷惑攻击者,但因为增加的节点数量有限,其对攻击者的欺骗效果也相对有限。实验结果显示,即便是有限的欺骗策略也足以使得模型的回合持续时间有所提升。
[0169] 表10无欺骗策略与欺骗策略在完全博弈和超博弈下系统崩溃时间
[0170]
[0171] 对比包含欺骗策略的完全信息博弈和超博弈,攻击者通过综合考虑多种子博弈,一定程度上实现对防御者欺骗策略的感知。结果表明,尽管攻击者能够预知并清楚地认识到防御者可能会采用某种特定的欺骗策略,这种策略依然能有效地延长网络结构保持完整的时间。
[0172] 如图6和表11所示,在使用相同决策算法下,在攻击者不知晓欺骗策略的状态下网络将展现出更高的完整度,表明欺骗策略有效保护算力网络结构的完整性。比较博弈持续时间,参与者累计效用,网络完整度等参数,表明引入欺骗策略成功干扰了攻击者的攻击策略,成功为防御者延长了网络可运行时间。即使防御者可能知晓或完全相信存在欺骗策略,欺骗策略也是有效的。随着攻击者对欺骗策略的发生的信念增强,网络崩溃时间减小,攻击者攻击效率提高。实验仿真体现了在超博弈过程中,通过合理建模可能存在子博弈能够实现参与者的更高收益,帮助参与者在不完全信息博弈中更快实现目标。
[0173] 表11攻击不同初始信念下系统博弈持续回合
[0174]
[0175] 如图7和表12所示,比较完全博弈下比较两种欺骗策略。在完全信息博弈的条件下,欺骗策略能够有效延长网络崩溃时间,维护算力网络安全。本次仿真验证了在完全博弈下欺骗策略的有效性。如果在网络防御策略中同时考虑到使用欺骗信息和部署少量蜜罐,防御者很可能在博弈的初期阶段选择执行蜜罐操作。随着博弈的深入,当攻击者开始调整其策略以应对初期的蜜罐诱导时,防御者可以利用欺骗信息对攻击者造成更直接和深刻的影响。
[0176] 表12在完全信息博弈下不同欺骗策略的博弈持续回合
[0177]
[0178] 如图8、9所示,参与者对博弈的初始理解和认知在很大程度上决定了博弈的整体结果和发展趋势,强调了正确评估对手策略的重要性。ga=0时攻击者完全相信当前正在进行的博弈,基于攻击者自身对防御者以及子博弈的了解进行决策,ga=1时攻击者完全不相信自身认知,完全基于对最坏情况发生的恐惧进行决策。在本次仿真实验中,攻击者在更坏预期下展现出更强大的攻击性,更容易选择破坏性较高的策略,但是带来更高的攻击成本。因此,在使用超博弈决策时,应该合理控制不确定度的大小,以实现收益和成本的均衡。
[0179] 上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。