首页 / 一种容错控制方法、装置及容错构件

一种容错控制方法、装置及容错构件有效专利 发明

技术领域

[0001] 本申请属于计算机网络技术领域,尤其涉及一种容错控制方法、装置及容错构件。

相关背景技术

[0002] 软件定义网络(Software Defined Networking,SDN)作为一种新型网络架构,实现了数据平面和控制平面的完全解耦;越来越多的数据中心、大规模局域网等开始采用SDN来提升网络性能。SDN构架在控制层面可以实现对网络数据的监控等,在大规模的网络中可以使用多控制器来提升SDN的可扩展性,但随着底层网元设备和数据流量的急速增加,控制器在处理网元设备所产生的数据流时面临巨大的负担,控制器经常会因为处理能力不足产生较高的失效概率;另外,服务器的硬件或者软件失效同样会导致控制器发生故障,严重威胁了网络的正常运行。

具体实施方式

[0025] 以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0026] 图1示出了本申请实施例中网络数据分析系统中SDN容错的总体框架,如图所示该系统包括控制平面中设置的容错构件、多于一个的控制器以及数据平面中控制器所管理的网元设备,其中,容错构件负责检测网元设备与控制器之间的网络关系、根据检测结果对网元设备的控制器进行重分配,以及认证网元设备与控制器之间的连接认证。
[0027] 具体地,容错构件获取系统中至少两个控制器的当前状态,生成处于失效状态的控制器集合FC,获取所述控制器集合FC中每个控制器所控制的每个网元设备的数据包请求量,以根据所述数据包请求量生成失效状态的控制器所管理的网元设备的再分配方案,并根据所述再分配方案使每个网元设备连接到处于有效状态的控制器。
[0028] 为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
[0029] 实施例一:
[0030] 图2示出了本申请实施例提供的一种容错控制方法的实现流程示意图,详述如下:
[0031] 步骤S21,获取至少两个控制器的当前状态,生成处于失效状态的控制器集合FC;
[0032] 本申请提供的实施例在设置有SDN的网络数据分析系统中设置容错构件,由容错构件实时检测系统中每个控制器与其管理的网元设备之间的网络连接状态,以区分处于有效状态的控制器和失效状态的控制器。对于处于失效状态的控制器根据其标识信息统一记录在控制器集合FC中。进一步地,容错构件可以设置多个形成容错构件组,每部分容错构件对不同区域的控制器进行检测。
[0033] 图3示出了本申请提供的另一实施例中提供的所述获取至少两个控制器的当前状态,生成处于失效状态的控制器集合FC,包括:
[0034] 步骤S31,获取网络数据;
[0035] 该步骤中对网络数据进行收集,建立网络数据分析系统数据集,所述网络数据包括数据平面内网元设备向控制器发送的数据流信息(以数据包接入请求-Packet-in的形式进行封装)以及控制平面控制器之间交互的状态信息。
[0036] 步骤S32,根据所述网络数据遍历至少两个控制器的运行状况以及负载状况;
[0037] 该步骤中根据网络数据形成的数据集对系统中所有控制器{C1,C2,…,Cn}的运行状态以及负载量进行遍历,即对每个控制器的运行状况以及负载状况进行逐一检查测。进一步地,根据控制器硬件设备是否正常对其运行状况进行检测;根据控制器所管理的理网元设备发送来的Packet-in消息以及,控制器向其管理的网元设备发送的数据包断开-Packet-out回应消息对其负载状况进行检测。
[0038] 步骤S33,将所述至少两个控制器中处于故障运行状态或/和负载耗尽的控制器的状态确定为失效状态;
[0039] 具体地,在上述遍历过程中,若控制器Ci出现硬件故障则判定该处于故障运行状态,从而确定该控制器处于失效状态;或/和,若控制器Ci负载量超过最大负载量,则确定该控制器处于失效状态。
[0040] 步骤S34,标记处于失效状态的控制器以生成处于失效状态的控制器集合FC。
[0041] 该步骤中对处于失效状态的控制器进行标记并添加到同一集合中,以生成失效状态的控制器集合FC。重复进行上述过程,直至检测完系统中所有的控制器。
[0042] 步骤S22,获取所述FC中每个控制器所管理的网元设备的数据包请求量;
[0043] 本申请提供的实施例获取集合FC中的每个控制器所管理的网元设备,由于控制器处于失效状态,因此,其所管理的网元设备需要重新分配有效状态的控制器,以保证网元设备在系统中的正常运行。对于确定的一个控制器,获取其管理的每个网元设备的数据包请求量,以便为每个网元设备寻找新的控制器。
[0044] 步骤S23,根据所述数据包请求量自适应生成再分配方案;
[0045] 该步骤中,根据失效状态的控制器所管理的每个网元设备的数据包请求量为相应的网元设备寻找新的处于有效状态控制器,并在所述每个网元设备均寻找到新的控制器后生成再分配方案。
[0046] 具体地,图4中示出了所述根据所述数据包请求量自适应生成再分配方案的具体实现流程,包括:
[0047] 步骤S41,调用所述FC中处于失效状态的控制器Ci;根据所述控制器Ci所管理的网元设备的数据包请求量降序排列所述控制器Ci所管理的网元设备,得到排序结果;
[0048] 该步骤中,在失效状态的控制器集合FC中调用控制器Ci调用时可随机调用也可按顺序依次调用控制器。假设本次调用到第i个控制器Ci。锁定失效控制器Ci所管理的网元设备,设Ci所管理的网元设备集合为SWi,依据SWi中当前网元设备的数据包请求量对其中的网元设备进行降序排列,得到排序结果。
[0049] 步骤S42,根据所述排序结果依次将对应的网元设备分配给负载剩余量最大的处于有效状态的控制器,生成再分配方案Pi;
[0050] 该步骤中,根据上述排序结果对SWi中的网元设备自适应分配控制器,以生成再分配方案,其中自适应分配遵循如下原则:将数据包请求量最高的网元设备分配给处于有效状态的控制器中剩余负载量最大的一个。
[0051] 可选地,在所述根据所述排序结果依次将对应的网元设备分配给负载剩余量最大的处于有效状态的控制器之后,包括:
[0052] 判断负载剩余量最大的处于有效状态的控制器被分配新的网元设备后,其负载是否超过最大负载;
[0053] 若否,则判定此次分配为有效分配。
[0054] 该步骤中为保证再分配过程中不会因为控制器负载耗尽而产生新的失效控制器,对分配了新的网元设备的控制器的负载进行判断,若分配了新的网元设备后控制器的负载未超过其最大负载量,则判定此次分配有效。
[0055] 图5中示出了网元设备再分配过程的示意图,网元设备的Packet-in请求量和控制器剩余负载量如图所示。所有控制器初始容量均为5000packets/s。当控制器C2由于负载耗尽而发生失效时,需要对其管理的网元设备S2和S3进行再分配。此时,S2的请求量为4000packets/s,则它选择剩余负载量大的控制器C1作为再分配对象。S2再分配之后,S3选择剩余负载量大的控制器C3作为重分配对象。
[0056] 步骤S43,删除控制器Ci;
[0057] 该步骤中,对控制器Ci所管理的网元设备进行再分配后,更新系统中处于有效状态的控制器的负载量,并从FC中删除控制器Ci。
[0058] 步骤S44,继续调用所述FC中其他控制器并执行上述过程,生成所述FC中其他控制器对应的再分配方案;
[0059] 该步骤中,对FC中其余的控制器均重复执行上述步骤S41-S43,直至FC为空,每次执行上述步骤S41-S43时,生成对应的再分配方案Px。
[0060] 步骤S45,根据所述Pi以及所述FC中其他控制器对应的再分配方案生成总的再分配方案P。
[0061] 该步骤中,在对FC中所有控制器管理的网元设备完成再分配后,根据每次生成的再喷配方案确定总的再分配方案P
[0062] 步骤S24,根据所述再分配方案连接所述网元设备到处于有效状态的控制器。
[0063] 本申请提供的实施例中容错构件对失效状态的控制器管理的网元设备进行设备连接认证,对再分配方案中所涉及到的网元设备和控制器通过数据库中共享的视图信息进行精确定位;根据定位结果认证网元设备和控制器之间的重连接,确保所有失效控制器的网元设备都重新连接至新的控制器。所述视图信息中存储有每个网元设备和控制器的标识以及位置,以方便快速定位到控制器以及与之连接的网元设备。
[0064] 可选地,所述根据所述再分配方案连接所述网元设备到处于有效状态的控制器,包括:
[0065] 发送所述再分配方案到处于有效状态的控制器;
[0066] 指示所述处于有效状态的控制器根据所述再分配方案连接相应的网元设备。
[0067] 该步骤中也可将生成的再分配方案输出给处于有效状态的控制器,以使控制器根据网元设备所在的位置连接相应的网元设备。
[0068] 可选地,控制器重新连接网元设备后容错构件更新当前的网络状态(如每个控制器的负载量),并更新将控制器与网元设备之间新的连接关系。
[0069] 本申请实施例中在网络数据分析系统中设置容错构件,由容错构件获取系统中至少两个控制器的当前状态,以生成处于失效状态的控制器集合FC,获取所述控制器集合FC中每个控制器所控制的每个网元设备的数据包请求量,以根据所述数据包请求量生成失效状态的控制器所管理的网元设备的再分配方案,并根据所述再分配方案使每个网元设备连接到处于有效状态的控制器。这一过程中当检测到网络中发生控制器失效时,根据需要重分配控制器的网元设备的数据包请求量生成自适应分配方案,以实现网元设备和控制器二者之间的重连接和可靠通信,保证了在部分控制器失效状况下,控制平面能够实时容错,且网络数据分析系统仍然能够正常运行。
[0070] 实施例二:
[0071] 对应于上文实施例所述的容错控制方法,图6示出了本申请实施例提供的容错控制装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
[0072] 参照图6,该容错控制装置包括:第一获取模块61、第二获取模块62、生成模块63以及连接模块64,其中:
[0073] 第一获取模块61,用于获取至少两个控制器的当前状态,生成处于失效状态的控制器集合FC;
[0074] 第二获取模块62,获取所述FC中每个控制器所管理的网元设备的数据包请求量;
[0075] 生成模块63,用于根据所述数据包请求量自适应生成再分配方案;
[0076] 连接模块64,用于根据所述再分配方案连接所述网元设备到处于有效状态的控制器。
[0077] 进一步地,所述第一获取模块61,包括:
[0078] 遍历单元,用于获取网络数据;根据所述网络数据遍历至少两个控制器的运行状况以及负载状况;
[0079] 状态确定单元,用于将所述至少两个控制器中处于故障运行状态或/和负载耗尽的控制器的状态确定为失效状态;
[0080] 标记单元,用于标记处于失效状态的控制器以生成处于失效状态的控制器集合FC。
[0081] 进一步地,所述生成模块63,包括:
[0082] 调用单元,用于调用所述FC中处于失效状态的控制器Ci;
[0083] 排序单元,用于根据所述控制器Ci所管理的网元设备的数据包请求量降序排列所述控制器Ci所管理的网元设备,得到排序结果;
[0084] 再分配方案生成单元,用于根据所述排序结果依次将对应的网元设备分配给负载剩余量最大的处于有效状态的控制器,生成再分配方案Pi;
[0085] 删除单元,用于删除控制器Ci;
[0086] 循环执行单元,用于继续调用所述FC中其他控制器并执行上述过程,生成所述FC中其他控制器对应的再分配方案;根据所述Pi以及所述FC中其他控制器对应的再分配方案生成总的再分配方案P。
[0087] 进一步地,所述生成模块63,还包括:
[0088] 判断单元,用于判断负载剩余量最大的处于有效状态的控制器被分配新的网元设备后,其负载是否超过最大负载;若否,则判定此次分配为有效分配。
[0089] 进一步地,所述链接模块64,包括:
[0090] 发送单元,用于发送所述再分配方案到处于有效状态的控制器;
[0091] 指示单元,用于指示所述处于有效状态的控制器根据所述再分配方案连接相应的网元设备。
[0092] 本申请实施例中在网络数据分析系统中设置容错构件,由容错构件获取系统中至少两个控制器的当前状态,生成处于失效状态的控制器集合FC,获取所述控制器集合FC中每个控制器所管理的每个网元设备的数据包请求量,以根据所述数据包请求量生成失效状态的控制器所管理的网元设备的再分配方案,并根据所述再分配方案使每个网元设备连接到处于有效状态的控制器。这一过程中当检测到网络中发生控制器失效时,根据需要重分配控制器的网元设备的数据包请求量生成自适应分配方案,以实现网元设备和控制器二者之间的重连接和可靠通信,保证了在部分控制器失效状况下,控制平面能够实时容错,且网络数据分析系统仍然能够正常运行。
[0093] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
[0094] 实施例三:
[0095] 图7是本申请一实施例提供的容错构件的示意图。如图7所示,该实施例的容错构件7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72。所述处理器70执行所述计算机程序72时实现上述各个容错控制方法实施例中的步骤,例如图2所示的步骤S21至S24。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块61至64的功能。
[0096] 示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述容错构件7中的执行过程。例如,所述计算机程序72可以被分割成第一获取模块、第二获取模块、生成模块以及连接模块,其中:
[0097] 第一获取模块,用于获取至少两个控制器的当前状态,生成处于失效状态的控制器集合FC;
[0098] 第二获取模块,获取所述FC中每个控制器所管理的网元设备的数据包请求量;
[0099] 生成模块,用于根据所述数据包请求量自适应生成再分配方案;
[0100] 连接模块,用于根据所述再分配方案连接所述网元设备到处于有效状态的控制器。
[0101] 进一步地,所述第一获取模块,包括:
[0102] 遍历单元,用于获取网络数据;根据所述网络数据遍历至少两个控制器的运行状况以及负载状况;
[0103] 状态确定单元,用于将所述至少两个控制器中处于故障运行状态或/和负载耗尽的控制器的状态确定为失效状态;
[0104] 标记单元,用于标记处于失效状态的控制器以生成处于失效状态的控制器集合FC。
[0105] 进一步地,所述生成模块,包括:
[0106] 调用单元,用于调用所述FC中处于失效状态的控制器Ci;
[0107] 排序单元,用于根据所述控制器Ci所管理的网元设备的数据包请求量降序排列所述控制器Ci所管理的网元设备,得到排序结果;
[0108] 再分配方案生成单元,用于根据所述排序结果依次将对应的网元设备分配给负载剩余量最大的处于有效状态的控制器,生成再分配方案Pi;
[0109] 删除单元,用于删除控制器Ci;
[0110] 循环执行单元,用于继续调用所述FC中其他控制器并执行上述过程,生成所述FC中其他控制器对应的再分配方案;根据所述Pi以及所述FC中其他控制器对应的再分配方案生成总的再分配方案P。
[0111] 进一步地,所述生成模块,还包括:
[0112] 判断单元,用于判断负载剩余量最大的处于有效状态的控制器被分配新的网元设备后,其负载是否超过最大负载;若否,则判定此次分配为有效分配。
[0113] 进一步地,所述链接模块,包括:
[0114] 发送单元,用于发送所述再分配方案到处于有效状态的控制器;
[0115] 指示单元,用于指示所述处于有效状态的控制器根据所述再分配方案连接相应的网元设备。
[0116] 所述容错构件7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述容错构件可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是容错构件7的示例,并不构成对容错构件7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述容错构件还可以包括输入输出设备、网络接入设备、总线等。
[0117] 所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0118] 所述存储器71可以是所述容错构件7的内部存储单元,例如容错构件7的硬盘或内存。所述存储器71也可以是所述容错构件7的外部存储设备,例如所述容错构件7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述容错构件7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述容错构件所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
[0119] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0120] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0121] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0122] 在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0123] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0124] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0125] 所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
[0126] 以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

当前第1页 第1页 第2页 第3页