技术领域
[0001] 本发明涉及数据中心,所属技术领域关于一种数据中心的监控与管理技术。
相关背景技术
[0002] 随着云端技术的发展,数据中心内的机房规划、电力配置、网络传输架构与流量管理等皆较以往的需求来得复杂。现行数据中心的趋势是用货柜的方式以将数据中心的设备紧密地配置在一起,而此种数据中心的管理课题,举例来说:
[0003] (一)、热分布监控不易
[0004] 由于货柜式数据中心内的设备配置得很紧密,因此数据中心内的热密度也越来越高,因此也越来越难监测数据中心中可能发生的热点区域。除此之外,一般数据中心的热分布监控多通过单一热图像配合管理人员肉眼判读以判断数据中心内的哪个设备过热,然而不同管理人员的判读往往会产生差异,且更紧密地配置设备也会增加肉眼判读的难度。
[0005] (二)、控制面板灯号与网络端口状态识别不易
[0006] 由于设备皆紧密地配置于货柜当中,管理人员并不方便经常出入货柜,因此无法通过人力监控现场各设备的控制面板灯号有没有亮或是网络端口的接线是否有接好。
[0007] (三)、负载管理不易
[0008] 数据中心通过其特有的操作系统进行虚拟机器与负载机器的动态配置与管理,但随着数据中心内的设备越来越多,如何动态进行虚拟机器与实体机器的负载管理以最佳化数据中心的效能成为一个重要的课题。
[0009] (四)、如何提升监测可靠度
[0010] 已知在数据中心内部配置例如温度传感器等的点传感器,然而受限于点传感器的有限涵盖范围,必须通过大量配置点传感器以取得大范围的信息,因此成本上升。除此之外,由于点传感器无法连续配置,因此在没有配置点传感器的地方必须通过邻近点传感器来判断其状态,降低监测的可靠度,另外,单点配置点传感器使得监控管理不具弹性,有可能会因为当中某几个设备的移动而使得监控软件必须全面重新设定,因此必须提升监测的可靠度。
具体实施方式
[0051] 以下说明为本发明的实施例。其目的是要举例说明本发明一般性的原则,不应视为本发明的限制,本发明的范围当以申请专利范围所界定者为准。
[0052] 图1所示为根据本发明一实施例的监测管理系统100的示意图。监测管理系统100适用于监测管理货柜式数据中心(container data center)150。货柜式数据中心150包括多个机柜(rack)152,每个机柜152包括多个电子设备,例如服务单元(server node)、计算单元(capturing node)、存储单元(storage node)或交换器(switch)。
[0053] 图2a所示为根据本发明一实施例的机柜152的面板侧(front panel side)的示意图。机柜152的面板侧可以看到各电子设备的灯号,例如灯号152-1、152-2、152-3与152-4。机柜152的面板侧还可以看到各电子设备的网络端口,例如网络端口152-5、152-6与152-7。
[0054] 图2b所示为根据本发明一实施例的机柜152的散热侧的示意图。机柜152中各电子设备的散热孔或散热鳍片皆配置于散热侧。
[0055] 在图1中,数据中心150安装有数据中心专属的操作系统160,数据中心使用者170可通过管理界面162(例如图形界面)操作管理数据中心150,例如控制要将几个虚拟机器(virtual machine)安装至哪个实体设备(physical machine)也就是电子设备上,而数据中心使用者170在管理界面162上的设定会存储为操作系统160的设定文件,设定文件代表数据中心150的运作情况,包括负载配置等,例如记录虚拟机器对应实体机器的配置情形。
[0056] 监测管理系统100包括监测管理装置110、可见光图像提取单元120、非可见光图像提取单元122以及可见光图像提取单元124。监测管理装置110包括控制单元111、警示单元112、图像融合单元113、图像识别单元114、图像数据库115、网络单元116与输出入接口117。其中警示单元112与操作系统160之间通过网络管理协议130进行信号与信息传输。
[0057] 可见光图像提取单元124对准机柜152的面板侧,如图2a所示,可见光图像提取单元124提取机柜152的面板侧的面板图像,并将面板图像传送至图像识别单元114。图像识别单元114利用图像识别技术分析面板图像以判别机柜152的各电子设备的灯号状态,例如电子设备的灯是正在运行的绿色或不正常运作的橘色。另外,图像识别单元114也利用图像识别技术分析面板图像以判别机柜152的各电子设备的网络端口连线状态,例如网络端口有没有接上网络线或是网络线是否有脱落的现象。图像识别单元114根据灯号状态与网络连线状态的识别结果产生数据中心150的状态信息,记录数据中心150的各电子设备的灯号状态与网络端口连线状态。
[0058] 可见光图像提取单元120与非可见光图像提取单元122对准机柜152的散热侧,如图2b所示。可见光图像提取单元120提取机柜152的散热侧的机构图像,藉以得知机柜中各电子设备的相对位置。非可见光图像提取单元122提取机柜152的散热侧的热图像,藉以了解机柜中各电子设备的温度状况。可见光图像提取单元120将机柜152的散热侧的机构图像传送至图像融合单元113,非可见光图像提取单元122将机柜152的散热侧的热图像传送至图像融合单元113,图像融合单元113融合机构图像与热图像以产生融合图像,通过融合图像可以判断机柜152的温度分布情况。在一个例子中,非可见光图像提取单元122为远红外线图像提取单元。
[0059] 可见光图像提取单元120、非可见光图像提取单元122与可见光图像提取单元124可以设置不只一个,端视数据中心的大小而定。举例而言,如果可见光图像提取单元124不只一个,可以将所有可见光图像提取单元124的图像依照对应位置合并成一大张面板图像,或是对应可见光图像提取单元124相对于机柜的位置存储所有可见光图像提取单元124的图像。
[0060] 在一例子中,可见光图像提取单元120与非可见光图像提取单元122可整合在一个部件当中。
[0061] 须注意的是,图2a与图2b的面板侧示意与散热侧示意图仅为例示,并不用于限制本发明,本领域技术人员能随着数据中心的配置不同而改变面板侧和散热侧的配置,例如有些数据中心可能将面板与散热放在同一侧,或是网络端口和灯号可能在不同侧,因此根据数据中心的配置可能会减少或增加图像提取单元。
[0062] 图3a至图3c所示为根据本发明一实施例的融合图像的示意图。融合图像300融合机柜的散热侧的机构图像310与热图像320。机构图像310呈现至少包含电子设备360-1、360-2、360-3与360-4的机柜350的图像,由可见光提取单元120所提取的机构图像可以判别机柜中各电子设备的配置,例如判别服务单元放在机柜的哪个位置。如果仅是单独看热图像320无法判断温度是对应至机柜的哪一个电子设备,但从融合图像300就可以判断机柜的哪一个电子设备的温度最高,如图3c所示,可以判断出电子设备360-3的温度最高,因此电子设备360-3可能负载过重。但在其他实施例中,如果提取热图像320的设备的规格较高阶,也可单就热图像320来判断机柜的温度信息。
[0063] 控制单元111从图像识别单元114接收状态信息并从图像融合单元113接收融合图像。控制单元111将面板图像、机构图像与热图像对应其机柜编号(位置)与拍摄时间存储至图像数据库115。
[0064] 控制单元111还将状态信息与融合图像传送至警示单元112。警示单元112通过网络管理协议接收数据中心150的操作系统160的设定文件。警示单元112根据融合图像产生数据中心150的温度信息,例如温度信息记录对应各电子设备的温度。警示单元112根据温度信息、状态信息与设定文件,判断是否符合多个警示条件其中之一。举例而言,例如警示条件一是电子设备温度超过摄氏80度,警示条件二是应有负载但灯号未亮,警示条件三是网络线应连接但未连接。例如,如果根据温度信息发现有一电子设备温度超过摄氏80度时,则警示条件一符合,如果根据设定文件某一电子设备应处于运作的状态,但根据温度信息或/和状态信息该某一电子设备并未运作(该电子设备的温度偏低或/和灯号未亮),则警示条件二符合。因此若任何一个警示条件符合就代表数据中心150有异常事件。
[0065] 警示单元112更可对温度信息与状态信息进行与设定文件的比对,例如根据温度信息与状态信息判断是否与设定文件的配置有差异,如果差异大于一预订值则代表数据中心150有异常事件。例如按照设定文件应该有10个电子设备正在运作,然而根据温度信息与状态信息可以得知实际上只有8个电子设备在运作,因此数据中心150有异常事件。异常事件可能是灯号状态异常、温度异常、操作系统设定错误等。
[0066] 警示单元112除了根据当前的温度信息与状态信息判断数据中心是否也异常事件,也可通过控制单元111存取存储在图像数据库115的先前面板图像、先前机构图像与先前热图像并取得对应的先前温度信息与先前状态信息,或者是数据中心其他地方例如其他机柜的温度信息与状态信息。举例而言,警示单元112可根据同一时间不同机柜部位的温度信息与状态信息判断是否有异常事件,也可以根据不同时间相同机柜部位的温度信息与状态信息判断是否有异常事件,更可以根据不同时间不同机柜部位的温度信息与状态信息判断是否有异常事件。
[0067] 如果警示单元112判断出数据中心150有异常事件,则警示单元112通过网络管理协议130传送警示信号至操作系统160使操作系统160进行负载管理。举例而言,操作系统160结合应用操作系统160所配备的模块,例如实体资源管理(Physical Resource Management,PRM)模块、静态资源预测管理(Static Resource Provisioning Management,PRM)模块、动态运行虚拟机器管理(Dynamic runtime Virtual Machine Management,DVMM)模块、分散式主存储管理(Distributed Main Storage Management,DMS)模块、分散式次存储管理(Distributed Secondary Storage Management,DSS)模块或可适性负载平衡(Scalable Load Balancer,SLB)模块等进行数据中心150的负载管理。
[0068] 当警示单元112根据温度信息以及警示条件判断出其中一电子设备的温度超过警示条件的预设温度时,警示单元112通过网络管理协议130传送一负载迁移指令至操作系统160,使操作系统160根据负载迁移指令将安装于电子设备的多个虚拟机器的其中至少之一迁移至其他电子设备。举例而言,根据操作系统160的设定文件,一服务单元SN1上配置有虚拟机器VM1、VM2、VM3与VM4。在经过如上所述的可见光图像提取单元120、非可见光图像提取单元122以及可见光图像提取单元124分别提取机构图像、热图像与面板图像后,警示单元112根据融合机构图像与热图像所得的融合图像取得温度信息,并从图像识别单元114取得状态信息,当警示单元112根据温度信息得知服务单元SN1的温度超过警示条件设定的摄氏80度时,警示单元112通过网络管理协议130传送一服务单元SN1的负载迁移指令至操作系统160,操作系统160根据服务单元SN1的负载迁移指令,从服务单元SN1上配置的虚拟机器VM1、VM2、VM3与VM4的一虚拟机器或是一部分(例如百分之十)的虚拟机器迁移至其他服务单元SN2,以达到负载管理的效果。在迁移虚拟机器时,也可以根据各虚拟机器的负载大小决定要迁移哪个虚拟机器,例如先迁移走负载最大的虚拟机器。
[0069] 当警示单元112根据温度信息、状态信息以及设定文件判断出其中一电子设备故障(fail)时,则警示单元112通过网络管理协议130传送一故障指令至该操作系统160,使操作系统160根据故障指令将安装于该电子设备的全部虚拟机器迁移至其他电子设备。举例而言,根据操作系统160的设定文件,一计算单元CN1上配置有虚拟机器VM5、VM6、VM7与VM8,因此计算单元CN1的状态应为运作中。在经过如上所述的可见光图像提取单元120、非可见光图像提取单元122以及可见光图像提取单元124分别提取机构图像、热图像与面板图像后,警示单元112根据融合机构图像与热图像所得的融合图像取得温度信息,并从图像识别单元114取得状态信息,当警示单元112根据温度信息得知计算单元CN1的温度低于摄氏30度时,则判定整个计算单元CN1并未正常运作,或者是当警示单元112根据状态信息得知计算单元CN1的灯号并不是代表正常运作中的绿色而是代表未正常运作的橘色时,则判定整个计算单元CN1并未正常运作。当警示单元112判定整个计算单元CN1并未正常运作时,警示单元112通过网络管理协议130传送计算单元CN1的故障指令至该操作系统160,使操作系统160根据计算单元CN1的故障指令将计算单元CN1的全部虚拟机器VM5、VM6、VM7与VM8迁移至其他计算单元CN2。
[0070] 当操作系统160进行上列所述的虚拟机器迁移时,操作系统160可随时通过网络管理协议130、警示单元112去存取状态信息与温度信息以确认迁移动作是否已排除异常事件,如果没有成功排除则进行下一阶段的迁移。
[0071] 上述虚拟机器对应实体机器的配置情形以一图表记录,此图表上记载各实体机器的中央处理单元(Central Processing Unit,CPU)与存储器的使用率,也记录对应各实体机器上的由虚拟机器模块所创造的各虚拟机器。例如实体机器PM1的CPU使用率为0%,存储器使用率为27%,实体机器PM1的虚拟机器清单记录了4个虚拟机器的名字。
[0072] 当数据中心使用者从图表上得知一实体机器,例如实体机器PM4的CPU使用率或存储器使用率太高(超过一预设值)时,或是接收到警示单元所传送的警示讯息而查看图表发现实体机器PM4的CPU使用率或存储器使用率太高时,数据中心使用者可将实体机器PM4下的一虚拟机器至其他任意一个并未负载过重的实体机器。或者数据中心使用者也可根据融合图像或热图像调整虚拟机器的配置。除此之外,数据中心使用者也可因为其他特别考虑条件,例如CPU的速度等,根据图表、融合图像或热图像随意配置虚拟机器,以轻松管理负载。而负载管理程序可使用图形界面来呈现图表,并让数据中心使用者通过鼠标将虚拟机器的名称拖曳至图表中其他实体机器下的虚拟机器清单来简单地达成配置虚拟机器的任务。
[0073] 除此之外,当警示单元112判断出数据中心150有异常事件时,警示单元112通过控制单元111传送一警告信号至输出入接口117与网络单元116,然后输出入接口117再将警告信号传送至输出设备140,网络单元116通过互联网132将警告信号传送至远端管理者终端172。例如若输出设备140为具有音响的显示装置则警告信号使输出设备140发出警铃声,藉以提醒近端管理者174能马上察觉数据中心的异常事件并进行异常排除。
[0074] 远端管理者终端172也可随时经由互联网132与网络单元,通过控制单元111存取融合图像与状态信息,藉以监控数据中心的状态。类似地,近端管理者174也可随时通过输出设备140经由输出入接口117,通过控制单元111存取融合图像与状态信息,藉以监控数据中心的状态。
[0075] 另一方面,数据中心使用者170也可通过操作系统160、网络管理协议130、警示单元112与控制单元111存取融合图像与状态信息,藉以监控数据中心的状态。当然数据中心使用者170、远端管理者终端172与近端管理者174也可存取存储在图像数据库的先前图像。另外也可指定不同的存取权限给数据中心使用者170、远端管理者终端172与近端管理者174,使数据中心使用者170、远端管理者终端172与近端管理者174根据权限进行不同程度的数据中心管理。
[0076] 在另一个例子中,控制单元111也可以先作一些初步判断,再决定是否要将温度信息与状态信息传送给警示单元112。举例而言,控制单元111经由警示单元112以及网络管理协议130取得操作系统160的设定文件,并比对温度信息、状态信息与设定文件。如果温度信息或/和状态信息与设定文件相同或其之间的差异小于一预定值,代表数据中心运作正常,则控制单元111将面板图像、机构图像与热图像对应其机柜编号(位置)与拍摄时间存储至图像数据库115,而不进一步将融合图像与状态信息传送至警示单元112。如果温度信息或/和状态信息与设定文件之间的差异大于该预定值,代表数据中新有异常事件,则控制单元111将融合图像与状态信息传送至警示单元112,使警示单元112作进一步判断并使警示单元112传送信号至操作系统116以使操作系统116进行负载平衡等处理。上述的预定值可为一警示条件的阈值,例如安全温度为摄氏70度,但上下摄氏2度为可容许的差异。
[0077] 另一方面,除了数据中心使用者170在通过管理界面162操作管理数据中心150的同时设定警示条件外,远端管理者终端172也可通过互联网162与网络单元116设定警示条件,近端管理者174也可通过输入装置142与输出入接口117设定警示条件。警示条件可存储于设定文件、控制单元111或警示单元112中。
[0078] 以上说明虽以数据中心的机柜为主,但根据数据中心的配置与图像提取单元的解系度也可以一次提取数个机柜的图像或是一次只提取一个机柜的一部分图像。此外,虽然上述实施例中仅提取机柜的散热侧的热图像,但根据管理需求的不同,也可提取面板侧的热图像。
[0079] 上述的控制单元111、警示单元112、图像融合单元113、图像识别单元114、网络单元116与输出入接口117为具有一般处理器功能的处理单元。
[0080] 图4所示为根据本发明一实施例的监测管理方法400的步骤图。监测管理方法400适用于货柜式数据中心150,数据中心150包括多个机柜152,每个机柜152包括多个电子设备。以下步骤说明中与上述图1的元件相同的部件沿用图1的元件标号。
[0081] 在步骤S401中,可见光图像提取单元120提取所述机柜的散热侧的图像以产生机构图像,非可见光图像提取单元122提取所述机柜的散热侧的图像以产生热图像。在步骤S402中,可见光图像提取单元124提取所述机柜的面板侧的图像以产生面板图像。接着在步骤S403中,图像融合单元113融合机构图像与热图像以产生融合图像。在步骤S404中,图像识别单元114利用图像识别,根据面板图像判断所述机柜的电子设备的灯号状态以及网络端口连接状态,并产生状态信息。
[0082] 在步骤S405中,控制单元111将面板图像、机构图像与热图像对应其机柜编号(位置)与拍摄时间存储在图像数据库115中。在步骤S406中,警示单元112根据融合图像、状态信息与数据中心的设定文件判断数据中心是否有异常事件。警示单元112根据融合图像产生数据中心150的温度信息,警示单元112根据温度信息、状态信息与设定文件,判断是否符合多个警示条件其中之一,如果是,则判断数据中心150有异常事件。
[0083] 如果没有异常事件,则在步骤S407中判断监测管理方法是否结束,如果否,则在步骤S408中经过一段时间T(例如1到10分钟)后回到步骤S401,如果是,则监测管理方法结束。
[0084] 如果在步骤S406中警示单元112判断有异常事件,则在步骤S409中,警示单元112传送一警示信号至操作系统160,使操作系统160根据警示信号进行数据中心150的负载管理。如果电子设备其中之一电子设备的温度超过警示条件的预设温度,则警示单元112传送该电子设备的负载迁移指令至操作系统160,使操作系统160根据该电子设备的负载迁移指令将安装于该电子设备的多个虚拟机器的其中之一虚拟机器或一部分的虚拟机器迁移至其他电子设备。如果异常事件为其中之一电子设备故障;则警示单元112传送该电子设备的故障指令至操作系统160,使操作系统160根据该电子设备的故障指令将安装于该电子设备的全部虚拟机器迁移至其他电子设备。除上述负载管理动作外,本发明尚可进行备份、失败复原、甚至直接关闭电子设备的动作。
[0085] 上述的监测管理装置与方法也可应用于监视数据中心以外的电子系统,例如大型主机或超级计算机等。
[0086] 综上所述,本发明通过结合热影与机构图像的融合图像可快速得知各电子设备的对应温度,且不用大量配置点传感器,因此即使数据中心内部的电子设备配置有变动也不会影响本发明判别对应温度的运算。除此之外,由于图像提取单元是提取一整面的连续信息,不像点传感器所提取的信息在空间上并不连续,因此本发明的可靠性增加。另外,通过面板图像与图像识别可以识别面板上的灯号以及网络端口的状态。通过融合图像与面板图像所得的温度信息与状态信息可使警示单元更有效且可靠地判断数据中心的负载状况与操作状况,当警示单元检测到异常事件时会回馈给数据中新的操作系统,使操作系统即时根据可告的景视信号进行负载管理等处理,因此本发明可更有效率且更可靠地监测管理数据中心。
[0087] 本发明的方法,或特定类型或其部分,可以以程序代码的类型存在。程序代码可以包含于实体媒体,如软盘、光盘、硬盘、或是任何其他电子设备或机器可读(如计算机可读)存储介质,亦或不限于外在形式的计算机程序产品,其中,当程序代码被机器,如计算机载入且执行时,此机器变成用以参与本发明的装置或系统,且可执行本发明的方法步骤。程序代码也可以通过一些传送媒体,如电线或电缆、光纤、或是任何传输类型进行传送,其中,当程序代码被电子设备或机器,如计算机接收、载入且执行时,此机器变成用以参与本发明的系统或装置。当在一般用途处理单元实作时,程序代码结合处理单元提供一操作类似于应用特定逻辑电路的独特装置。
[0088] 以上所述为实施例的概述特征。本领域技术人员应可以轻而易举地利用本发明为基础设计或调整以实行相同的目的和/或达成此处介绍的实施例的相同优点。本领域技术人员也应了解相同的配置不应背离本创作的精神与范围,在不背离本创作的精神与范围下他们可做出各种改变、取代和交替。说明性的方法仅表示示范性的步骤,但这些步骤并不一定要以所表示的顺序执行。可另外加入、取代、改变顺序和/或消除步骤以视情况而作调整,并与所公开的实施例精神和范围一致。