技术领域
[0001] 本发明涉及监控领域,尤其一种监控报警装置及监控报警方法。
相关背景技术
[0002] 随着信息技术的发展,为满足信息化的需求,各行各业需要用到的服务器的数量与日俱增。多台服务器长时间进行大量的运算,难免其中一台或者多台会出现温度过高、死机、重启以及应用软件无法响应等故障。一旦服务器出现故障,如果对故障的处理不够及时,基于该服务器的系统会受到影响,同时对信息的传输以及存储都会构成威胁。此外,若服务器不能及时恢复正常状态,还可能造成硬件设备的损坏以及其它各方面的经济损失。基于以上问题,需要服务器管理人员及时了解所有服务器的运行状态,甚至需要安排专人
24小时值守并定时检查。但是,通过人工对服务器的运行状态进行监控,无法做到对故障发生的时间以及原因等做到科学的管理,同时还加重了管理人员的负担。
具体实施方式
[0014] 如图1所示,是本发明监控报警装置1的运行环境示意图。该监控报警装置1与服务器机组2中的一个或多个服务器20相连接,并通过网络3与一个或多个远程控制终端4进行通讯。在本实施例中,所述监控报警装置1至少包括两个网络接口。其中一个网络接口通过一个多路模拟开关分别与所述一个或多个服务器20相连接,以建立一个局部通信网络。另一个网络接口连接至所述网络3,使得该监控报警装置1可通过该网络3与所述远程控制终端4进行通信。所述网络3可以是,但不限于,互联网或无线通讯网络。所述远程控制终端4可以是智能手机41、个人数字助理42或计算机43等终端设备。所述服务器机组2可以是一个安装有多个服务器20的服务器机柜。
[0015] 所述监控报警装置1用于实时监控所述服务器机组2中的每个服务器20的运行状态,以及时侦测服务器20所产生的故障,并作出相应的处理,从而及时解除该故障。
[0016] 如图2所示,是本发明监控报警装置1的架构图。该监控报警装置1包括监控系统10、输入输出单元11、报警单元12、存储器13以及处理器14。所述监控系统10包括监控模块101、通讯模块102以及控制模块103等多个软件模块。该监控系统10可固化在监控报警装置1的操作系统中,也可存储在所述存储器13中,并由所述处理器14执行,以对所述服务器20的运行状态进行实时监控。该监控报警装置1可以是一个微型计算机,或者其它具备数据存储和数据处理的控制装置。
[0017] 所述输入输出单元11可以是一个触控显示屏,也可以是一个由鼠标、键盘以及显示器等组成的输入输出装置。该输入输出单元11可显示监控报警装置1所监控到的服务器20的故障信息。用户可操作该输入输出单元11控制发生故障的服务器20做相应的操作,例如重启服务器20、关闭服务器20、软复位该服务器20以及硬复位该服务器20等操作,以利于解除故障。
[0018] 所述报警单元12可以是一个声光报警装置,例如包括一个蜂鸣器和一个LED闪烁灯的声光报警装置。当所述所述服务器机组2中的任意一个服务器20发生故障时,该报警单元12即发出声光报警信号。
[0019] 所述监控模块101用于实时监控每个服务器20的运行状态信息,例如,监控服务器20的风扇转速、处理器温度、硬盘温度以及指示该服务器20中应用程序是否运行正常的信息等,并根据该运行状态信息判断是否有服务器20出现故障。
[0020] 具体地,服务器20中包括一个提供服务器智能管理方案的基板管理控制器(Baseboard Management Controller,BMC)来监控该服务器20的风扇转速、处理器温度以及硬盘温度等健康信息,该基板管理控制器独立于服务器20的处理器、基本输入输出系统(BIOS)以及操作系统而运行。此外,该监控模块101可设置一条看门狗(watchdog)指令,每隔一定时间(例如2分钟)由服务器20的应用程序调用并执行一次该看门狗指令,当该应用程序出现异常而无法执行该看门狗指令时,则产生一个高电平信号,以指示该应用程序运行时出现了异常。因此,监控模块101可通过该基板管理控制器并使用所述看门狗指令监控服务器20的运行状态信息,以对该服务器20进行监控。
[0021] 当有服务器20出现故障时,监控模块101控制所述报警单元12发出报警信号。当报警单元12发出报警信号后,服务器20的管理人员可手动操作监控报警装置1上设置的按钮(未在图1中示出)关闭该报警信号,并通过所述输入输出单元11访问发生了故障的服务器20的操作系统,以解除故障。
[0022] 所述通讯模块102用于判断上述报警信号在一预定时间内是否得到处理,若该报警信号在该预定时间内未得到处理,通过所述网络3发送一条报警信息至所述远程控制终端4。该报警信息包括发生故障的服务器20的机器名称、故障类型以及连接该监控报警装置1的网址。该网址由监控报警装置1的IP地址组成。例如,该报警信息为:“XX机房XX机柜中XX子服务器出现XX故障,详情请远程登入链接:http:\\192.168.1.1\”。
[0023] 所述控制模块103用于接收所述远程控制终端4发送的控制指令,并根据该控制指令控制上述发生故障的服务器20执行相应的操作,以解除该故障。所述控制指令包括控制服务器20开机的指令、控制服务器20关机的指令、控制服务器20软复位的指令以及控制服务器20硬复位的指令等。当故障解除后,该控制模块103控制所述报警单元12停止发出所述报警信号。
[0024] 具体地,所述远程控制终端4可根据上述连接监控报警装置1的网址,并通过所述网络3登入到监控报警装置1所提供的用户操作界面,如图3所示,该用户界面上预先设置多个控制指令选项。然后该远程控制终端4的用户可在该多个控制指令选项中选择一个控制指令发送给该监控报警装置1,以控制所述发生故障的服务器20。对应地,所述控制模块103首先接受远程控制终端4登入所述用户操作界面的请求,然后再接收所述用户在该用户操作界面上选择并发送的控制指令。
[0025] 进一步地,若所述监控报警装置1还支持语音通讯功能,可与所述远程控制终端4建立语音通讯,语音提示远程控制终端4输入相应的控制指令。具体地,当该远程控制终端4接收到所述报警信息时,可向该监控报警装置1发起语音通讯请求。然后,所述控制模块
103接受该远程控制终端4发起的语音通讯请求,并播放一段预设的语音提示信息引导远程控制终端4的用户根据该语音提示信息发送一个控制指令给该监控报警装置1。例如,该语音提示信息可依次包括“请输入需要控制的服务器编号”、“关机请按1”、“软复位请按
2”、“硬复位请按3”等语句。
[0026] 如图4所示,是本发明监控报警方法较佳实施例的流程图。
[0027] 步骤S01,所述监控模块101实时监控每个服务器20的运行状态信息,例如,监控服务器20的风扇转速、处理器温度、硬盘温度以及指示该服务器20中应用程序是否运行正常的信息等,并根据该运行状态信息判断是否有服务器20出现故障。
[0028] 步骤S02,当有服务器20出现故障时,所述监控模块101控制所述报警单元12发出报警信号。
[0029] 步骤S03,所述通讯模块102判断上述报警信号在一预定时间内是否得到处理,若该报警信号在该预定时间内未得到处理,通过所述网络3发送一条报警信息至所述远程控制终端4。该报警信息包括发生故障的服务器20的机器名称、故障类型以及连接该监控报警装置1的网址。该网址由监控报警装置1的IP地址组成。
[0030] 步骤S04,所述控制模块103接收所述远程控制终端4发送的控制指令,并根据该控制指令控制上述发生故障的服务器20执行相应的操作,以解除该故障。所述控制指令包括控制服务器20开机的指令、控制服务器20关机的指令、控制服务器20软复位的指令以及控制服务器20硬复位的指令等。当故障解除后,该控制模块103控制所述报警单元12停止发出所述报警信号。
[0031] 在步骤S04中,所述控制模块103可接受远程控制终端4登入监控报警装置1所提供的用户操作界面的请求,然后再接收所述远程控制终端4的用户在所述预先设置的多个控制指令选项中选择并发送的一个控制指令来控制发生故障的服务器20。
[0032] 此外,该步骤S04中,也可辅助使用监控报警装置1的语音通讯功能来接收所述控制指令。首先,所述控制模块103接收远程控制终端4向监控报警装置1发起的语音通讯请求。然后播放一段预设的语音提示信息引导远程控制终端4的用户根据该语音提示信息发送控制指令给监控报警装置1。例如,该语音提示信息可依次包括“请输入需要控制的服务器编号”、“关机请按1”、“软复位请按2”、“硬复位请按3”等。
[0033] 以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。