技术领域
[0001] 本发明涉及硬件设备监控领域,具体涉及一种基于物联网技术的机房硬件设备监控装置。
相关背景技术
[0002] 数据中心承载着大型企业业务数据处理的重要任务,是企业稳定运行的必要措施。而由于企业的机房数据中心内的部分硬件设备可能处于停保阶段,即不具备实时维护服务的硬件设备,目前数据中心的硬件设备包括大型主机、小型机PC服务器、存储、交换机、带机、带库、负载均衡和专用设备等,做到对设备故障的快速发现、快速定位和快速处置尤为重要。
[0003] 而目前进行机房内硬件设备的监控故障识别主要依靠人工巡检、系统监控平台,其中人工巡检时会出现漏检、指示灯损坏导致显示错误的情况,系统监控平台仅能识别少数硬件故障,对于大部分的告警信息(如CPU、风扇和电源等)均无法识别,又例如人工巡检存在空白时期,即无人值守时期如何保证硬件设备出现故障能够自动或被动关闭相应硬件设备并通知技术人员等待维修是存在的技术问题,因此,对于数据中心机房的全部硬件设备无法被实时监控,导致不能对硬件设备出现故障时的及时发现并处理,本申请提出了一种解决方案。
具体实施方式
[0025] 下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0026] 实施例一
[0027] 针对无人值守时期如何保证硬件设备出现故障能够自动或被动关闭相应硬件设备并通知技术人员等待维修是存在的技术问题,为此提出了如下的技术方案:
[0028] 参照图1‑4,本实施例中一种基于物联网技术的机房硬件设备监控装置,包括集中监控平台和通信模块,集中监控平台通过通信模块通讯连接有带外监控模块、带内监控模块、数据库管理模块以及远程管理模块;
[0029] 带外监控模块通过IPMI专用接口与硬件设备服务器相连,包括管理控制器和传感器,管理控制器用以解析和执行IPMI定义的指令集;传感器预设于待监控硬件设备上;
[0030] 带内监控模块是基于集中监控平台中的局域内网布设,包括有与操作系统连接的交互单元、访问模块、信息过滤模块以及分析判断模块;
[0031] 数据库管理模块通过带外监控模块和带内监控模块获取到的硬件设备信息,将硬件设备信息进行整合并存储;
[0032] 远程管理模块包括通信控制模块,通信控制模块获取硬件设备信息后,由通信模块传输至手持终端。
[0033] 带外监控模块对机房内硬件设备信息的获取流程如下:硬件设备服务器将对硬件设备的监控指令发送至管理控制器,管理控制器通过预设的传感器实时获取硬件设备内的数据记录,并自动生成事件日志,供后续的查询和分析,若收集到告警信息和超过预设阈值的相关参数数据,则将该告警信息和超过预设阈值的相关参数数据发送至远程管理模块,并由远程管理模块与集中监控平台连接形成数据传输;
[0034] 带内监控模块对机房内的硬件设备信息的获取流程如下:交互单元获取到集中监控平台发出的指令后,通过访问模块进行操作系统中硬件设备信息的获取,获取到的硬件设备信息通过信息过滤模块进行筛选并结合分析判断模块选定可更换设备的信息,将可更换设备的数据信息显示,并由通信模块反馈至集中监控平台;集中监控平台将获取到的可更换设备的数据信息发送至远程管理模块,远程管理模块通过通信模块完成数据信息的传递;
[0035] 基本原理:在进行机房内硬件设备的实时监控时,当硬件发生故障时,及时的通过该监控系统完成快速识别、处理,具体采用带内监控模块辅以带外监控模块共同进行硬件设备状态信息的快速获取,能够自修复的状态信息通过数据库管理模块进行自检修复,而无法自修复的状态信息则传输至手持终端后由人为判定是否需要进行相应设备的更换;相比以往,解决了在无人值守时期,机房硬件设备的状态信息无法被实时监控的弊端,以机房设备的状态信息为判断标准作出告警,并且实时进行远程传输、远程管理和故障修复于一体的操作。
[0036] 实施例二
[0037] 在进行机房设备的数据信息获取的过程中,如何将数据信息建立起机房硬件设备、集中监控平台以及手持终端之间的连接是亟须解决的,具体如下:
[0038] 还包括有机房设备控制模块和后台管理模块,机房设备控制模块包括有传感器,用以进行硬件设备的温度、工作时间、工作状态及工作流量的数据获取,机房设备控制模块与集中监控平台通讯连接,机房设备控制模块将硬件设备的温度、工作时间、工作状态及工作流量数据反馈至集中监控平台,由集中监控平台判断是否发出监控指令;后台管理模块与集中监控平台相连。
[0039] 具体是通过:首先,将后台管理模块与集中监控平台建立连接,并且手持终端是与集中监控平台始终通过通信模块处于连接状态的,当机房内硬件设备出现故障信息时,其中故障信息表现为温度异常、工作时间过长、工作流量过大或损坏等情况,由机房设备控制模块通过传感器实时获取到上述故障信息,并将故障信息发送至集中监控平台,以集中监控平台进行监控指令的判断,判断后将监控指令发送至后台管理模块中,通过后台管理模块对该故障信息作出的判断发送至手持终端,并且通过手持终端进行指令的发送,以达到故障自检或故障修复的目的。
[0040] 实施例三
[0041] 本实施例结合到实施例一和实施例二的技术内容,以集中监控平台所形成的数据综合形成数据库,并以数据库的数据进行机房硬件设备的监控数据信息的数据备份、修复错误及故障修复等,方案具体如下:
[0042] 参照图2,数据库管理模块在与集中监控平台相连时,通过数据库进行机房硬件设备的监控数据信息的数据备份、修复错误及故障恢复:数据备份包括定期备份、差异备份以及全备份,还包括有数据的加密与压缩;修复错误包括错误检测和修复;故障恢复包括故障定位与诊断和恢复执行。
[0043] 其中数据备份的运行流程如下:根据机房硬件设备监控的数据信息的传递频率,确认数据备份频率,且根据机房硬件设备的数据信息类型,确认采用定期备份、差异备份或全备份,定期备份:定期进行备份、确认保留时间和备份存储位置;全备份:备份所有数据;差异备份:备份自全备份以后的全部数据信息;数据的加密与压缩:对所有的数据信息进行加密与压缩;
[0044] 其中修复错误及故障恢复的运行流程如下:根据机房硬件设备监控的数据信息的事件日志文件获取错误/故障类型,再根据错误/故障类型进行错误/故障修复,包括从数据备份中恢复数据信息、重新启动服务和修复损坏的数据文件,再执行修复错误及故障恢复;验证修复与否,若修复完成,则停止修复;反之重复操作。
[0045] 方案效果如下:
[0046] 机房内硬件设备出现错误/故障后,其数据出现损伤,不仅生成事件日志文件,还能够根据硬件设备监控数据进行错误/故障类型的判断,根据错误/故障类型进行错误/故障修复,以达到确保机房内硬件设备的监控数据始终处于完整状态,有利于后续的查看和分析;
[0047] 且监控数据得到备份和加密、压缩,数据备份是便于出现数据缺失时快速进行的数据恢复,而数据加密则是通过数据的加密保障数据的安全性,数据的压缩,则降低数据库的储存压力,提升储存空间。
[0048] 实施例四
[0049] 出现硬件设备故障时,技术人员进行远程管理控制的流程如下:
[0050] 参照上述的实施例二,具有以下步骤:
[0051] 步骤1:技术人员通过手持终端将控制命令发送至通信模块,通信模块将控制命令转换发送至远程管理模块;
[0052] 步骤2:远程管理模块根据接收到的控制命令进行技术人员的身份识别做出判断,若是,则继续发送该控制命令至集中监控平台;若不是,则停止;
[0053] 步骤3:集中监控平台接收到该控制命令后,由数据库管理模块实时调取数据库中的数据信息,与该控制命令所对应的硬件设备的正常工作温度、事件、状态及流量等发送至集中监控平台作出逐一分析并判断,若超限,则发出相对应的硬件故障告警,并反馈至步骤1中的手持终端,若未超限,则继续分析下一项目;
[0054] 步骤4:能够以补充数据信息进行修复的故障自动进行修复,需要进行相应设备的更换即反馈详细更换信息,并在手持终端作出进行紧急提示;
[0055] 步骤4:故障分析和判断完毕后,上述的步骤1/2/3形成的监控数据信息存储在数据库中,将最终反馈信息发送至手持终端,结束;
[0056] 综上:该机房硬件设备监控装置在硬件发生故障时,及时的完成快速识别、处理,具体采用带内监控模块辅以带外监控模块共同进行硬件设备状态信息的快速获取,能够自修复的状态信息通过数据库管理模块进行自检修复,而无法自修复的状态信息则传输至手持终端后由人为判定是否需要进行相应设备的更换;相比以往,解决了在无人值守时期,机房硬件设备的状态信息无法被实时监控的弊端,以机房设备的状态信息为判断标准做出告警,并且实时进行远程传输、远程管理和故障修复于一体的操作。
[0057] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
[0058] 在本说明书的描述中,参考术语“一个实施例”“示例”“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0059] 以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。