前言:

数据中心机房监控主要是针对机房所有的设备及环境进行集中监控和管理,机房监控系统广泛应用在各行业领域,采用分散部署、集中监控系统完成全天候、无人值守的监控工作,确保机房设备的稳定运行,提高机房管理的安全性能和可靠程度,实现机房的科学管理。因此,机房监控的核心应该是对IT系统运行状态的监控,而最直接有效的监控应该是直接对IT设备运行状态进行监控。传统机房的物理安全性得不到保障,传统机房监控系统存在哪些问题?如何改变传统机房环境监控的现状呢?

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

传统机房监控系统存在的问题

1、监控系统“监”与“控”的问题

(1)现在的监控系统一般来说是多“监”少“控”,监视点的数量要远远大于控制点的数量。按照辩证思想来说,这两者之间作为监控系统的两大功能应该是相辅相成、缺一不可的,有多少监视量就应该有多少控制量。

(2)在实际情况中,往往控制量比监视量更重要,就算知道动力设备或环境参数运行过程中超出了其正常范围,但如果无法通过有效的手段去改变设备的运行状态,那根本就没有处理故障的可能性,对设备的监视往往就成了虚实无华的摆设。举个简单的例子来说,值班人员在值班过程中发现一个基站环境温度过高,那么他可以通过控制空调的开关或调低空调的温度设置点来达到解决故障的目的。假设监控系统没有控制量,那么我们只能通知代维人员去基站打开空调或调低空调温度设置点,这种方法不仅延误了故障处理时间又造成了人力资源的浪费,是不可取的。因此,监控系统应该考虑“监”和“控”平衡发展,在“监”的同时不要忽略“控”的重要。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

2、系统的开放性问题

(1)一个优秀的系统必然会有良好的兼容性及强大的扩充能力。按照电信行业的发展趋势,必然会出现集中网管的组成形式,因此动力电源、环境及图像集中监控系统应该能给其它网管系统提供友好的程序扩展接口。

(2)集中监控系统数据应能够基于TCP/IP网络协议传输。TCP/IP协议作为计算机网络体系的核心协议,对网络通信中从硬件故障、网络拥塞、分组延迟或丢失、数据损坏到数据重复或失序等影响通信的问题都有相应的解决和纠正办法,很好地保证了数据包的完整和收发的可靠。由于TCP/IP协议的开放性和广泛应用,我们利用Telnet远程登陆访问端局数据。而上面所提到的派工单系统在基于TCP/IP协议的组网形态下将能够比较方便的实现。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

3、监控系统的图像问题

机房图像监控系统作为动力电源监控系统一个重要的分支没有必要单独做一套独立的系统,如果能整合到业务台网管软件将大大提高图像监控系统的使用率,值班人员可通过网管业务台软件调节摄像头对无人机房和重要动力设备指示灯及数据显示屏进行实时监控,实现真正意义上的局房无人值守或少人值守。

然而,随着两套系统的整合,庞大的图像数据势必将占用大量的传输带宽,因此拓宽系统网络带宽,提高系统数据处理能力势在必行。另外,由于机房环境图像几乎是不变的图像,不同于银行、交通关卡等对图像实时性要求较高的环境,因而不必采用高速率实时传送。我们可以适当降低图像系统每秒传输帧数以减少数据流量。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

4、监控系统网络速度问题

随着监控工程规模的不断扩大,被监控设备和监控点不断增多,必然会有大量的数据需要处理分发,读出和写入数据库。如此庞大的数据对于网络带宽和服务器的承载能力提出了更高的要求。随着今后监控系统的发展,担负节点通信机功能的设备应该由硬件系统承担,而且采用串口通信的端局最好分散在不同的前置机系统上,以便告警信息的及时响应。

5、监控系统的管理问题

监控系统的管理比系统本身更重要,概括如下:

(1)集中监控系统自身的维护,包括集中监控系统日常打印、通信、数据存贮、备份、清洁外围设备等管理。

(2)集中监控系统中显示的动力设备故障处理流程管理,对历史数据进行统计、分类,以详尽的分析报告对设备运行参数进行客观评价,为设备故障处理和今后设备选型提供可靠的依据,包括对历史数据和分析报告等其它数据的打印存档管理。

(3)对历史数据进行分析整理,能预先发现动力设备中有可能存在的安全隐患,提前发现故障,采取相应的处理措施,减少故障的发生几率,即通常所说的“预诊断”、“预告警”。如能提前做好这一步管理工作将大大提高我们的网络运行质量,实现对设备资源和人力资源的合理化管理。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

6、电磁干扰的问题

目前数字技术的应用越来越普遍,电磁污染也日益严重,特别是监控系统的前端采集部分,置于电源设备的现场,更易受到影响。一般监控系统受到的电磁干扰来自计算机内、外部。计算机内部干扰有信号反射、高频电路辐射、元器件噪声、寄生耦合等;来自计算机外部的干扰包括电器设备的干扰(如开关冲击、电磁辐射干扰、电器设备的放电)、自然方面的干扰(如雷电、电磁脉冲以及静电干扰等)。

估计现在许多基站监控故障后通过复位能解决的程序走飞现象也是产生电磁干扰的原因之一,所以抗干扰也是监控系统的重要课题。监控系统的计算机抗干扰通常采取的措施包括:

(1)计算机内部电路板的制作考虑元器件、布线的合理布置,采用隔离、分离、走向的办法减少内部电路的干扰。

(2)处理好电源馈线、机内贯穿导线的走向,合理设计地线系统及各部分间的电连接,消除和抑制电磁及静电干扰。

(3)采用滤波器、去耦电路等防止或减小对电路的干扰。

(4)采用屏蔽隔离手段防止或减小电磁的直接干扰。

(5)良好的接地方式防止或减小电磁及雷电的干扰。

(6)软件数字滤波可防止或减小电磁辐射、电磁脉冲等对通道的干扰。

(7)软硬件看门狗可防止由于电磁干扰而产生的程序走飞情况。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

7、集中监控系统的软件问题

集中监控软件(网管系统)作为人机界面,可操作性和便利性至关重要,同时软件系统还必须具有高智能性。所谓高智能性应该包括以下几个方面:

(1)数据采集应该采用轮询和中断两种机制。在系统正常运行、数据变化不大时系统采用轮询的方法隔时上报数据或者在网管中心发出查询命令时实时上报数据;在设备运行数据发生突变时,系统以中断的方式及时上报数据。这样既减少了总线中的数据流量又保证了重要的故障数据不会被遗漏。

(2)系统具有自诊断功能,即能自动判断系统中出现的故障是动力设备故障还是监控系统本身故障。

(3)能根据用户需求自动生成各类报表,如设备故障次数、故障种类、故障分布情况,为以后设备选型和故障分析提供可靠的依据。

(4)设备用电情况以及高、低峰时期负荷分配情况也是今后动力维护中应该关注的一个问题。监控软件应能根据设备用电情况统计出各基站和交换局月用电度数,为动力设备合理分配用电时间和公司开源节流做出贡献。

(5)在系统中植入蓄电池智能分析模块,利用基站停电过程对蓄电池进行性能分析并形成分析报表。

(6)系统能根据以前故障处理经验为故障诊断和故障处理提供依据及解决方案。

(7)系统生成派工单应可以在网络上流转,故障责任人填写处理结果后可由系统统一归档存入数据库,必要时能对派工单生成统计报表以供查询。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

8、监控系统的实用性问题

由于新技术、新工艺及高质量的器件在通信电源设备的生产制造中得到广泛应用,监控系统的可靠性、自动化程度有了很大提高,如开关电源设备、UPS、柴油发电机组等智能设备以及目前普遍使用的阀控蓄电池组等非智能设备,它们都有较高的可靠性,这对通信电源集中监控管理,实现通信电源设备少人、无人值守的目的提供了较好的条件。

而通信电源监控系统的可靠性问题也同样至关重要,因为监控系统可靠性问题解决的好与坏,直接影响到通信电源设备现代维护管理体制的建全和发展,影响到能否提高通信电源设备维护管理水平、提高通信电源供电质量、实现少人或无人值守的目的。

目前很多动力设备自身运行质量已经比较完善,系统运行MTBF(平均无故障运行时间)在10万小时以上,如果监控系统连被控设备的要求都无法达到,我们在动力设备无故障的情况下还需要投入大量的人力和物力去维护监控系统,那么我们投入监控系统的目的就无法实现。因此在电源监控系统的性能不断完善的基础上,更应注重提高监控系统自身的可靠性。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

如何改变传统机房环境监控的现状

1、完善的机房监控系统应该具备三大特点:

(1)能够实现从设备运行情况到机柜微环境再到机房整体环境这样多层次的监控;

(2)能够有丰富的阈值设置以监测出危机的存在,并能有丰富的预警方式和预警流程保证相关人员能够收到警讯,达到预警的目的;

(3)具备网络化、智能化,能够随时随地通过网络查看机房内的情况。

目前国内普遍缺乏机房场地设备的专业管理人员,对机房进行计算机自动化管理显得十分重要。为了减少因环境和人为失误造成的损失,用户需要拥有一套先进、可靠的机房环境监控与预防系统来确保设备的安全运行,计算机机房和数据中心支撑着各类企事业单位现代化生产体系的正常运行,一些机房甚至已成为无人值守型。在这种情况下,任何一个由于环境因素和人为失误造成的意外系统中断和设备损坏都会给企事业单位带来巨大的损失,为了减少这种损失,用户需要有一套先进、可靠的机房环境监控与预警系统来确保设备的安全运行。该系统必须能够随时随地观察到机房的情况、必须能及时地发出预防性报警、通知有关人员、采取措施、防止事故发生。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

综上所述,完善的机房监控系统应该具备三大特点:能够实现从设备运行情况到机柜微环境再到机房整体环境这样多层次的监控;能够有丰富的阈值设置以监测出危机的存在,并能有丰富的预警方式和预警流程保证相关人员能够收到警讯,达到预警的目的,具备网络化、智能化,能够随时随地通过网络查看机房内的情况。

然而,传统机房环境监控是把重点放在对机房整体环境、空调及配电柜的监控上,而忽视了对设备内部的监控。另外,传统机房环境监控系统也缺少丰富的阈值、预警方式和预警流程设置,不能在真正意义上实现预警功能。

2、必须对设备内部进行监控

机房监控的目的在于保护机房内IT系统的正常、有效运行,在事故发生之前侦测出潜在危机,并通过各种方式将警情信息发送给相关人员及时进行处理。因此,机房监控的核心应该是对IT系统运行状态的监控,而最直接有效的监控应该是直接对IT设备运行状态进行监控。

IT设备内部的运行环境,例如服务器内风扇转速与CPU温度等是最直接、最迅速影响IT设备正常运行的因素。有时候即使机房内空调运转正常,机房整体环境参数值也在预设范围内,但某服务器却因为某种原因出现服务器内风扇的转速不正常、CPU过热。如果只监控机房整体环境,此时机房的管理人员是不会得到这种危险信息的,整个系统就会因为该服务器潜在危机没有得到及时处理而意外瘫痪。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

3、实施多层次的机房监控

完善的机房监控系统应该是能够实现对从设备运行情况到机柜微环境再到机房整体环境这样多层次的监控,并能重点实现对设备内部的监控,我们都知道,机柜内的微环境是设备正常运行所需要的物理环境。机柜微环境参数最能体现设备所处的实际运行物理环境的情况,所以实现对机柜内微环境的监控也相当重要。机房各个点的环境参数值是不同的,因此机房内整体环境监测的参数不能体现各机柜微环境参数,更不能体现重要设备内部的环境。也就是说,即使机房整体环境参数正常,IT设备所在处的环境也不一定正常。所以说机房的整体环境监控的重要性次于对设备的监控和对机柜内微环境的监控。

空调机的运行是为了降低机房内的温度,使机房内的整体温湿度保持在一个合适的范围内,机房各个点的温度参数值是不同的。空调机出风口的温度值不能说明机房的整体温度和机柜微环境温度,空调的正常运行不能说明设备就能正常运行。因此对空调的监控不能代表甚至取代对设备的监控。

漏水监测系统是为了监测机房内是否有漏水,以防止因漏水影响设备的正常运行。线式探测器是成线型布置在机房可能漏水的最低处,而实际上点式漏水探测器同样可以反映机房的漏水情况且比线式探测器经济实惠、安装方便、维护简单。

机房内设备由于非常重要,一般都是采用UPS供电,并且UPS是双供电,只要对UPS进行监控就能确保设备正常供电并且能反映市电的情况。因此,对电源的有效监控是在不增加任何投资的情况下通过协议实现对UPS的监控,通过监控其电压、电流、电池使用情况、市电情况来确保设备的正常运行。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

4、机房监控的预警功能

(1)报警(alarm)是报告事件的发生,是在故障或危害发生之后向管理人员发送警讯,及时地发送警讯可以缩短故障修复时间(MTTR),最大程度地保障系统运行。但故障还是不可避免地发生了,影响了系统的正常运行。

(2)预警(alert)则是在故障或危害发生之前向管理人员报告潜在危机,提示相关人员进行处理,是事前的,可以防止事故的发生。有效的预警可以增加系统平均无故障工作时间(MTBF),并可以根据危机情况自动延伸到报警。

预警与报警的区别就在于它是事前预防性报警,机房监控系统只有具有良好的预警功能才能侦测出潜在危机并分层次逐步扩大警讯发送范围,有效地防止事故的发生,将损失降低到最小。越来越多的机房管理人员也开始意识到预警的重要性,因此机房监控系统必须有预警功能。

那么,机房监控该如何实现预警功能呢?首先,可以通过灵活的阈值设置多种侦测方式,确保能及时地发现潜在危机;其次,通过设置多种预警的方式,确保所有相关人员无论在何时何地都能收到警讯;再次,设置多个预警流程,确保不同的相关人员在不同时间接收到不同程度的警讯,这样,一旦有危机出现,立刻将信息发送给相关人员直至危机得到有效处理,实现真正意义的预警功能,最大程度地保护系统的运行。

这种将网络运维和机房的配电电源监控、环境监控、和安全视频监控结合在一起监控,基于TCP/IP及SNMP,就能够高度的集中管理,不仅能够将单个机房内各种动力设备与环境设备的各种状态信息、报警信息、控制命令与历史数据等进行完整的集中监控,并且能够将分布在全国各地的多个机房实现跨区域的集中监控。用户只需登录一套系统就完成对整个资源的管理,免去了登录多套系统的麻烦。

为防止外人非法闯入实施破坏和盗窃行为,可根据机房现场环境合理配置门禁和红外等探测器实现防盗报警。如果生后报警会将联动打开辅助摄像灯光,摄像机会自动切换到相应位置并开始录像,同时通过短信,邮件等多种发生向用户发出报警。真正实现无人值守、集中化、自动化的机房维护管理,管理和监控是息息相关的。只有企业具备完善的管理能力能才保证监控发挥作用。

传统机房监控系统存在哪些问题?如何改善机房监控现状?-IDC帮帮忙

总结:

动力电源、环境及图像监控系统已成为机房无人值守或少人值守必不可少的手段,起到了减轻维护人员的工作量,提高维护质量的作用。集中监控系统不仅能够提供四遥功能,还能对采集到的数据进行各种智能化处理和分析,而且系统软件具有灵活的组态功能,能够满足维护人员的维护需求,提高了维护水平。正因为这些不可比拟的优越性,集中监控系统在动力维护领域内将处于越来越重要的地位。但如果要使集中监控向更加自动化、智能化的方向发展,还需要我们的不断努力。