1, 机房意外停电后,首先确定停电的范围以及受影响的设备范围。2,确认停电的范围为
本楼或本校区,应立即打后勤管理处电话汇报。估算电力可能恢复的时间。并通知网络中心领导。3,如果确认停电的时间为1个小时内,可以在UPS正常供电的时间内,等到电力恢复,如果不能确认在2小时内恢复,立即汇报给机房电源维护负责人和中心机房各设备的负责人到达现场。做好各设备的电源停电准备,在UPS供电达1.5小时后,严格殷实操作手册停掉存储和各应用服务器的电源。最后停核心交换机和路由器,等待电力恢复。电力恢复供电后转第七条执行。如果确认停电的范围仅在于本机房电源故障。立即汇报给机房电源维护负责人。4,机房维护负责人将掉电的电源柜总空开和分空开的状态处于下电状态。并向主管领导汇报。马上联系相关厂家,如有可能请厂家立即到现场支持。5,将掉电的所有设备电源处于下电状态。以防止电源柜加电对设备的冲击。6,等各厂家和相关人员到齐后,商议设备恢复时间因注意的事项。并形成相关文档。7,电力室恢复供电后,先不要急于给电源柜加电,等待10-20分钟后,再开始给电源柜加电,以防止供电不稳定或再次掉电。8,供电正常后,确定设备处于下电状态后,打开电力柜的总控开。9,根据设备加电顺序,启动分项空开。10,设备加电顺序,IP交换机和SAN交换机正常后再给存储加电,存储状态检查正常后,启动主机(以上各设备务必按操作手册的启动顺序上电).11,设备启动正常后,开始启动数据库。12,数据库启动正常后,开始启动中间件服务器。13,中间件服务器正常后,启动应用程序。
2, 核心机房电力的保障一直是维护体系的头等重要事项,通过实施应急发电演练,建立了可靠的应急预案机制,最大限度的降低电源中断对网络传输质量的影响。现分享核心机房电源中断应急预案,希望分公司尽快建立一套统一指挥、职责明确、反应迅速、处置有力的机房安全保障机制。
3, 组织架构:
4, 责任领导、工程维护、网络监控、网络运维、质量管理等相关人员。
5, 机房电源系统说明:
6, 1.机房电力是两路三相四线制供电,进线线缆规格为:RVV50*4+16*1铜芯护套线。
7, 2.机房电源系统采用三级防雷系统,三级防雷分别位于电源进线端、UPS输入前端。
8, 3.机房现有两台60KVA-UPS电源,均处于正常运行状态。
9, 4.机房现有设备机柜已编号,均通过UPS电源和市电供电,每个机柜有独立的20A空气开关。空调、墙壁插座开关、应急灯、照明等都是单独空开接市电。
10, 5.运行中的UPS电源所带负荷,在逆变运行状态下能正常工作约4小时
(已经过UPS放电测试)。
11, 一.核心机房电源中断预案
12, 1.在接到停电通知的情况下:
13, 1)计划性停电通知要确保综合部、工维机房管理部对口人接到通知(提前
将对口联系人备案在物业处),机房管理员接到计划停电通知后,升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员。并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间及可能发生的情况。
14, 2)维部进行发电应急预案小组成员通知,提前做好机房发电预案要求的
准备工作,将相应的发电机、连接线、人员安排到位,各司其职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机房用电的保障措施,提前调度安排好相应人员做好保障用电的措施。
15, 3)计划停电时间开始后,马上启动应急发电操作,按照机房发电操作步
骤实施阶梯供电的步骤,恢复市电保障。并进行现场值守及设备工作确认,确保全部正常后电话告知调度中心及维护体系领导。
16, 2.在没有接到任何通知,突然发生停电的情况下:
17, 确认停电线路,停电时刻,停电时间等要素,启动核心机房发电应急预
案。
18, 1)值班网管工作流程:
19, ⑴值班网管监控到核心机房停电,第一时间告知工维部、网络部、运维
部应急小组组长。信息传达到工维部机房管理员(一主一备),告知停电开始时间。
20, 要求在停电5分钟内将消息传达到调度中心,各应急小组组长。如无法
联系上,进行升级到责任领导-工维部经理经理处。
21, ⑵网管将停电信息电话传达后,进行调度派单,确保全部的应急小组成
员都收到本次故障停电的信息。然后进行机房中设备的检查,包括:UPS设备主机、各核心设备、汇聚设备、服务器、语音系统等。检查是否受影响。同时启动机房降温措施(降温方案:初步为加装抽排风设备、增加大风扇排风形成热量流动降温)
22, ⑶实时监控设备及UPS工作情况,包括:电量下降情况,设备工作正常
情况,每15分钟通报一次电量情况。
23, 2)运维部应急工作流程:
24, ⑴运维应急同事接到故障通告后,第一时间往停电现场赶,到现场配合
网管/工维部门进行设备仪器的检查、客服语音系统的保障,应急发电的协助。
25, ⑵现场配合进行机房降温散热措施实施,实时检查网络设备的工作情况。
26, 3)运营质量管理应急工作流程:
27, ⑴调度中心值班人员接到网管监控调度信息后,第一时间将故障信息记
录并发故障通告到相关应急成员,并电话通知各应急小组组长是否知悉。
28, ⑵进行客服调度系统的设备工作运行系统检查,特别语音系统级坐席电
脑,是否有问题,如发现工作系统有异常,及时与运维应急小组成员沟通,进行检查处理。
29, ⑶实时关注故障工单流程进度登记,配合应急小组进行人员调度通告。
相关推荐: