IBM p59x巡检指导手册V0.2.doc指导手册
1 文档说明
本文档主要用于IBM p59x服务器的巡检指导。如在使用过程中发现有错误的地方,请及时与黄红华联系,邮件:huanghh@dcits.com。
2 巡检准备工作
第一次巡检一般就是该服务项目的项目启动,工程师需要与项目经理一起了解服务合同的内容,与用户联系,确认服务内容。对于重点项目,在第一次巡检可能增加一些额外的工作中(如收集整理配置信息等),具体需求需要与项目经理沟通。
巡检出发前应该主动与用户联系何时开始巡检,巡检的时间根据用户的需要来安排在工作时间或者非工作时间。一般来说,巡检只查看机器的状态,不会对机器的配置进行修改,巡检可以安排在工作时间。如果用户有别的顾虑,可以把巡检安排在非工作时间。如果合同规定的服务范围包括HA,建议用户留出时间来进行HA测试,以确保发生故障时能够正常切换。
3 硬件检查
3.1 检查系统物理状态
先从外观上检查硬件情况,检查设备故障灯是否有亮。 各种设备上都有故障指示灯,通常为橘红色并有~标记。同时注意服务器的控制面板,设备发生故障时通常伴有出错代码,必须把所有故障代码记录下来。除此以外还应注意有否其他异常情况(如硬盘、风扇
5
IBM p59x巡检指导手册V0.2.doc指导手册
异常的声音,电缆破损等)。
3.2 检查硬件错误日志
检查IBM p59x服务器的硬件故障的方式有如下三种: 1. HMC Manage Serviceable Events
HMC V6:Service Applications→Service Focal Point→Manage Serviceable Events→选择Reporting MTMS
HMC V7:Service Management→Manage Serviceable Events→选择Reporting MTMS
注:如果HMC连接了多台IBM Power服务器,可以通过“Reporting MTMS”选择目标服务器进行筛选。但是对于p59x来说,在选择目标服务器要选择两个:一是带序列号的服务器,二是BPA。如果只是选择带序列号的服务器,就无法筛选出这台服务器与电源相关的故障信息。如果这台HMC连接了多台p59x服务器,我们通过“Frame→选择一个BPA→Properties→Managed Systems”可以查看BPA对应的服务器序列号。
2. ASMI
登录到ASMI之后,按照如下选项收集信息:
System Service Aids→Error/Event Log→选中需要查看内容→点击\ 3. errpt
登录到p59x上的分区,使用“errpt –d H”命令检查硬件错误报告。如有,则应使用“errpt –aj err_id |more”命令检查详细的日志。为了准确判断故障,可对硬件设备运行故障诊断程序,如运行 “diag –d hdisk1”、“diag –vd hdisk1”。“-v”选项可对故障记录中的SENSE DATA进行分析并给出SRN, FRU等。
用“mail”命令查看有否发给root用户的错误报告。
6
IBM p59x巡检指导手册V0.2.doc指导手册
3.3 check system readiness检查
在HMC上提供check system readiness功能,主要用于Firmware升级之前的检查,也可以用于对服务器部分状态的检测。
3.4 查看设备状态
登录到p59x上的分区,可以用如下命令查看设备状态:
? 用lsdev –Cc Hardware_Name来检查硬件设备的状态,Hardware_Name可以是
processor、disk、tape、adapter。
? CPU状态的检查除了lsdev之外,还需要用“sar –PALL 1 10”检查一下每个
CPU是否都在工作。
? Memory状态的检查主要看总量大小是否有变化,可用“lsattr -El sys0 -a realmem”
来检查。如果发现内存总量变小,可用“lscfg -vp|grep -p mem”来检查哪些槽位上的内存有问题。
? Disk状态的检查除了lsdev之外,还需要用“lsvg vgname”检查是否有状态为“stale”
的物理分区存在,命令为:“lsvg –o|lsvg –i|grep STALE”。
? 对于磁带机,可以用“/usr/lpp/diagnostics/bin/utape -cd rmt0 -n”命令查看上次清洗
之后读写的累积时间(单位为小时)。若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
3.5 检测设备
如果条件允许的话,建议对所有的硬件使用diag进行诊断。
7
IBM p59x巡检指导手册V0.2.doc指导手册
4 操作系统检查
4.1 检查版本
检查系统的微码版本和操作系统版本,对应最新的补丁版本,确认目前版本是否存在重大缺陷,如果有,建议用户先进行版本升级测试,确认没有问题之后再升级。
? 检查操作系统版本: 1) 显示AIX版本:oslevel 2) 显示AIX补丁级别:
? 对于AIX V4.3.3 ML8之前的版本(也可以用于之后的版本):instfix –i|grep ML ? 对于AIX V4.3.3 ML8之后的版本、AIX 5L V5.2 TL08和AIX 5L V5.3 TL04之前
的版本:oslevel –r
? 对于AIX 5L V5.2 TL08和AIX 5L V5.3 TL04之后的版本:oslevel –s
? 检查服务器微码版本:
1) 对于AIX V4.3.3之前的版本:lscfg -vp | grep -p Platform 或lscfg -vp | grep -p
alter
2) 对于AIX 5L版本:
? 用菜单方式显示微码:lsmcode ? 不用菜单方式显示微码:lsmcode –c
? 显示所有支持设备的微码级别信息:lsmcode –A
4.2 检查日志
? 用“errpt –d S”命令检查系统的软件出错报告。如有,则应使用“errpt –
8
相关推荐: