第一范文网 - 专业文章范例文档资料分享平台

IBM p59x巡检指导手册V0.2(章节11.1.1 HMC root访问设置)

来源:用户分享 时间:2025/6/25 21:22:55 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

IBM p59x巡检指导手册V0.2.doc指导手册

1 文档说明

本文档主要用于IBM p59x服务器的巡检指导。如在使用过程中发现有错误的地方,请及时与黄红华联系,邮件:huanghh@dcits.com。

2 巡检准备工作

第一次巡检一般就是该服务项目的项目启动,工程师需要与项目经理一起了解服务合同的内容,与用户联系,确认服务内容。对于重点项目,在第一次巡检可能增加一些额外的工作中(如收集整理配置信息等),具体需求需要与项目经理沟通。

巡检出发前应该主动与用户联系何时开始巡检,巡检的时间根据用户的需要来安排在工作时间或者非工作时间。一般来说,巡检只查看机器的状态,不会对机器的配置进行修改,巡检可以安排在工作时间。如果用户有别的顾虑,可以把巡检安排在非工作时间。如果合同规定的服务范围包括HA,建议用户留出时间来进行HA测试,以确保发生故障时能够正常切换。

3 硬件检查

3.1 检查系统物理状态

先从外观上检查硬件情况,检查设备故障灯是否有亮。 各种设备上都有故障指示灯,通常为橘红色并有~标记。同时注意服务器的控制面板,设备发生故障时通常伴有出错代码,必须把所有故障代码记录下来。除此以外还应注意有否其他异常情况(如硬盘、风扇

5

IBM p59x巡检指导手册V0.2.doc指导手册

异常的声音,电缆破损等)。

3.2 检查硬件错误日志

检查IBM p59x服务器的硬件故障的方式有如下三种: 1. HMC Manage Serviceable Events

HMC V6:Service Applications→Service Focal Point→Manage Serviceable Events→选择Reporting MTMS

HMC V7:Service Management→Manage Serviceable Events→选择Reporting MTMS

注:如果HMC连接了多台IBM Power服务器,可以通过“Reporting MTMS”选择目标服务器进行筛选。但是对于p59x来说,在选择目标服务器要选择两个:一是带序列号的服务器,二是BPA。如果只是选择带序列号的服务器,就无法筛选出这台服务器与电源相关的故障信息。如果这台HMC连接了多台p59x服务器,我们通过“Frame→选择一个BPA→Properties→Managed Systems”可以查看BPA对应的服务器序列号。

2. ASMI

登录到ASMI之后,按照如下选项收集信息:

System Service Aids→Error/Event Log→选中需要查看内容→点击\ 3. errpt

登录到p59x上的分区,使用“errpt –d H”命令检查硬件错误报告。如有,则应使用“errpt –aj err_id |more”命令检查详细的日志。为了准确判断故障,可对硬件设备运行故障诊断程序,如运行 “diag –d hdisk1”、“diag –vd hdisk1”。“-v”选项可对故障记录中的SENSE DATA进行分析并给出SRN, FRU等。

用“mail”命令查看有否发给root用户的错误报告。

6

IBM p59x巡检指导手册V0.2.doc指导手册

3.3 check system readiness检查

在HMC上提供check system readiness功能,主要用于Firmware升级之前的检查,也可以用于对服务器部分状态的检测。

3.4 查看设备状态

登录到p59x上的分区,可以用如下命令查看设备状态:

? 用lsdev –Cc Hardware_Name来检查硬件设备的状态,Hardware_Name可以是

processor、disk、tape、adapter。

? CPU状态的检查除了lsdev之外,还需要用“sar –PALL 1 10”检查一下每个

CPU是否都在工作。

? Memory状态的检查主要看总量大小是否有变化,可用“lsattr -El sys0 -a realmem”

来检查。如果发现内存总量变小,可用“lscfg -vp|grep -p mem”来检查哪些槽位上的内存有问题。

? Disk状态的检查除了lsdev之外,还需要用“lsvg vgname”检查是否有状态为“stale”

的物理分区存在,命令为:“lsvg –o|lsvg –i|grep STALE”。

? 对于磁带机,可以用“/usr/lpp/diagnostics/bin/utape -cd rmt0 -n”命令查看上次清洗

之后读写的累积时间(单位为小时)。若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。

3.5 检测设备

如果条件允许的话,建议对所有的硬件使用diag进行诊断。

7

IBM p59x巡检指导手册V0.2.doc指导手册

4 操作系统检查

4.1 检查版本

检查系统的微码版本和操作系统版本,对应最新的补丁版本,确认目前版本是否存在重大缺陷,如果有,建议用户先进行版本升级测试,确认没有问题之后再升级。

? 检查操作系统版本: 1) 显示AIX版本:oslevel 2) 显示AIX补丁级别:

? 对于AIX V4.3.3 ML8之前的版本(也可以用于之后的版本):instfix –i|grep ML ? 对于AIX V4.3.3 ML8之后的版本、AIX 5L V5.2 TL08和AIX 5L V5.3 TL04之前

的版本:oslevel –r

? 对于AIX 5L V5.2 TL08和AIX 5L V5.3 TL04之后的版本:oslevel –s

? 检查服务器微码版本:

1) 对于AIX V4.3.3之前的版本:lscfg -vp | grep -p Platform 或lscfg -vp | grep -p

alter

2) 对于AIX 5L版本:

? 用菜单方式显示微码:lsmcode ? 不用菜单方式显示微码:lsmcode –c

? 显示所有支持设备的微码级别信息:lsmcode –A

4.2 检查日志

? 用“errpt –d S”命令检查系统的软件出错报告。如有,则应使用“errpt –

8

搜索更多关于: IBM p59x巡检指导手册V0.2(章节11.1.1 HM 的文档
IBM p59x巡检指导手册V0.2(章节11.1.1 HMC root访问设置).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c4lfz643a6025ui618i14_2.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top