AIX操作系统维护详解
用维护是一项细致的工作,在工作中除了要求技术人员工作严谨、认真负责外,还要求技术人员必须具备在各种突发事件中较高的处理能力和工作经验。随着 工商银行两大数据中心的建立,工行核心业务数据集中到数据中心,各一级分行的工作重点转移到柜面业务系统、综合前置系统和历史数据查询系统等外围系统的维 护工作方面,其中AIX操作系统在工行的使用比较广泛。在应用维护方面,工行使用AIX操作系统的应用主要有:综合前置系统、跨行支付系统、客户对账系 统、历史数据查询系统、国际业务结算系统5个应用系统。通过几年来的工作实践,我们积累了一些AIX操作系统环境下应用系统的维护及性能优化的经验,归纳 为5个方面,供同行借鉴。 一、AIX系统数据安全措施
在IBM小型机硬件配置期间,就应该考虑数据的安全性,系统资源的配置要满足容错处理的要求。主要应考虑以下几点:
①生产主机发生硬件故障后,备机可以马上自动接管应用系统; ②提高操作系统的硬件冗余,尽量减少单点故障对系统的影响; ③加强系统备份,减少系统版本升级造成的影响。
针对以上要求,可以采取一些安全措施,主要是硬件资源的冗余备份、系统软件和应用软件的合理分布以及高可靠性集群软件的使用。我们的经验是:把 AIX操作系统和HACMP(High Availability Cluster Multi-Processing)软件安装在rootvg上,因为rootvg损坏,系统将无法运行,即使通过备份磁带恢复,也会造成系统停机。因此在 磁盘空间充裕的情况下,可考虑对rootvg作镜像。具体做法是将主机的两块内置硬盘做rootvg镜像,这样可提高系统的安全性,防止单块硬盘损坏对系 统的影响,即使内置硬盘坏了一块,系统仍可正常运行。在建立rootvg镜像时,应尽量使用连接在不同SCSI上的硬盘,以做到负载均衡。另外,为提高系 统的容错能力,可对磁盘阵列上的硬盘进行镜像配置(RAID0)或RAID5冗余配置,配置为datavg,在上面安装数据库和应用程序。为提高节点可靠 性,可搭建HACMP集群环境,做到双机热备,即在2台互为备份的主机上配置HACMP参数,满足系统热备要求。在日常操作方面,要做好系统备份工作,定 期对生产机做两个或两个以上的介质备份。 1.rootvg的配置
将hdisk0和hdisk1做成mirror,配置为rootvg。
①把hdisk0、hdisk1加到rootvg:smitty extentvg hdisk1、hdisk0 →rootvg。
②做mirror:mirrorvg -c 2 rootvg。
③在hdisk0、hdisk1上创建boot IMAGE:bosboot -ad hdisk0,bosboot -ad hdisk1。
④改变启动设备的顺序:bootlist -m normal hdisk0,hdisk1 cd0 2.HACMP工作原理
HACMP主要是对群集(cluster)资源的管理,根据应用复杂程度和配置的不同,其群集资源的接管时间在30秒到300秒不等,完全不需 要人工干预。一个群集中的资源通常包括:应用程序、硬盘、卷组(VG)、文件系统、NFS文件系统、IP地址等。资源分属三类资源组(Resource Group):层递式(Cascading)、替换式(Rotating)、同时存取式(Concurrent)。不同类型的资源组对应不同的接管方式。 一个群集中可以有几个资源组,它们可以分别是不同类型,因此,资源接管的方式可以多种多样,配置十分灵活。
我们一般采用的是层递式方式,即热备份工作方式,其工作原理是:NodeA和NodeB都是资源组a的成员,该资源组a被设置成层递式方 式,NodeA对其拥有最高优先级。因此NodeA在群集中处于active状态时,它会控制资源组a中的所有资源,此时NodeB处于闲置(idle) 状态,仅当NodeA down掉时,NodeB才会接管资源组a,一旦NodeA重新加入群集,NodeB将释放资源组a?NodeA重新取得控制权。NodeB发生任何故 障,不会造成任何影响。 二、AIX系统维护经验 1.故障信息的收集
收集故障信息对于判断、诊断故障原因,修复系统非常重要。我们通过检查系统错误报告?errorlog?、发给root用户的错误报 告?mail?和检查
hacmp.out?smit.log?boot.log等内容来判断系统是否发生故障,根据故障信息进行相应的处理。 (1)系统故障记录
errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息,故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析,使用errpt 命令(普通用户权限也可使用)。 #errpt |more 列出简短出错信息 #errpt -d H 列出所有硬件出错信息
#errpt -d S 列出所有软件出错信息 #errpt -aj ERROR_ID 列出详细出错信息 (2)控制面板上的LED 代码
(3)SMS(System Management Service)故障记录
当主控台出现键盘图标后(LED显示“E1F1时”)按1键。选择“Utilities”,选择“Error Log”,抄下8位故障代码。 (4) Mail检查
系统出现故障后会向root用户发mail,报告出错信息。通常系统出现故障后没有进行检查修复,系统还会定时以mail方式提醒root用户。 (5)运行故障诊断程序
对系统硬件进行检查和诊断,当发现有硬件故障时应立即使用diag。 #diag
> 选高级诊断(Advanced Diagnostic)
> 选问题诊断(Problem Determination)或选系统检查(System Verification)
diag运行后会给出SRN代码、故障设备名称及百分比数、地址代码等。 (6)其他用于收集系统信息的命令 lsdev -C 系统设备信息 lspv 查看物理卷信息 lsvg 查看卷组信息 lslpp 查看文件组信息 lsattr 查看设备参数设置
lscfg 查看VPD(Virtual Product Data)信息 2.系统硬件故障定位
IBM 小型机硬件故障定位方法包括小型机机柜上的显示面板上的
Checkpoints信息,Error Code和SRNs。Checkpoints检查点是系统加电CMOS初始化程序 (IPL,Initial Program Load)运行后显示在机柜的显示面板上一系列信息。
IPL流程如下:当系统加电后,自动进入IPL流程,IPL流程包括4个步骤, ①Service Processor的初始化,始于系统加电,直到OK显示在机柜上的显示面板上为止。这个步骤会显示8xxx或9xxx checkpoints代码。
②由Service Processor引导的硬件初始化,始于按下机柜上的白色电源开关。这个步骤会显示9xxx checkpoints。“91FF”是最后的代码,标志着第3步的开始。
③系统固件的初始化,一个系统处理器接管控制并继续初始化系统资源,这个步骤会显示Exxx。“E105”是最后的代码,标志着第4步骤AIX启动的开始。在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分)。 ④AIX启动,当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时,第4步骤结束,同时显示面板上再无任何信息显示。
当系统运行发现错误时,SRNs码(Service request numbers,服务请求码)会以xxx-xxx的形式显示在显示面板上,同时在AIX的errorlog中也会进行登记;当SSA磁盘柜出现故障时,在 磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的errorlog中会登记相应错误信息,在出现问题后记录下代码, 并告之IBM公司解决。 3.软件问题处理
软件故障情况错综复杂,下面列举几个常见的故障处理方法。 (1)文件系统空间不够
查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ ?根文件系统?满则会导致用户不能登录。用df-k查看。 # df -k 查看AIX的基本文件系统
除/usr文件系统,其他文件系统都不应太满,一般不超过80%。 处理方法1:删除垃圾文件 # du -sk ? |sort -rn |head
相关推荐: