一 故障的定义 .弄清楚系统发生了什么问题 .系统现在能做什么?不能做什么? .故障什么时候发生的? .有没有做平时不同的操作? .故障有没有规律?定时还是不定时?发生的频率有多高? .是一台机器出现故障还是多台机器故障?故障现象是否相同? .最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。 二 故障信息的收集 1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。 2)系统故障记录(errorlog) errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息 故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用) #errpt |more 列出简短出错信息 ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 192AC071 0723100300 T 0 errdemon Error logging turned off 0E017ED1 0720131000 P H mem2 Memory failure 9DBCFDEE 0701000000 T 0 errdemon Error logging turned on 038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年) T(类型): P 永久; T 临时; U 未知 (永久性的错误应引起重视) C(分类): H 硬件; S 软件; O 用户; U未知 #errpt -d H 列出所有硬件出错信息 #errpt -d S 列出所有软件出错信息 #errpt -aj ERROR_ID 列出详细出错信息 # errpt -aj 0502f666
RS/6000小型机故障的基本定位方法
comments powered by Disqus