solaris系统panics故障实例与解决

这是一台运行地震反演软件的sun ultra80工作站,去年一段时间以来系统频繁宕机多达21次,每次自动重启时,用户反演作业常常因未来及存盘遭受数据丢失,只能重做。尤其去年七、八月份,有时系统一天不定时自动重启多次,用户根本无法在本机上工作,许可证也无法取用,直接影响了用户使用反演软件进行的科研生产工作。 该问题自解决以来,经过多次不断的跟踪及回访,故障不复再现,今将这一故障现象进行归纳总结,供各位网友参考,希望从中得到帮助。 一、故障现象及分析 该工作站的不定时自动重启有着比较特殊的现象:没有规律、没有预兆。对用户的影响也是最致命的---不仅是作业失败,甚至会导致数据库被破坏。针对这一系统故障现象进行了认真的分析,通过查找错误日志,找出了系统报出的“Panics”错误。当系统自动重启时,/etc/rc2.d/S75savecore 实用程序会把这些信息卸载到文件系统/var/crash/hostname/目录下,便于系统管理员进行故障分析和故障定位,21次Panics错系统自动产生的文件如下: -rw-r--r-- 1 root root 634041 Feb 3 03:20 unix.0 ……………………… -rw-r--r-- 1 root root 620121 Aug 7 12:35 unix.16 ……………………… -rw-r--r-- 1 root root 622218 Aug 12 09:25 unix.21 -rw-r--r-- 1 root root 181395456 Feb 3 03:20 vmcore.0 ……………………… -rw-r--r-- 1 root root 237830144 Aug 7 12:35 vmcore.16 ……………………… -rw-r--r-- 1 root root 168732916 Aug 12 09:25 vmcore.21 二、Panics错误类型分析 依据系统提供的技术资料,Panics错误具有两种典型的错误类型: 第一类:系统自动重启(reboot) 这类错误是指系统在执行过程中遇到一条非法指令无法继续执行下去,为避免错误的扩大而采取的保护措施,这种非法指令的访问可由来自于主板、内存、显卡等很多因素,也可能是系统对某一硬件支持存在BUG;若硬件自身没问题,有时操作系统存在某些缺陷,也会导致此类故障的发生。 第二类:系统挂起(system hang) 这类错误现象是系统不接受任何指令,大多属于用户应用程序存在错误而耗尽了系统资源所致。 从故障现象分析我们判断,该机器呈现的故障属于第一类情况。 三、故障的研究与解决 通过对系统内核故障卸载的文件unix.16 和 vmcore.16分析研究,解决了装有地震反演Jason软件的sun工作站系统运行不稳定问题。 针对系统重启(reboot)故障,为了找出有效的故障处理方法,我们认为应该从分析系统发生故障所卸载的错误信息入手,利用系统中提供的调试工具,(如:adb、crash等)进行错误分析,根本无法找出解决问题的方法。最终在su

Published At
Categories with 服务器类
Tagged with
comments powered by Disqus