分析网络故障时,首先要清楚故障现象,应该详细了解故障的具体症状及影响范围。广泛地从用户、网络管理员、网络管理系统、协议分析跟踪器、路由器诊断命令的输出报告、软件说明书中收集用于帮助隔离可能故障原因的信息,最初收集到的相关信息可能大部分来自广大用户。所以用户对故障信息有很大的发言权,网络管理人员需要从不同的角度、以不同的方式与尽可能有代表性的用户进行详细的交流和沟通,全面收集了解相关信息,可以收集的信息可有以下几个方面:
(1)观察网络设备的指示灯。这是了解故障信息最简单、最基本最直观的方法,计算机网卡、交换设备、调制解调器、路由器、网关被服都有实时的LED工作指示灯,便于般用户进行查看工作状态。一般情况下,绿灯表示物理连接正常,绿灯亮且一直闪烁表示数据通信正常,不亮表示无连接或线路不通,红灯表示连接故障(但电源指示灯一般程红色)。
(2)设备以前工作是否正常。一般情況下,对于一个曾经工作正常然后出现故障的设备与一个从未正常工作的设备之间存在着巨大的差别。对于此类问题,用户一般不会主动提出,因此网络管理员必须以提问的方式来获取相关信息。对于曾经工作正常然后出现故障的设备,可以知道一定是什么外部原因或人为原因破坏了这种正常工作的设备,对此网络管理员应该进入故障分析模式,与用户一起探讨进行了哪些操作进而确定故障发生的具体阶段。而对于一个从未工作正常的设备则可断定一开始就存在问题,对此应该进入安装模式进行初始化等。
(3)故障发生的时间。准确了解故障发生的日期和时间,是间歇性的还是集中在某一固定时间段,这样故障之后可以查看故障发生的时刻相关的事件报告,确定是否该段时间是否有异常外部异常或其他程序正在运行。例如,但故障发生时是否有其他大型应用服务突然开启或正在打开其他电气设备(如大功率电器等)。
(4)运行环境是否发生了改变。例如,机房总体布局是否改动?工作站或服务器上的软硬件系统是否升级或安装新的应用程序等?是否对网络配置进行了更新?是否安装了新服务器?是否提供了新的网络服务功能?网络拓扑结构是否发生变化而导致环路?网络设备和终端是否安装了新协议?是否新增或删除了路由选项?网络的域管理及组管理是否发生了变化?所有这些软硬件改动网络管理员都要一一排查,找出可疑点。
(5)不要忽视一些明显的人为错误。比如,网站制作用户忘了打开交换路由设备的电源,或者忘了将网线插上等日常错误。有经验数据表明,这种故障的可能性其概率不低于10%。
>>> 查看《准确收集与故障相关信息》更多相关资讯 <<<
本文地址:http://www.phpweb.com.cn/news/html/3620.html