0 网络故障处理原则

介绍网络处理思路和方法前,先说明网络故障处理原则:

恢复业务为首要目的。
    避免处理过程中产生更大故障。

1 网络故障排错思路

网络故障发生时, 可以按照收集信息、分析现象,提出假设,验证假设,分析根因、制定解决方案,并执行验证。

1.1 收集信息

收集信息包括以下信息:

故障现象。故障是什么现象,是完全中断时断时续,还是还是丢包,抖动;
    故障发生时间。故障是什么时候发生的,是一直存在还是刚刚发生,故障发生前是否由变更,变更是否可能导致故障;
    故障范围;故障产生的范围,是所有人所有业务都受到影响,还是局部影响,故障范围是否由共性,例如都经过一个路由器,一条链路,一个接口;

1.2 分析现象,提出假设

收集到信息后,需要将故障现象转化成网络专业中的现象,进行分析,并得提出假设。例如基站掉站转化成基站网管平面到基站控制器管理面之间不通,可能是因为路由丢失;某基站下无法发送短信转换成该基站下无法发送大包数据,可能是因为端到端MTU不满足业务需求。
如果故障和业务紧密相关,且网络连通性没有问题,此时就需要对业务由深刻理解和积累,才能得出合理,专业的假设。一些业务故障发生后,如果在业务层面排查没有没有问题,网络工程师可以今早参与到其中,一方面是为了尽快确保网络没有故障,另一方面是避免到最后发现是网络问题导致被动。

1.3 验证假设,分析根因

提出假设后,开始对假设对假设进行验证,如果假设得到证实,则需要分析故障出现的根本原因,并提出解决方案,如果假设不成立,则需要针对收集的信息对进一步分析,提出假设。

继续以基站断站为例,第二步分析后提出的假设是路由丢失导致基站断站,开始对基站控制器管理面到基站的沿途的路由进行检查,确保每一跳都由去程和回城路由,如果发现某一跳路由缺少,需要进一步分析根本原因。

如果检查过后,发现假设不成立,则需要回到第2步,甚至第1步,重新进行采集和收集。

1.4 制定解决方案,并执行验证

得出根本原因后,开始制定解决方案,在制定和执行解决方案时,必须遵循以下原则:

确保执行方案不会造成更大故障;
    执行方案可回退;
    执行解决方案前,需要保存当前业务,网络状态,以便执行后进行对比;
    每次只执行一个操作,并观察业务;
    如果解决方案部署后仍无法解决,考虑是否需要回退;

如果无法解决方案执行后,仍然无法解决,需要从新进行分析和假设。

1.5 故障总结

故障解决后,需要对故障进行总结,总结内容包括:

故障产生的原因。故障是人为导致故障还是非人为导致。如果是人为故障,是否因为变更导致的故障故障,如果是,需要检查遵循了变更流程,如果遵循了变更流程,则需要了解变更方案是否经过审核,测试,是否遵循变更步骤等。如果是非人为原因,则考虑分析现有网络,设备,线路是否有足够能力在一定程度上保证网络可靠性。
    故障是否及时发现。现有监控工具是否能够及时发现故障,现有流程是否能使得故障及时有人处理,及时上报,升级;
    改进措施。如果是人为导致故障,则考虑如何从权限,流程,测试,自动化上避免故障再次发生,如果是非人非考虑如何从网络弹性设计,网络自愈方面考虑避免故障发生。

2 故障排除方法和工具

故障处理时,可以使用的工具包括:syslog,监控系统,wireshark,设备自带命令等;
故障处理的方法包括:自顶向下,自底向上,从网络层开始,分段法,替换法,比较法等。

2.1 故障处理工具

处理故障过程中,要善于利用现有的工具和系统,例如监控系统,常见的开源监控系统包括zabbix, cacti,open-falcon, 普罗米修斯等。cacti功能简单,可以用于网络建设初期快速部署的场景,随着网络规模和需求的增加,cacti在多厂商设备支持和监控项支持上就显得不足,此时zabbix是一个很好的选择,可以自定义监控模板,监控项,并且提供API接口;open-falcon和普罗米修斯是新出现的开源项目,可以进一步支持自定义功能。

syslog目前没有发现很好用的开源系统,大家可以推荐。

除了syslog和监控日志,其他常见的工具包括filezilla,用于测试FTP上传下载,使用过程中需要注意将多线程上传打开;wireshark用于抓包分析报文;cli中的ping ,traceroute, debug,也可以再特定情况下使用。

2.2 故障处理方法

2.2.1 自顶向下

顾名思义,自顶向下是指从TCP/IP协议栈顶部向下排查,通常是定位了故障点后对单个节点进行排查。自顶向下方法适用于应用层或传输层出现故障的场景,例如网络可达但应用不可用,例如无法连接FTP服务器,无法连接数据库等。如果应用层无相应,则可以向下检查传输层,TCP三次握手流程等。
常用的工具包括使用wireshark抓包,检查数据包交互流程。

2.2.1 自底向上

从TCP/IP协议栈底部向上排查。从物理层开始,向上排查。物理层通常检查是否有CRC,error包,光功率,双工速率是否匹配等。如果物理层无问题,再检查数据链路层,通常检查MAC地址是否正确学习,VLAN是否允许,是否STP震荡等内容。

2.2.2 从网络层开始

顾名思义,就是从网络层开始排查问题,网络层主要关注是否有路由,路由下一跳是否正确,路由是否稳定,是否有地址冲突等问题,排查网络层后,可根据情况,向上或向下检查TCP/IP其他协议栈问题。根据个人的实际经验,从网络层开始排查常用,也最高效。

2.2.3分段法

分段法最常用于性能问题的排查,将流量经过的路径进行分段排查。例如,A-B-C-D的网络连接,下载速率无法满足要求,可以采取的排查办法是,先测试从A-B,是否满足要求,如果满足再测试A-C,如果无法满足,问题大概率出现在B-C段,再对B-C段进行排查。

使用分段法排查性能问题可能会出现一种情况,就是A-B-C测试不满足要求,但是A-B,B-C都满足要求,这中情况下,就要分析分段测试的设备是否正确,是否遗漏了设备,或分段结合部是否有问题。

2.2.4 替换法

替换法是指将怀疑有问题的部件替换,检查故障是否消除,如果消除,很可能是原有部件有问题。通过某块办卡接入网络的服务器连接失败率很高,可以考虑将该办卡下的服务器迁移到另一台机器或办卡,观察连接失败率是否有变化。

2.2.5 对比分析法

对比分析法是指对比有故障设备和无故障设备的相同点和不同点,得出初步判断,并采取措施;例如50%的基站无法正常提供4G服务器,另外50%基站4G业务正常,可以对比两部分基站有什么不一样的地方,通过对比发现了故障的50%的基站都最终都汇聚到了一台网关,正常的基站汇聚到另一台网段,根据整个现象,再对比两台网关配置,状态差异,就可以很快地位出故障。

3 小结和思考

网络故障排除不仅靠处理故障时的思路和方法,更多的是靠的时日常积累。从个人角度看,工程需要日常熟悉各业务流程,才能迅速将用户上报的故障转换成网络问题,开始进行排查;同时需要熟练掌握网络中应用的各种技术,才能提供合理假设,对故障节点进行分析,得出结论。个人的经验是,像数据包一样,走一遍设备对数据包的处理流程。

从组织角度看,网络建设和运维过程中,如果建立了完备的工具,系统和基线,同样有利于快速定位和解决故障。

与业务故障不同,网络故障通常是通过告警,日志,或用户保障发现,如何像业务一样建立各种指标,指标异常时及时同时告警,是另一个值得深入研究和探讨的方向。当前实践虽然已经有了流量,CPU,内存等指标,但仍远远不足。

网络故障排查的思路和方法相关推荐

  1. K8S集群中Pod与Pod之间网络故障排查思路

    K8S集群中Pod与Pod之间网络故障排查思路 文章目录 K8S集群中Pod与Pod之间网络故障排查思路 1.Pod与Pod之间通信故障 2.Pod与Pod之间网络通信故障排查思路 1.Pod与Pod ...

  2. 简单局域网网络故障排查和处置

    简单局域网网络故障排查和处置 一.了解基本网络构成 1. IP传输通信图 2.有线网络 (一)物理层面 (1)网线 (2)网线的制作 (3)网卡接口 (4)光纤 (5)光纤接口 (6)收发器 (7)集 ...

  3. 排查计算机故障的思路,电脑:网络故障排查方法

    在使用电脑时,都会使用到网络,但是经常会出现一些网络故障问题,一般点的网络问题都容易解决,今天介绍一下如何使用电脑的自带的网络故障和排除功能,对网络相关问题进行扫描,那么具体怎么操作了,喜欢有用的点赞 ...

  4. 网络故障排查常见方法

    网络故障的诊断 在故障不明的情况下,应先诊断硬件故障,后诊断软件故障:在突发网络故障时,合理是首先查看本机网络硬件是否工作正常. 常见排障命令 telnet:确认目标应用端口是否有监听. ping:确 ...

  5. 用终端访问路由器设置端口开发_网络故障排查最全总结!ONU、机顶盒、路由器常见网络问题及处理方法...

    无论是在项目中还是在家用网络中,我们总是会遇到一些奇怪的网络故障,网络突然变得很慢或者掉线,但又检查不出来什么原因,这样的问题相信很多弱电朋友都会遇到过,在我们弱电VIP群也是有不少朋友在项目中经常求 ...

  6. mac地址容量的作用_IP地址冲突网络故障排查案例

    前言 在大型网络中,网络互联设备数量众多,同时也趋于复杂,给运维工程师维护网络带来了较大的难度.当出现网络故障时,排查起来非常困难,具有一个较好的排查思路对于网络工程师极其重要. 本次分享一个在以太网 ...

  7. vb fso方式访问网络上的共享文件夹_经常遇见的网络故障详细分析及解决方法!...

     故障1:交换机刚加电时网络无法通信  [故障现象] 交换机刚刚开启的时候无法连接至其他网络,需要等待一段时间才可以.另外,需要使用一段时间之后,访问其他计算机的速度才快,如果有一段时间不使用网络,再 ...

  8. 计算机网络故障排查工具,网络故障排查之路由器篇

    上一篇文章介绍了光猫的简单故障排查.网络故障简易排查篇之光猫故障判断.今天给大家介绍一下路由器的简单故障排查.今天先主要介绍通过手机进入路由器,查看路由的相关状态.以后单独写一篇从电脑进路由器. 光猫 ...

  9. linux网络95值工具,Linux下网络故障排查工具之ping|traceroute和tcptraceroute|mtr工具

    服务器运维人员在日常运维服务器的过程中经常会遇到服务器网络故障,有服务器硬件造成的,也有服务商网络问题造成的,也有区域网络问题造成的,这个时候就需要用到ping,traceroute,mtr这三个命令 ...

  10. 常见网络故障排查方法

    1. 无法获取ip 查看系统中实际是否有ip地址 使用系统查询命令:busybox ifconfig 下图是从网上找的,只是里面在比较重要的地方已标记: 如果存在有地址,则不是底层问题,可往上层软件分 ...

最新文章

  1. Science:最新发现哈希可能是大脑的通用计算原理!
  2. 什么是浏览器跨域访问操作,js如何实现?
  3. tab使用 TabActivity TabHost Tabspec常用方法
  4. 基于Nexys4DDR的数字时钟设计
  5. Error-Project facet Java version 1.8 is not supported
  6. hadoop环境安装及简单Map-Reduce示例
  7. vue2.0中组建里面套用组件_vue2.0如何嵌套组件
  8. SpringBoot接收数组参数
  9. 如何做到秒级扩容1000加业务节点
  10. bugzilla dbd-mysql_Ubuntu搭建bugzilla
  11. 多实践、少扯淡,生死看淡,不服就干
  12. 终极网络电视王 v3.25 是什么
  13. Maven学习(基础部分)
  14. 代码块:在Java中,使用{}括起来的代码被称为代码块。
  15. 串行进位加法器和超前进位加法器代码实现及性能对比
  16. 计算机word模块试题,计算机word考试试题1(附答案)
  17. android 设备最大像素,最高2100万像素镜头 拍照强悍手机盘点
  18. 上海科技大学计算机浙江分数线,上海科技大学2020录取分数线 上海科技大学录取分数线各省汇总...
  19. F28335 ePWM模块简介——TMS320F28335学习笔记(四)
  20. 电工电子技术------含受控源电路的分析

热门文章

  1. USACO 2021 January Contest, BronzeProblem 2. Even More Odd Photos题解
  2. 3D文件压缩库——Draco简析
  3. 批量同时创建邮箱和AD账户
  4. 【期末复习】网络攻击与防御
  5. 青岛科技大学古典音乐考试需要的资料
  6. 快快网络融合CDN是什么
  7. 玩玩Spring之初章
  8. 零基础21天搞定Python分布式爬虫_分布式网络爬虫入门进阶视频教程
  9. 澳门大学计算机qs排名,澳门大学世界排名(澳门科技大学qs世界排名2021)
  10. 抗击疫情 融云在行动