一段时间之前处理的webcdn故障一例,写下来记录下。

大规模计算网络WebCDN用于解决大网互连互通,降低源站复杂性及压力,性能方面,提高大用户访问量的网页速度体验方面,有非常好的效果.WebCDN本身的稳定性也决定了大用户请求网页的QOS. 然而加速网页中某1-2个网页设计不合理或加速某个源站中某个元素缺失的,也很可能形成WebCDN雪崩产生,进来全面影响WebCDN整体加速的QOS.本文以最近发生的WebCDN流量及QOS异常为例,分享一下故障排查过程,RC等经验.

现象:
QOS第三方监测数据发现:网站首页首屏时间 ,网站首页总下载时间飚升;

运维监控系统发现:WEBCDN流量大涨及连接数飚升;

取某个WEBCDN节点的机器,分析其上6.1-6.6号的nginx日志:
 
总体请求数:
 
for i in `find . -type f -name "*-20-05.log.gz"`;do a=`zcat $i|wc -l`;echo "$i $a";done|sort
 
./2012-06-01-20-05.log.gz 635220
./2012-06-02-20-05.log.gz 562762
./2012-06-03-20-05.log.gz 584111
./2012-06-04-20-05.log.gz 609735
./2012-06-05-20-05.log.gz 682701
./2012-06-06-20-05.log.gz 1011371
 
整体请求数有所上升

 
查看集中的url访问:
for i in `find . -type f -name "*-20-05.log.gz"`;do echo "$i `zcat $i|awk '{a[$2]++}END{for(i in a) print i,a[i],a[i]/NR}'|sort -k2 -nr|head -1`";done|sort
 
./2012-06-01-20-05.log.gz img1.5iops.com 157730 0.248308
./2012-06-02-20-05.log.gz img1.5iops.com 133432 0.237102
./2012-06-03-20-05.log.gz img1.5iops.com 130054 0.222653
./2012-06-04-20-05.log.gz img1.5iops.com 130020 0.21324
./2012-06-05-20-05.log.gz img1.5iops.com 177065 0.25936
./2012-06-06-20-05.log.gz focus.5iops.com 335022 0.331255  #focus的域名访问暂所有请求的33%
 
分析1号—6号的focus的访问情况,发现6.6号访问的比例较之前增加了30倍。
 
for i in `find . -type f -name "*-20-05.log.gz"`;do echo "$i `zcat $i|sed 's/"//g'|awk '{if($2=="focus.5iops.com")a++}END{print a/NR}'`";done|sort
./2012-06-01-20-05.log.gz 0.0223383
./2012-06-02-20-05.log.gz 0.0173695
./2012-06-03-20-05.log.gz 0.0175429
./2012-06-04-20-05.log.gz 0.0200989
./2012-06-05-20-05.log.gz 0.0186056
./2012-06-06-20-05.log.gz 0.332346
 
而这些focus的访问中499和404占了很多:
zcat 2012-06-06-20-05.log.gz |awk '{if($2=="focus.5iops.com") print $0}'|awk '{a[$9]++}END{for(i in a)print i,a[i]}'
408 15
200 11605
400 84
500 628
502 5
304 1
404 54957
504 4
499 273572
 
其中30W的访问集中在两个图片上,这个是由于源站程序存在问题导致。
 
zcat 2012-06-06-20-05.log.gz |awk '{if($2=="focus.5iops.com") print $7}'|sort |uniq -c|sort -nr
 190259 /subject/meirong120606new/img/nav_a.png
 103553 /subject/meirong120606new/img/nav_b.png
  18748 /subject/meirong120606old/img/nav_a.png
  16682 /subject/meirong120606old/img/nav_b.png
 
 
大量的4xx的访问导致squid不能正常缓存,而尝试去backup server,造成另外的机器incoming的流量增加

当尝试失败后,又去源站进行请求,由于一直不能正常缓存,造成大量的重复的链接不能正常释放,造成ss的连接数大量上升,同时squid的命中率下降
Ss 结果

Mem命中率:

 
查看页面的调用情况:
在页面的代码调用中,有个css样式(.Nav)调用了这2个不存在的图片,而调用这个样式图片的是<li>标签,单个页面中存在多<li>标签及循环调用,即每1次对此页面请求会产生大量对WEBCDN的非缓存的404请求。
 
 

 
 

 

 
 
在21:30左右修复了这个问题,同时webcdn恢复正常
 
总结:
1.利用好webcdn的状态码监控和增加报警
2.源站要尽可能保证元素正确且存在,非正常的状态码在webcdn不能被缓存,就会造成重复的回源,影响webcdn性能。

转载于:https://blog.51cto.com/caiguangguang/932346

webcdn故障处理一例相关推荐

  1. mysql主从复制故障处理_MySQL主从复制故障处理一例

    之前在课程中对MySQL主从复制的故障处理涉及的比较少,所以这里打算利用手记把在工作中遇到的一些问题及处理方式,记录下来. 今天先说说其中一种故障的分析及处理方法,在我们的监控系统中收到了如下的报警信 ...

  2. 山东省枣庄市台儿庄区云平台运维故障处理一例

    故障现象: 外网访问页面显示不正常,Template Error! 接到反馈后,远程到服务器,执行service nginx restart ,提示磁盘满,无法继续. 查看磁盘占用情况,磁盘/目录占用 ...

  3. STOP 0X0000007B蓝屏故障处理一例

    用户在重新安装Windows XP的过程中,可能会出现安装过程中蓝屏,代码是0X0000007B的错误提示,如图: 分析: 只是因为Dell电脑采用SATA硬盘,我们知道, 目前SATA硬盘工作在两种 ...

  4. oracle故障一例,Oracle 10g异机恢复后EM无法启动故障处理一例

    之前在自己的测试环境上做了个异机恢复,原来的库上是配置过EM的,但是在恢复的库上去启动EM就报错了,下面看具体解决过程: PS:原主机名为zlm,恢复出来的主机名为bak [root@bak ~]# ...

  5. 排查和判断常见的服务器故障

    对于服务器的软件故障,只要平时管理员注意维护,都是可以避免的. 第一部分 服务器故障排除的基本原则性问题 一.服务器开机无显示应怎么办 1.检查供电环境,零-火:零-地电压 2.检查电源指示灯,如果亮 ...

  6. 一个小兔子的大数据见解2

    Big Data 阿里的大数据解决方案 MAXCOMPUTE DATAWORKS QUICKBI 1.Vmware增强 2. 1.1.VMware 虚拟网络设备 1.1.1.虚拟网卡.虚拟交换机 虚拟 ...

  7. 《Java150道面试题全集》

    本文转载他人,自留作笔记用,请尊重原创作者. 1.面向对象的特征有哪些方面? 答:面向对象的特征主要有以下几个方面: - 抽象:抽象是将一类对象的共同特征总结出来构造类的过程,包括数据抽象和行为抽象两 ...

  8. 打印机故障处理【以MP 3054sp 打印机为例】

    打印机故障处理[以MP 3054sp 打印机为例] 1.打印机故障原因检测 声明: 本文适用于打印机软件设置,打印机硬件问题不做判断处理. 1.1 电源故障检测 拔插打印机电源,检查打印机是否通电.无 ...

  9. 博科SAN交换机的状态查询,故障处理等方法(华为SNS系列交换机为例OEM博科)

    一.显示交换机的正常运行时间 -------------------------------------------------------------------- SNS:admin> up ...

最新文章

  1. java语言中数值自动转换的优先顺序
  2. nlohmann/json使用笔记
  3. 如何在MFC中使用cout和printf,输出到控制台
  4. 字段和属性之间有什么区别?
  5. 江苏小高考计算机知识点,江苏小高考知识点
  6. TOMCAT虚拟路径配置
  7. Spring Cloud部分源码分析Eureka,Ribbon,Feign,Zuul
  8. android windows 虚拟机下载,windows10虚拟机安卓版
  9. 利用diyUpload做多图片上传及预览
  10. python评分卡模型
  11. 卸载红蜘蛛多媒体网络教室
  12. 外贸询盘、对话、常用话术英语(上)
  13. python requests中content与text方法的区别
  14. F003-牛奶为什么要倒河里 #F1350
  15. 2018年最新Python Flask打造一个视频网站实战视频教程分享
  16. ad导出bom表不完整_新手学AD电子设计,分四个步骤学习,不用看视频教程也能上手...
  17. S5PV210Kernel移植6之什么是进程,线程?
  18. 全备份、增量备份与差量备份
  19. jQuery入门第十章(视频音频)
  20. 你需要一款高效的搜索工具,Everything下载安装使用,快速上手,小工具推荐

热门文章

  1. 《新一代城市大脑建设与发展》专家研讨会在京举办(新版)
  2. 分析 | MEMS传感器市场报告
  3. 脑神经计算建模揭示前额叶皮层不同类型中间神经元在信息维持中的作用
  4. 语音助手再次敲响隐私保护警钟
  5. GSMA:中国有望成为全球领先的5G市场之一
  6. IEEE论文:城市大脑,基于互联网大脑模型的智慧城市建设
  7. 理性解读中国科技实力:不震惊式吹捧,也不全盘抹杀
  8. Deepmind 预测地图论文背后:神经科学或将助力AI迎来新突破
  9. Nature:原来记忆是这样形成的!科学家发现记忆形成新机制
  10. 主板上这家伙,要当 CPU 和内存的中间商!