生产环境99%的问题来自于变更,出现问题立即拉起所有相关人员同步问题

  • 问题发生时间点
  • 出现问题的集群
  • 问题影响服务
  • 问题影响的业务

事中排查处理(并行)

  1. 变更排查,变更包括代码发布、配置参数变更、机器配置变更、业务配置变更、SQL提交等。如果Redis CPU 持续飙高,立即回滚变更。
  2. 流量排查,排查流量是否有变更包括接口流量,消息队列流量,定时任务流量。如果有流量突增,增加的流量入口进行限流,并通知流量发起方下线该部分功能。
  3. 通过redis监控找到执行耗时长的命令,根据命令排查提交命令入口,将该部分功能临时下线。
  4. Redis 关闭 AOF持久化操作
  5. Redis 禁用高耗时命令

原因排查

redis cpu 100% 有哪些原因可以导致。如下:
     1.redis连接数过高

2.数据持久化导致的阻塞

3.主从存在频繁全量同步

4.value值过大

5.redis慢查询

事后(预防)

1. 使用redis连接池

2. 添加连接数告警

3. 根据不同的宕机数据丢失容忍性配置不同的持久化策略

4. 主从架构调整为级联集群

5. 添加大key请求监控

6. 禁用部分慢查询命令如:keys *

7. 添加慢查询监控

8. 核心非核心业务redis集群隔离部署,使用不同的集群

9. 核心业务redis集群出问题后支持降级和熔断

生产环境RedisCPU飙高怎么办相关推荐

  1. 生产环境CPU飙高问题解决,记一次完整解决过程

    一.发现问题 前段时间我们新上了一个新的应用,因为流量一直不大,集群QPS大概只有5左右,写接口的rt在30ms左右. 因为最近接入了新的业务,业务方给出的数据是日常QPS可以达到2000,大促峰值Q ...

  2. 生产环境:Nginx高可用方案

    准备工作: 192.168.16.128 192.168.16.129 两条虚拟机.安装好Nginx 安装Nginx 更新yum 源文件: 安装Nginx: 操作命令: 什么是高可用? 高可用HA(H ...

  3. Arthas排查生产环境CPU飚高问题

    启动Arthas java -jar arthas-boot.jar 执行dashboard dashboard 线程 35 和 12042 不正常 CUP 占用 49% 定位代码行 thread 3 ...

  4. 生产环境遇到难题,你是如何解决的?

    文章目录 1. 生产环境 cpu 飙高产生的原因? 2. 生产环境如何排查cpu 飙高问题? 3. 生产环境遇到了报错,你是如何定位解决的呢? 4. 调用接口如果服务器端一直没有响应怎么解决? 5. ...

  5. java生产问题快速定位_生产环境如何快速跟踪、分析、定位问题-Java

    我相信做技术的都会遇到过这样的问题,生产环境服务遇到宕机的情况下如何去分析问题?比如说JVM内存爆掉.CPU持续高位运行.线程被夯住或线程deadlocks,面对这样的问题,如何在生产环境第一时间跟踪 ...

  6. java开发的微信公众号服务端生产环境中的两个大坑

    摘要: 我们开发的公众号,由于将功能开发完毕后,未对服务进行压力测试,因此用到的组件中的参数值全是默认的,服务上线后一段时间运行得倒没什么问题,随着服务得访问量增加,一些多线程并发的问题就逐步暴露出来 ...

  7. 一次nacos 导致的 CPU 飙高问题

    序 今天下午突然 出现 测试环境 cpu飙高,干到了 60%,其他项目 响应时间明显变长...有点吓人,不想背锅 项目背景 出问题的项目是 需要连接各个不同nacos 和不同的 namespace 进 ...

  8. Nacos 单机集群搭建及常用生产环境配置 | Spring Cloud 3

    一.Nacos 概览 Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service的首字母简称,一个更易于构建云原生应用的动态服务发现.配置管理 ...

  9. 生产环境10分钟黄金时间快速排障:CPU不定时飙高怎么排查?

    " 1分钟发现-5分钟响应-10分钟恢复,是定义故障处理的时效性目标.在阿里巴巴内部经过多年的实践,这也早已成为各个业务稳定性.基础设施稳定性以及大促保障的重要牵引指标.对于故障,最难的往往 ...

最新文章

  1. java ee思维导图
  2. 【C 语言】二级指针作为输入 ( 指针数组 | 将 二级指针 作为函数输入 | 抽象函数业务逻辑 )
  3. java学习笔记:使用dom4j解析xml
  4. 本周最热 AI 论文大集合,还不快一键收藏?
  5. observable_Java Observable countObservers()方法与示例
  6. netflix linux_Netflix如何处理故障转移,Anaconda,Linux命令行技巧,Python日期时间库,GDPR,微服务等
  7. 移动端上下拖动调整顺序效果_移动端上下滑动事件之--坑爹的touch.js
  8. 加密解密你了解多少?
  9. Dotnet程序集自动生成版本号
  10. linux实现快捷键,Linux Bash下如何实现快捷键效果
  11. 深入浅出Python机器学习2——基于Python语言的环境配置
  12. ElasticJob‐Lite:自定义作业分片策略
  13. Java学习 DAY18 Map、File、IO流
  14. 【云开发】全网最详细壁纸小程序教程+源码
  15. TCP报文头部结构详解和作用解析
  16. php地区代码吗,将国家/地区名称转换为国家/地区代码缩写php
  17. 阿里云服务器部署项目邮箱发送功能465端口报错
  18. python爬取上市公司套期保值公告(巨潮网)--使用Selenium方法
  19. java.lang.OutOfMemoryError:GC overhead limit exceeded解决方法
  20. 计算机丢失mfc110d.dll,msvcp110d.dll

热门文章

  1. pc端页面右侧滑动样式修改
  2. 计算机的搜索功能无法启用,电脑文件搜索功能无法使用的具体解决方法
  3. Idea如何设置类头注释(图片步骤直接到位)
  4. 微信小程序开发:腾讯地图集成详细步骤
  5. people are able to buy the same products anywhere in the world
  6. 从0-1的CTF比赛环境搭建过程
  7. 私藏的自媒体图片素材网站,一键下载,免费使用
  8. Oauth 第三方授权登陆 facebook google twitter instagram
  9. 厨师 做菜 java_厨师做菜心得
  10. C++中的同名二义性和路径二义性