Redis 是一种内存数据库,将数据保存在内存中,读写效率要比传统的将数据保存在磁盘上的数据库要快很多。但是 Redis 也会发生延迟时,这是就需要我们对其产生原因有深刻的了解,以便于快速排查问题,解决 Redis的延迟问题

一条命令执行过程

在本文场景下,延迟 (latency) 是指从客户端发送命令到客户端接收到命令返回值的时间间隔。所以我们先来看一下 Redis 一条命令执行的步骤,其中每个步骤出问题都可能导致高延迟。

上图是 Redis 客户端发送一条命令的执行过程示意图,绿色的是执行步骤,而蓝色的则是可能出现的导致高延迟的原因。

网络连接限制、网络传输速率和CPU性能等是所有服务端都可能产生的性能问题。但是 Redis 有自己独有的可能导致高延迟的问题:命令或者数据结构误用、持久化阻塞和内存交换。

而且更为致命的是,Redis 采用单线程和事件驱动的机制来处理网络请求,分别有对应的连接应答处理器,命令请求处理器和命令回复处理器来处理客户端的网络请求事件,处理完一个事件就继续处理队列中的下一个。一条命令处理出现了高延迟会影响接下来处于排队状态的其他命令。有关 Redis 事件处理机制的可以参考本篇文章。

对于高延迟,Redis 原生提供慢查询统计功能,执行 slowlog get {n} 命令可以获取最近的 n 条慢查询命令,默认对于执行超过10毫秒(可配置)的命令都会记录到一个定长队列中,线上实例建议设置为1毫秒便于及时发现毫秒级以上的命令。

  1. # 超过 slowlog-log-slower-than 阈值的命令都会被记录到慢查询队列中

  2. # 队列最大长度为 slowlog-max-len

  3. slowlog-log-slower-than 10000

  4. slowlog-max-len 128

如果命令执行时间在毫秒级,则实例实际OPS只有1000左右。慢查询队列长度默认128,可适当调大。慢查询本身只记录了命令执行时间,不包括数据网络传输时间和命令排队时间,因此客户端发生阻塞异常 后,可能不是当前命令缓慢,而是在等待其他命令执行。需要重点比对异常和慢查询发生的时间点,确认是否有慢查询造成的命令阻塞排队。

slowlog的输出格式如下所示。第一个字段表示该条记录在所有慢日志中的序号,最新的记录被展示在最前面;第二个字段是这条记录被记录时的系统时间,可以用 date 命令来将其转换为友好的格式第三个字段表示这条命令的响应时间,单位为 us (微秒);第四个字段为对应的 Redis 操作。

  1. > slowlog get

  2. 1) 1) (integer) 26

  3. 2) (integer) 1450253133

  4. 3) (integer) 43097

  5. 4) 1) "flushdb"

下面我们就来依次看一下不合理地使用命令或者数据结构、持久化阻塞和内存交换所导致的高延迟问题。

不合理的命令或者数据结构

一般来说 Redis 执行命令速度都非常快,但是当数据量达到一定级别时,某些命令的执行就会花费大量时间,比如对一个包含上万个元素的 hash 结构执行 hgetall 操作,由于数据量比较大且命令算法复杂度是 O(n),这条命令执行速度必然很慢。

这个问题就是典型的不合理使用命令和数据结构。对于高并发的场景我们应该尽量避免在大对象上执行算法复杂度超过 O(n) 的命令。对于键值较多的 hash 结构可以使用 scan 系列命令来逐步遍历,而不是直接使用 hgetall 来全部获取。

Redis 本身提供发现大对象的工具,对应命令:redis-cli-h {ip} -p {port} bigkeys。这条命令会使用 scan 从指定的 Redis DB 中持续采样,实时输出当时得到的 value 占用空间最大的 key 值,并在最后给出各种数据结构的 biggest key 的总结报告。

  1. > redis-cli -h host -p 12345--bigkeys

  2. # Scanning the entire keyspace to find biggest keys as well as

  3. # average sizes per key type. You can use -i 0.1 to sleep 0.1 sec

  4. # per 100 SCAN commands (not usually needed).

  5. [00.00%] Biggest hash found so far 'idx:user'with1 fields

  6. [00.00%] Biggest hash found so far 'idx:product'with3 fields

  7. [00.00%] Biggest hash found so far 'idx:order'with14 fields

  8. [02.29%] Biggest hash found so far 'idx:fund'with16 fields

  9. [02.29%] Biggest hash found so far 'idx:pay'with69 fields

  10. [04.45%] Biggestset found so far 'indexed_word_set'with1482 members

  11. [05.93%] Biggest hash found so far 'idx:address'with159 fields

  12. [11.79%] Biggest hash found so far 'idx:reply'with196 fields

  13. -------- summary -------

  14. Sampled1484 keys in the keyspace!

  15. Total key length in bytes is13488(avg len 9.09)

  16. Biggestset found 'indexed_word_set' has 1482 members

  17. Biggest hash found 'idx:的' has 196 fields

  18. 0 strings with0 bytes (00.00% of keys, avg size 0.00)

  19. 0 lists with0 items (00.00% of keys, avg size 0.00)

  20. 2 sets with1710 members (00.13% of keys, avg size 855.00)

  21. 1482 hashs with6731 fields (99.87% of keys, avg size 4.54)

  22. 0 zsets with0 members (00.00% of keys, avg size 0.00)

持久化阻塞

对于开启了持久化功能的Redis节点,需要排查是否是持久化导致的阻 塞。持久化引起主线程阻塞的操作主要有:fork 阻塞、AOF刷盘阻塞。

fork 操作发生在 RDB 和 AOF 重写时,Redis 主线程调用 fork 操作产生共享内存的子进程,由子进程完成对应的持久化工作。如果 fork 操作本身耗时过长,必然会导致主线程的阻塞。

Redis 执行 fork 操作产生的子进程内存占用量表现为与父进程相同,理论上需要一倍的物理内存来完成相应的操作。但是 Linux 具有写时复制技术 (copy-on-write),父子进程会共享相同的物理内存页,当父进程处理写请求时会对需要修改的页复制出一份副本完成写操作,而子进程依然读取 fork 时整个父进程的内存快照。所以,一般来说,fork 不会消耗过多时间。

可以执行 info stats命令获取到 latestforkusec 指标,表示 Redis 最近一次 fork 操作耗时,如果耗时很大,比如超过1秒,则需要做出优化调整。

  1. > redis-cli -c -p 7000 info | grep -w latest_fork_usec

  2. latest_fork_usec:315

当我们开启AOF持久化功能时,文件刷盘的方式一般采用每秒一次,后 台线程每秒对AOF文件做 fsync 操作。当硬盘压力过大时,fsync 操作需要等待,直到写入完成。如果主线程发现距离上一次的 fsync 成功超过2秒,为了数据安全性它会阻塞直到后台线程执行 fsync 操作完成。这种阻塞行为主要是硬盘压力引起,可以查看 Redis日志识别出这种情况,当发生这种阻塞行为时,会打印如下日志:

  1. Asynchronous AOF fsync is taking too long(disk is busy). \

  2. Writing the AOF buffer without waiting for fsync to complete, \

  3. this may slow down Redis.

也可以查看 info persistence 统计中的 aofdelayedfsync 指标,每次发生 fdatasync 阻塞主线程时会累加。

  1. >info persistence

  2. loading:0

  3. aof_pending_bio_fsync:0

  4. aof_delayed_fsync:0

内存交换

内存交换(swap)对于 Redis 来说是非常致命的,Redis 保证高性能的一个重要前提是所有的数据在内存中。如果操作系统把 Redis 使用的部分内存换出到硬盘,由于内存与硬盘读写速度差几个数量级,会导致发生交换后的 Redis 性能急剧下降。识别 Redis 内存交换的检查方法如下:

  1. >redis-cli -p 6383 info server | grep process_id # 查询 redis 进程号

  2. >cat /proc/4476/smaps | grep Swap# 查询内存交换大小

  3. Swap: 0 kB

  4. Swap: 4 kB

  5. Swap: 0 kB

  6. Swap: 0 kB

如果交换量都是0KB或者个别的是4KB,则是正常现象,说明Redis进程内存没有被交换。

有很多方法可以避免内存交换的发生。比如说:

  • 保证机器充足的可用内存

  • 确保所有Redis实例设置最大可用内存(maxmemory),防止极端情况下 Redis 内存不可控的增长。

  • 降低系统使用swap优先级,如 echo10>/proc/sys/vm/swappiness

参考

  • https://redis.io/topics/latency

有道无术,术可成;有术无道,止于术

欢迎大家关注Java之道公众号

好文章,我在看❤️

你还不知道Redis 高延迟时发生了啥嘛?相关推荐

  1. 当 Redis 发生高延迟时,到底发生了什么

    来自:程序员厉小冰 Redis 是一种内存数据库,将数据保存在内存中,读写效率要比传统的将数据保存在磁盘上的数据库要快很多.但是 Redis 也会发生延迟时,这是就需要我们对其产生原因有深刻的了解,以 ...

  2. 当 高并发系统下 Redis 发生高延迟时,其内部到底发生了什么

    Redis 是一种内存数据库,将数据保存在内存中,读写效率要比传统的将数据保存在磁盘上的数据库要快很多.但是 Redis 也会发生延迟时,这是就需要我们对其产生原因有深刻的了解,以便于快速排查问题,解 ...

  3. SpringBoot连接Redis集群时发生错误Cannot determine a partition to read for slot

    今天做SpringBoot和Redis整合时发生错误 io.lettuce.core.cluster.PartitionSelectorException: Cannot determine a pa ...

  4. 还不知道 Redis 分布式锁的背后原理?还不赶快学习一下

    前言 以前在学校做小项目的时候,用到Redis,基本也只是用来当作缓存.可阿粉在工作中发现,Redis在生产中并不只是当作缓存这么简单.在阿粉接触到的项目中,Redis起到了一个分布式锁的作用,具体情 ...

  5. Redis在持久化时产生的延迟

    点击上方"朱小厮的博客",选择"设为星标" 做积极的人,而不是积极废人 一个老外的有关Redis的博客文章中提到一个有趣的事情:它们在测试期间获得的延迟图.为了 ...

  6. 服务器高并发时请求报错_基于redis的分布式锁防止高并发重复请求

    需求: 我们先举个某系统验证的列子:(A渠道系统,业务B系统,外部厂商C系统) (1)B业务系统调用A渠道系统,验证传入的手机.身份证.姓名三要素是否一致. (2)A渠道系统再调用外部厂商C系统. ( ...

  7. 劳资蜀道山!6个高质量免费电子书网站!我看谁还不知道

    如今,电子书轻便海量的良好移动式体验受到广大年轻读者的喜爱.但是很多人也发现,有些电子书网站很贵,某些书籍还搜不到.今天,就给大家推荐6个电子书网站,不仅免费,而且品类丰富,能帮你找到99%的电子书. ...

  8. ping网络时偶尔会出现一个高延迟包的研究

    最近用无线玩游戏发现一个很诡异的情况, 会时不时地卡一下,延迟瞬间从十几ms飚到几十甚至几百ms ,觉得很奇怪,于是开cmd命令ping网关,发现通过网线连接的时候不会偶尔出现一个高延迟ping包的情 ...

  9. wcf高并发 mysql_WCF 高并发时客户端发送和服务端接收存在等待或延迟

    前提: .net版本: .net framework 4.5.2(服务端),.net framework 3.5(客户端) 服务器:8核E5420 2.5GHZ,16G内存,1万转HDD磁盘 wind ...

最新文章

  1. mysql如何避免特殊字符查询_如何避免MySQL中的特殊字符?
  2. 商业实战第三场 电视直销好记星
  3. 关于计算机专业学习的四点浅谈
  4. [X11forword]Display remote application with X11 forword / 远程显示linux服务器GUI
  5. 3D Reconstruction三维重建halcon算子,持续更新
  6. poj 1860 Currency Exchange (最短路bellman_ford思想找正权环 最长路)
  7. 程序员,为什么给你50万年薪,你还要搞死我公司?
  8. linux系统命令光标移动,Linux 命令行 光标移动技巧及利用grep和find查找文件内容...
  9. SpringMVC的拦截器讲解
  10. 佛罗里达大学计算机专业世界排名,2020年佛罗里达大学排名TFE Times美国最佳计算机科学硕士专业排名第55...
  11. 中文验证码识别 java_opencv Tesseract 验证码识别 文字识别
  12. UnityShader4:UnityShader的形式
  13. tweenlite的组合使用
  14. 数学建模——商人过河(Matlab)
  15. 液压缸、气缸、电动缸的参数对比
  16. Oracle使用ancestor incarnation完成基于时间点的不完全恢复
  17. 基于Twitter的Snowflake算法实现的分布式ID生成器
  18. openstack自动部署工具
  19. 微信小程序跳转页面携带参数
  20. 静则一念不生,动则万善相随

热门文章

  1. python读取序列5之后的数据_Python 基本功: 5. 数据序列化
  2. java封装demo_java封装
  3. python将excel转换成图片_python-尝试将Excel文件保存为图片并加上水印
  4. java adapter 模式_Java设计模式之适配器模式(Adapter模式)介绍
  5. hdl四位二进制计数器_四位二进制加法计数器
  6. 如何在vs中创建r树索引代码_线段树详解与实现
  7. 前端基础-html-路径的介绍
  8. (计算机组成原理)第三章存储系统-第三节2:ROM芯片
  9. Linux系统编程36:多线程之线程控制之pthread线程库(线程创建,终止,等待和分离)
  10. 1-2:学习shell之导航文件系统