本文及后续文章,Redis版本均是v3.2.8

在文章《Redis 数据结构之dict》《Redis 数据结构之dict(2)》中,从代码层面做了简单理解。总感觉思路的不够条理性,特开一篇文章把哈希表中几个知识点串联下。

一、先来回顾下哈希表结构定义

/**

* 哈希表

*/

typedef struct dictht {

// 哈希表节点指针数组(俗称桶,bucket)

dictEntry **table;

// 指针数组的大小

unsigned long size;

// 指针数组的长度掩码,用于计算索引值

unsigned long sizemask;

// 哈希表现有的节点数量

unsigned long used;

} dictht;

table属性是一个数组,数组中的每个元素都是一个指向dict.h/dictEntry结构的指针,每个dictEntry结构保存着一个键值对。size属性记录了哈希表的大小,也即是table数组的大小,而used属性则记录了哈希表目前已有节点(键值对)的数量。sizemask属性的值总是等于size-1,这个属性和哈希值一起决定一个键应该被放到table数组的哪个索引上面。

一个大小为4的空哈希表结构:

图1-1 大小为4的空哈希表

哈希表节点结构定义

/**

* 哈希表节点

*/

typedef struct dictEntry {

// 键

void *key;

// 值

union {

void *val;

uint64_t u64;

int64_t s64;

} v;

// 链往后继节点

struct dictEntry *next;

} dictEntry;

哈希表节点使用dictEntry结构表示,每个dictEntry结构都保存着一个键值对。

key属性保存着键值对中的键,而v属性则保存着键值对中的值,其中键值对的值可以是一个指针,或者是一个uint64t整数,又或者是一个int64t整数。

next属性是指向另一个哈希表节点的指针,这个指针可以将多个哈希值相同的键值对连接在一次,以此来解决键冲突(collision)的问题。

二、哈希算法

当要将一个新的键值对添加到字典里面时,程序需要先根据键值对的键计算出哈希值和索引值,然后再根据索引值,将包含新键值对的哈希表节点放到哈希表数组的指定索引上面。

Redis计算哈希值和索引值的方法如下:

  • 使用字典设置的哈希函数.计算键key的哈希值

hash=dict->type->hashFunction(key);

  • 使用哈希表的sizemask属性和哈希值,计算出索引值

  • 根据情况不同,ht[x]可以是ht[0]或者ht[1]

index=  hash&dict->ht[x].sizemask

举个例子,对于空的字典来说,如果我们要将一个键值对k0和v0添加到字典里面。

那么程序会先使用语句:

hash=dict->type->hashFunction(k0);

计算键k0的哈希值。

假设计算得出的哈希值为8,那么程序会继续使用语句:

index = hash&dict->ht[0] .sizemask = 8 & 3 = 0;

计算出键k0的索引值0,这表示包含键值对k0和v0的节点应该被放置到哈希表数组的索引0位置上。

空的字典、添加键值对k0和v0的结构,如下图所示。

图1-2空字典

图1-3 添加键值对K0和V0之后的字典

三、解决键冲突

当有两个或以上数量的键被分配到了哈希表数组的同一个索引上面时,我们称这些键发生了冲突(collision)。

Redis的哈希表使用链地址法(separatechaining)来解决键冲突,每个啥希表节点都有一个next指针,多个哈希表节点可以用next指针构成一个单向链表,被分配到同一个索 引上的多个节点可以用这个单向链表连接起来,这就解决了键冲突的问题 。

举个例子,假设程序要将键值对k2和v2添加到图1-4所示的哈希表里面,并且计算得出k2的索引值为2,那么键k1和k2将产生冲突,而解决冲突的办法就是使用next指针将键k2和k1所在的节点连接起来,如图1-5所示。

因为dictEntry节点组成的链表没有指向链表表尾的指针,所以为了速度考虑,程序总是将新节点添加到链表的表头位置(复杂度为0(1)),排在其他已有节点的前面。

图1-4 一个包含两个键值对的哈希表

图1-5 使用链表解决k1和k2的冲突

四、Rehash

上两篇文章提到dict结构中ht属性是一个包含两个项的数组,数组中的每个项都是一个dictht晗希表,一般情况下,字典只使用ht[0)哈希表,ht[1]哈希表只会在对ht[0]哈希表进行rehash时使用。除了ht[1]之外,另一个和rehash有关的属性就是rehashidx,它记录了rehash目前的进度,如果目前没有在进行rehash,那么它的值为-1。

我们看下一个普通状态下的字典即没有进行rehash的字典:

图1-6 没有进行rehash的字典

随着操作的不断执行,哈希表中保存的键值对会逐渐地增多或者减少,为了让哈希表的负载因子(loadfactor)维持在一个合理的范围之内,当哈希表保存的键值对数量太多或者太少时,程序需要对哈希表的大小进行相应的扩展或者收缩 。如果节点数量比哈希表的大小要大很多的话,那么哈希表就会退化成多个链表,哈希表本身的性能优势便不复存在。这个就是我们上篇文章中说到的哈希表扩展和收缩策略。

扩展和收缩哈希表的工作可以通过执行   rehash  (重新散列)操作来完成, Redis对字典的哈希表执行rehash的步骤如下:

  • 为字典的ht[1]哈希表分配空间,这个哈希表的空间大小取决于要执行的操

    作,以 及ht[0]当前包含的键值对数量(也即是ht[0].used属性的值):

1、如果执行的是扩展操作,那么ht[1]的大小为第一个大于等于ht[0].used*2

的2"(2的n次方幕)。

2、如果执行的是收缩操作,那么ht[1]的大小为第一个大于等于ht[0].used的2"(2的n次方幕)。

  • 将保存在ht[0]中的所有键值对rehash到ht[1]上面:  rehash指的是重新计

算键的哈希值和索引值,然后将键值对放置到ht[1]晗希表的指定位置上。

  • 当ht[0]包含的所有键值对都迁移到了ht[1)之后(ht[0]变为空表),释放ht[0],将ht[1]设置为ht[0],并在ht[1]新创建一个空白哈希表,为下一次rehash做准备。

举个例子,我们对下图1-7所示字典的ht[0]进行扩展操作,那么程序执行的过程是怎么样一个过程哪?

图1-7 执行rehash之前的字典

1、ht[0].used当前的值为4,4*2=8,而8(23)恰好是第一个大于等于4的2的n次方,所以程序会将ht[l]晗希表的大小设置为8。图1-8展示了ht[1]在分配空间之后,字典的样子。

图1-8

2)将ht[0]包含的四个键值对都rehash到ht[1],如图1-9所示

图1-9

3)释放ht[0],并将ht[l]设置为ht[0],然后为ht[l]分配一个空白哈希表,如

图1-10所示。至此,对哈希表的扩展操作执行完毕,程序成功将哈希表的大小从原来的 4改为了现在的8。

图1-10

四、渐进式rehash

扩展或收缩哈希表需要将ht[0]里面的所有键值对rehash到ht[1] 里面,但是,这个rehash动作并不是一次性、集中式地完成的,而是分多次、渐进式地完成的。

这样做的原因在于,如果  ht[0]里只保存着四个键值对,那么服务器可以在瞬间就将这些键值对全部rehash到ht[1]。但是,如果哈希表里保存的键值对数量几千甚至上万百万个键值对,那么要一次性将这些键值对全部rehash到ht[1]的话,庞大的计算量可能会导致服务器在一段时间内停止服务。

因此,为了避免rehash对服务器性能造成影响,服务器不是一次性将ht[0]里面的所有键值对全部rehash到ht[1],而是分多次、渐进式地将ht[0]里面的键值对慢慢地rehash到ht[1]。

以下是哈希表渐进式rehash的详细步骤:

1、为ht[1]分配空间,让字典同时持有ht[0]和ht[1]两个哈希表。

2、在字典中维持一个索引计数器变量rehashidx,并将它的值设置为0 ,表示rehash工作正式开始。

3、在rehash进行期间,每次对字典执行添加、删除、查找或者更新操作时,程序除了执行指定的操作以外,还会顺带将ht[0]哈希表在rehashidx索引上的所有键值对rehash到ht[1]。当rehash工作完成之后,程序将rehashidx属性的值增加1。

4、随着字典操作的不断执行,最终在某个时间点上,ht[0]的所有键值对都会被rehash至ht[1],这时程序将rehashidx属性的值设为-1,表示rehash操作已完成。

渐进式rehash的好处在于它采取分而治之的方式,将 rehash键值对所需的计算工作均摊到对字典的每个添加、删除、查找和更新操作上,从而避免了集中式  rehash而带来的庞大计算量。

因为在进行渐进式rehash的过程中,字典会同时使用ht[0]和ht[l]两个哈希表,所以在渐进式rehash进行期间,字典的删除(delete)、查找(find)、更新(update)等操作会在两个哈希表上进行。例如,要在字典里面查找一个键的话,程序会先在ht[0]里面进行查找,如果没找到的话,就会继续到ht[l]里面进行查找,诸如此类。

另外,在渐进式rehash执行期间,新添加到字典的键值对一律会被保存到ht[1]里面,而ht[0]则不再进行任何添加操作,这一措施保证了ht[0]包含的键值对数量会只减不增,并随着rehash操作的执行而最终变成空表。

图1-11至图1-16展示了一次完整的渐进式rehash过程,注意观察在整个rebash过程中,字典的 rehashidx属性是如何变化的?

图1-11 准备开始rehash

图1-12 rehash索引0上的键值对

图1-13 rehash索引1上的键值对

图1-14 rehash索引2上的键值对

图1-15 rehash索引3上的键值对

图1-16 rehash执行完毕

参考:《Redis设计与实践》

-EOF-

转载于:https://www.cnblogs.com/exceptioneye/p/6888320.html

Redis哈希表总结相关推荐

  1. redis哈希表的rehash分析

    女主宣言 大家都比较了解哈希表,以及类似php.redis等的内部hash实现.但是本文着力介绍redis中的rehash的实现,供大家参考学习. PS:丰富的一线技术.多元化的表现形式,尽在&quo ...

  2. Redis 数据结构之哈希表

    Redis 的字典底层使用哈希表实现,说到哈希表大家应该能联想到 HashMap 或者是 Hashtable,也应该能联想到 key.value 的存储形式,以及哈希表扩容,哈希算法等知识点.那么 R ...

  3. Redis 哈希结构内存模型剖析

    2019独角兽企业重金招聘Python工程师标准>>> 本文共 1231字,阅读大约需要 5分钟 ! 概述 在前文<Redis字符串类型内部编码剖析>之中已经剖析过 Re ...

  4. 散列表删除一个元素c语言,分享一个简单高效的哈希表C语言实现

    hashtable是一种非常实用的数据结构,尤其数据量相当大的时候,当然其中很关键的一点是hash算法.之前看redis数据库源码它里面实现hash的算法为murmurhash3,后来发现了这个xxh ...

  5. c语言哈希表电子辞典_关于redis涉及的知识点,C语言如何操作redis

    redis是什么? redis是一个由 Salvatore Sanfilippo 写的 key-value 存储系 统.Redis 是一个开源的使用 ANSI C 语言编写.遵守 BSD 协议.支持网 ...

  6. 转载一篇《Redis源码研究—哈希表》重点是如何重新哈希

    <Redis源码研究-哈希表>来自:董的博客 网址:http://dongxicheng.org/nosql/redis-code-hashtable/ 转载于:https://www.c ...

  7. 【Redis实战】认识Redis中的全局哈希表

    文章目录 Redis是如何支持基于Key的快速访问的 全局哈希表 哈希表结构 哈希冲突 一张图 相关源码 Redis是如何支持基于Key的快速访问的 一谈到Redis,马上能想到的就是:"快 ...

  8. Redis底层详解(一) 哈希表和字典

    一.哈希表概述 首先简单介绍几个概念:哈希表(散列表).映射.冲突.链地址.哈希函数. 哈希表(Hash table)的初衷是为了将数据映射到数组中的某个位置,这样就能够通过数组下标访问该数据,提高数 ...

  9. 「Redis数据结构」哈希表(Dict)

    「Redis数据结构」哈希表(Dict) 文章目录 「Redis数据结构」哈希表(Dict) @[toc] 一.概述 二.结构 三.哈希冲突 四.链式哈希 五.rehash 六. 渐进式 rehash ...

最新文章

  1. 绝了!这款工具让SpringBoot不再需要Controller、Service、DAO、Mapper!
  2. 大数据分析:财务报表公开数据
  3. python开发环境功能介绍_第一模块 第3章 Python介绍与环境配置
  4. Hadoop的安装与配置——搭建完全分布式集群
  5. java连接池域名切换_java - 使用JDBC的连接池选项:DBCP与C3P0
  6. 《天天数学》连载41:二月十日
  7. 【报告分享】2020新零售直播活力报告.pdf(附下载链接)
  8. ireport中band指什么_金庸武侠经典书剑恩仇录中,“书剑”指的究竟是什么呢?...
  9. 无法访问工作组计算机修复工具,局域网共享一键修复工具
  10. Objective-c包装类
  11. 好用且种类多的Unity3d游戏特效素材推荐,都在这里
  12. Android开源库——xUtils框架
  13. linux网络使用情况分析工具
  14. 关于在win10电脑开启移动热点,手机连上wifi显示无互联网连接的问题
  15. 雷电模拟器激活面具magisk教程
  16. linux 关机和重启命令
  17. 工信部:发挥、坚持、强化,做数字化转型主力军
  18. Matlab: 多项式表示及其基本运算
  19. 保护计算机组件免受esd,当电子元件性能下降:如何保护您的模拟前端
  20. [Linux] 什么是 段错误(吐核)?

热门文章

  1. 项目疑难杂症记录(五):fragment生命周期都回调了,却不见其页面展示
  2. html动画曲线快速结束,CSS3 animation动画
  3. GBK转unicode码查询表
  4. 95-20-020-启动器-Cloneable
  5. 【Elasticsearch】eBay上的Elasticsearch性能调优实践
  6. 60-40-030-序列化-传统Avro序列化
  7. 【jmx】JMX最佳实践与详解
  8. 【Elasticsearch】Elasticsearch 7.6 IDEA 源码环境搭建
  9. 95-136-041-源码-Operator-OneInputStreamOperator
  10. 【hive】hive权限