看完此文,必须明白一致性Hash算法
一致性Hash算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot Spot)问题,初衷和CARP十分相似。一致性Hash修正了CARP使用的简单哈希算法带来的问题,使得分布式哈希(DHT)可以在P2P环境中真正得到应用。
一致性Hash算法提出了在动态变化的Cache环境中,判定哈希算法好坏的四个定义:
1、平衡性(Balance):平衡性是指哈希的结果能够尽可能分布在所有的缓冲(Cache)中去,这样可以使得所有的缓冲空间得到利用。很多哈希算法都能够满足这一条件。
2、单调性(Monotonicity):单调性是指如果已经有一些内容通过哈希分派到了相应的缓冲中,又有新的缓冲加入到系统中。哈希的结果应该能够保证原有已分配的内容可以被映射到原有的或者新的缓冲中去,而不会映射到旧的缓冲集合中的其他缓冲区。
3、分散性(Spread):在分布式环境中,终端有可能看不到所有的缓冲,而只能看到其中的一部分。当终端希望通过哈希过程将内容映射到缓冲上去,由于不同终端所见的缓冲范围有可能不同,从而导致哈希的结果不一致,最终的结果是相同的内容被不同的终端映射到不同的缓冲区中。这种情况显然是应该避免的,因为它导致相同内容被存储到不同缓冲中去,降低了系统存储的效率。分散性的定义就是上述情况发生的严重程度。好的哈希算法应该能够尽量避免不一致的情况发生,也就是尽量降低分散性。
4、负载(Load):负载问题实际上是从另一个角度看待分散性问题。既然不同的终端可能将相同的内容映射到不同的缓冲区中,那么对于一个特定的缓冲区而言,也可能被不同的用户映射到不同的内容。与分散性一样,这种情况也是应当避免的,因此好的哈希算法应能够尽量降低缓冲的负荷。
在分布式集群中,对机器的添加删除,或者机器故障后自动脱落集群这些操作是分布式集群管理最基本的功能。如果采用常用的hash(object)%N算法,那么在有机器添加或者删除后,很多原有的数据就无法找到了,这样严重的违反了单调性原则。
解释使用hash(object)%N,其中N是指N个cache服务器/N个节点为啥不行:
如果N个cache服务器中编号为a的服务器故障了,需要把a从服务器群中移除,这个时候cache服务器的数量就变成了N-1台,那么所有对象(object)映射到cache服务器的计算公式就变成了hash(object)%N-1,对,影响到了所有的对象与cache服务器的映射关系,类似,由于访问加重,需要添加cache服务器,这时候cache服务器是N+1台,映射公式就变成了hash(object)%N+1,这就意味着几乎所有的cache都失效了,对于服务器而言,这是一场灾难,所有访问都会直接冲向后台服务器。
接下来主要讲解一下哈希算法是如何设计的:
环形Hash空间
按照常用的hash算法来将对应的key哈希到一个具有2^32次方个桶的空间中,即0~(2^32)-1的数字空间。现在我们可以将这些数字头尾相连,想象成一个闭合的环形。如下图
把数据(对象)通过一定的hash算法处理后映射到环上
现在我们将object1、object2、object3、object4四个对象通过特定的Hash函数计算出对应的key值,然后散列到hash换上。如下图:
Hash(object1)=key1;Hash(object2)=key2;Hash(object3)=key3;Hash(object4)=key4;
将机器通过hash算法映射到环上
在采用一致性哈希算法的分布式集群中将新的机器加入,其原理是通过使用与对象存储一样的Hash算法将机器也映射到换种(一般情况下对机器的hash计算是采用机器的IP或者唯一的别名作为输入值),然后以顺时针的方向计算,将所有对象存储到离自己最近的机器中。
假设现在有NODE1,NODE2,NODE3三台机器中,通过hash算法得到对应的KEY值,映射到环中,其示意图如下:
Hash(NODE1)=KEY1;Hash(NODE2)=KEY2;Hash(NODE3)=KEY3;
通过上图可以看出对象与机器处于同一个哈希空间中,这样按顺时针转动object1(对象)存储到了NODE1(机器)中,object3(对象)存储到了NODE2(机器)中,object2、object4(对象)存储到了NODE3(机器)中。在这样的部署环境中,hash环是不会变更的,因此,通过算出对象的hash值就能快速的定位到对应的机器中,这样就能找到对象真正的存储位置了。
机器删除与添加
普通hash求余算法最为不妥的地方就是在有机器的添加与删除以后会造成大量的对象存储位置的失效,这样就大大的不满足单调性了。下面来分析一下一致性哈希算法是如何处理的。
1、节点(机器)的删除
以上面的分布式集群为例,如果NODE2出现故障被删除了,那么按照顺时针迁移的方法,object3将会被迁移到NODE3中,这样仅仅是object3的映射位置发生了变化,其他的对象没有任何的变动,如下图:
2、节点(机器)的添加
如果往集群中添加一个新的节点NODE4,通过对应的Hash算法得到KEY4,并映射到环中,如下图:
通过按照顺时针迁移的规则,那么object2被迁移到NODE4中,其他对象还保持这原有的存储位置。通过对节点的添加和删除的分析,一致性哈希算法在保持了单调性的同时,还是数据的迁移达到了最小,这样的算法对分布式集群来说非常合适的,避免了大量收数据迁移,减少了服务器的压力。
平衡性
根据上面的图解分析,一致性哈希算法满足了单调性和负载均衡的特性以及一般hash算法的分散性,但这还并不能当做其被广泛应用的原由,因为缺少了平衡性。下面将分析一致性哈希算法是如何满足平衡性的。hash算法是不保证平衡性的,如上面只部署了NODE1和NODE3的情况(NODE2被删除的图),object1存储在NODE1中,而object2、object3、object4都存储在NODE3中,这样就造成了非常不平衡的状态。在一致性哈希算法中,为了尽可能的满足平衡性,其引入了虚拟节点。
何为虚拟节点?虚拟节点(Virtual node)是实际节点(机器)在hash空间的复制品(replica),一个实际节点对应了若干个“虚拟节点”,这个对应个数也称为“复制个数”,“虚拟节点”在hash空间中以hash值排列。
在上面只部署了NODE1和NODE3的情况(NODE2被删除的图)为例,之前的对象在机器上的分布很不均衡,现在我们以2个副本(每个节点复制2个)为例,这样整个hash环就存在4个虚拟节点,最后对象映射的关系图如下:
根据上图可知对象的映射关系:object1->NODE1-1,object2->NODE1-2 ,object3->NODE3-2,object4->NODE3-1,通过虚拟节点的引入,对象的分布就比较均衡了。那么在实际操作中,真正的对象查询是如何工作的呢?对象从hash到虚拟节点到实际节点的转换如下图:
虚拟节点”的hash计算可以采用对应节点的IP地址加数字后缀的方式。例如假设NODE1的IP地址为192.168.1.100。引入“虚拟节点”前,计算 cache A 的 hash 值:
Hash(“192.168.1.100”);
引入“虚拟节点”后,计算“虚拟节”点NODE1-1和NODE1-2的hash值:
Hash(“192.168.1.100#1”); // NODE1-1
Hash(“192.168.1.100#2”); // NODE1-2
参考:https://blog.csdn.net/cywosp/article/details/23397179/
https://www.jianshu.com/p/e8fb89bb3a61
看完此文,必须明白一致性Hash算法相关推荐
- 不会一致性hash算法,劝你简历别写搞过负载均衡
这两天看到技术群里,有小伙伴在讨论一致性hash算法的问题,正愁没啥写的题目就来了,那就简单介绍下它的原理.下边我们以分布式缓存中经典场景举例,面试中也是经常提及的一些话题,看看什么是一致性hash算 ...
- 什么是一致性 Hash 算法
数据分片 先让我们看一个例子吧 我们经常会用 Redis 做缓存,把一些数据放在上面,以减少数据的压力. 当数据量少,访问压力不大的时候,通常一台Redis就能搞定,为了高可用,弄个主从也就足够了: ...
- 一致性 Hash 算法原理总结
一致性 Hash 算法是解决分布式缓存等问题的一种算法,本文介绍了一致性 Hash 算法的原理,并给出了一种实现和实际运用的案例: 一致性 Hash 算法背景 考虑这么一种场景: 我们有三台缓存服务器 ...
- 一致性 Hash 算法的实际应用
前言 记得一年前分享过一篇<一致性 Hash 算法分析>,当时只是分析了这个算法的实现原理.解决了什么问题等. 但没有实际实现一个这样的算法,毕竟要加深印象还得自己撸一遍,于是本次就当前的 ...
- 一致性hash算法使用
一.概述 1.我们的memcache客户端(这里我看的spymemcache的源码),使用了一致性hash算法ketama进行数据存储节点的选择.与常规的hash算法思路不同,只是对我们要存储数据的k ...
- hash的算法 java_【数据结构与算法】一致性Hash算法及Java实践
追求极致才能突破极限 一.案例背景 1.1 系统简介 首先看一下系统架构,方便解释: 页面给用户展示的功能就是,可以查看任何一台机器的某些属性(以下简称系统信息). 消息流程是,页面发起请求查看指定机 ...
- MemCache和一致性Hash算法讲解
文章目录 1 MemCache讲解 1.1 MemCache是什么 1.2 MemCache访问模型 1.3 MemCache写缓存流程 1.4 一致性Hash算法 1.4.1 余数Hash 1.4. ...
- java hash取模,一致性hash算法及其java实现
目录 背景 随着业务系统越来越大,我们需要对API的访问进行更多的缓存,使用Redis是一个很好的解决方案. 但是单台Redis性能不足够且迟早要走向集群的,那么怎么才能良好的利用Redis集群来进行 ...
- 一致性Hash算法及Java实践
目录 一.案例背景 1.1 系统简介 1.2 遇到问题 1.3 初步优化 1.4 继续优化 二.使用一致性Hash解决问题 三.一致性Hash介绍 3.1 理论简介 3.2 设计实现 四.对一致性Ha ...
最新文章
- BZOJ4573 : [Zjoi2016]大森林
- 展示博客(Beta阶段)
- android 启动服务权限,android – 当我尝试启动服务时权限被拒绝
- python刷新网页脚本_python语言如何测试实现页面下拉刷新
- Linux系统函数read()/write()/pread()/pwrite()的区别
- 48张图|手摸手教你性能监控、压测和调优
- 【SpringCloud】 第十篇: 高可用的服务注册中心
- win7安装python3.6_Win7 64位下python3.6.5安装配置图文教程
- Arduino开发遥控小车(二)基于nRF24L01无线模块实现数据发送和接收
- jade 编译 html,学习前端模板引擎 jade (一)_html/css_WEB-ITnose
- mysql数据库的实例_MySQL数据库实例-解释汇总
- int数据超出范围的值变化
- 2022-08-23:以下go语言代码输出什么?A:map[baz:2 foo:0];B:map[bar:1 baz:2];C:map[baz:2];D:不确定。 package main impo
- 模拟鼠标键盘操作,含硬件模拟技术。[转]
- 【点云处理技术之PCL】range image——提取深度图像的边界并可视化
- python-包引入和.py打包成无需环境的.exe
- 采集服务器维护,采集服务器
- Ceph分布式存储系列(二):ceph-deploy方式部署三节点ceph集群
- video output protection内容输出保护技术
- 微信web开发者工具无法打开网络连接失败,网上的办法都无法解决的小伙伴可以用我这个办法
热门文章
- #互联网广告#复杂网络机遇和挑战(十大问题)
- 发现一家国产自研NAS操作系统------操作简单,内网穿透免费
- 香港大学计算机硕士一定要面试吗,大干货!!!香港硕士有哪些专业需要笔试面试...
- 调用360一键断网+限速源码
- Android开发艺术探索 - 第9章 四大组件的工作过程
- 计算机专业上海信息技术学校,上海信息技术学校工匠之星评选
- django对接阿里云支付
- 微信内提示“网页包含诱导分享、关注等诱导行为内容,已停止访问”的解决方案...
- 零中频接收机频率转换图_一文带你了解接收机射频前端线性度对接收灵敏度有何影响...
- 2021年中国钴产量、消费量、进出口、价格走势及竞争格局分析「图」