Zookeeper基于ZAB(Zookeeper Atomic Broadcast),实现了主备模式下的系统架构,保持集群中各个副本之间的数据一致性。

ZAB协议定义了选举(election)、发现(discovery)、同步(sync)、广播(Broadcast)四个阶段。

选举(election)是选出哪台为主机; 发现(discovery)、同步(sync)当主选出后,要做的恢复数据的阶段;

广播(Broadcast)当主机和从选出并同步好数据后,正常的主写同步从写数据的阶段。

下面简单地介绍下ZAB协议,目的是能够快速了解其精髓,快速掌握ZAB协议。然后通过论文了解具体协议的细节。主要介绍选举和广播两个阶段。

基本概念

我们了解下zk的一些基本概念。

zk集群有三种角色:

  • leader 就是我们说的主;

  • follower 就是我们说的从;

  • observer 可以认为是主的clone copy,不参与投票,本文可忽略;

zk集群的一个节点,有三种状态:

  • looking 选举状态,当前群龙无首;

  • leading leader才有的状态;

  • following follower才有的状态;

每次写成功的消息,都有一个全局唯一的标识,叫zxid。是64bit的正整数,高32为叫epoch表示选举纪元,低32位是自增的id,每写一次加一。 可以想象为中国古代的年号,例如万历十五年,万历是epoch,十五年是id。

zk集群一般都是奇数个机器(2n+1),只有一个主机leader,其余都是从机follower。选主还是写数据,要有>=n+1台选举相同,才能执行选举的操作。

投票优先级:优先比较zxid,如果相等,再比较机器的id,都按从大到小的顺序。

选举

当集群新建,或者主机死机,或者主机与一半或以上的从机失去联系后,都会触发选择新的主机操作。有两种算法 fast paxosbasic paxos

fast paxos

默认ZAB采用的算法是fast paxos算法。

每次选举都要把选举轮数加一,类似于zxid里的epoch字段,防止不同轮次的选举互相干扰。

每个进入looking状态的节点,最开始投票给自己,然后把投票消息发给其它机器。内容为<第几轮投票,被投节点的zxid,被投节点的编号>

其他looking状态的节点收到后,

1 首先判断票是否有效。 是否有效的方法为看票的投票轮数和本地记载的投票轮数是否相等:

2.1 如果比本地投票轮数的小,丢弃。

2.2 如果比本地投票轮数的大

  1. 证明自己投票过期了,清空本地投票信息,

  2. 更新投票轮数和结果为收到的内容。

  3. 通知其他所有节点新的投票方案。

2.3 如果和本地投票轮数相等,按照投票的优先级比较收到的选票和自己投出去的选票。

  2.3.1 如果收到的优先级大,更新自己的投票为对方发过来投票方案,把投票发出去。

  2.3.2 如果收到的优先级小,则忽略该投票。

  2.3.3 如果收到的优先级相等,则更新对应节点的投票。

3 每收集到一个投票后,查看已经收到的投票结果记录列表,看是否有节点能够达到一半以上的投票数。如果有达到,则终止投票,宣布选举结束,更新自身状态。然后进行发现和同步阶段。 否则继续收集投票。

basic paxos

1 每个looking节点先发出请求,询问其他节点的投票。

其他节点返回自己的投票 < zk的id,zxid >。第一次都投自己。

2 收到结果后,如果收到的投票比自己投票的zxid大,更新自己的投票。

3 当收到所有节点返回后,统计投票,有一个节点的选举达到一半以上,则选举成功。 否则继续开始下一轮询问,直到选择出leader结束。

basic paxos和fast paxos区别

这里fast是主动推送出,只要结果有更新,就马上同步给其他节点。其他节点可能还没把自己的票通知给所有节点,就发现自己投的票优先级低,要更新投票,然后更新再重新通知给所有节点。

basic则要每一节点都询问完,才能知道新结果,然后再去问其他节点新的选举结果。

fast比basic快的地方,是一个节点,不用和每个节点都交换投票信息后,才能知道自己的票是否要更新。会减少交互次数。

广播——主从同步

主从同步数据比较简单, 当有写操作时,如果是从机接收,会转到主机。做一次转发,保证写都是在主机上进行。

主先提议事务,收到过半回复后,再发提交。 主收到写操作时,先本地生成事务为事务生成zxid,然后发给所有follower节点。 当follower收到事务时,先把提议事务的日志写到本地磁盘,成功后返回给leader。 leader收到过半反馈后对事务提交。再通知所有的follower提交事务,follower收到后也提交事务,提交后就可以对客户端进行分发了。

总结

通过只有主控制写然后同步从,保证了生成全局zxid不冲突。全局唯一的zxid能够给选举和同步数据区分出优先级。 选举主部分了解fast paxos原理即可。 核心思想是递增的zxid顺序,保证了能够有优先级最高的节点当主。主从同步通过提议和提交两个阶段,有超过一半的节点写成功,则认为数据写成功。


欢迎关注

---------------------
作者:owenandhisfriends
来源:CNBLOGS
原文:https://www.cnblogs.com/owenandhisfriends/p/9622208.html
版权声明:本文为作者原创文章,转载请附上博文链接!

转载于:https://www.cnblogs.com/webfactory/p/11539719.html

[转]十分钟了解ZAB(Zookeeper Atomic Broadcast)协议相关推荐

  1. 十分钟了解ZAB(Zookeeper Atomic Broadcast)协议

    十分钟了解ZAB(Zookeeper Atomic Broadcast)协议 Zookeeper基于ZAB(Zookeeper Atomic Broadcast),实现了主备模式下的系统架构,保持集群 ...

  2. ZAB(Zookeeper Atomic Broadcast)协议详解

    一.什么是 Zab协议 ZAB( Zookeeper Atomic Broadcast:Zookeeper原子广播)Zookeeper 通过 ZAB 协议保证分布式事务的最终一致性. [1]ZAB协议 ...

  3. Zookeeper学习笔记之 Zab协议(Zookeeper Atomic Broadcast)

    Zab协议(Zookeeper Atomic Broadcast): 广播模式: Leader将所有更新(称为proposal),顺序发送给Follower 当Leader收到半数以上的Followe ...

  4. ZAB协议(ZooKeeper Atomic Broadcast)入门

    什么是 ZAB(Zookeeper 原子广播协议)? ZAB 协议确保 Zookeeper 复制按顺序完成,并且还负责领导节点的选举和任何失败节点的恢复. 在 Zookeeper 生态系统中,lead ...

  5. Zookeeper的一致性协议:Zab

    Zookeeper使用了一种称为Zab(Zookeeper Atomic Broadcast)的协议作为其一致性复制的核心,据其作者说这是一种新发算法,其特点是充分考虑了Yahoo的具体情况:高吞吐量 ...

  6. 十分钟成为 Contributor 系列 | 为 TiDB 重构 built-in 函数

    2019独角兽企业重金招聘Python工程师标准>>> 这是十分钟成为 TiDB Contributor 系列的第二篇文章,让大家可以无门槛参与大型开源项目,感谢社区为 TiDB 带 ...

  7. 用D3.js 十分钟实现字符跳动效果

    用D3.js 十分钟实现字符跳动效果 注 本文基于 D3.js 作者 Mike Bostock 的 例子 原文分为三部分, 在这里笔者将其整合为了一篇方便阅读. 该效果基于 D3.js, 主要使用到了 ...

  8. 飞机的“黑色十分钟”能被人工智能消灭吗?

    [导读]近年来,"AI的应用和落地"逐渐成了具化的关键词,它和很多事物很多行业结合在一起,形成了奇妙的"化学反应".例如,在日常生活中,AI可以推送我们喜欢的新 ...

  9. 十分钟上手2022latex安装与入门

    序言:本次下载是为美赛而用,因此我们选择的下载组合为texlive+texstudio,使用windows10安装.在此提醒大家,类似工具的下载建议大家亲历亲为,不要相信一些诱导性网站,都是非官方的安 ...

最新文章

  1. 一文详解循环神经网络的基本概念(代码版)
  2. 安卓java读取软件自身包名,android 获取第三方应用程序包名并启动 | 学步园
  3. Flash与数学:球体曲面 (2)
  4. Windows API之WriteFile函数详细解答
  5. flutter制作具有自定义导航栏的渐进式 Web 应用程序
  6. 远离你身边消极爱抱怨的人!!
  7. 初中数学抽象教学的案例_初中数学课堂片段教学案例分析
  8. json与jsonp应用及其他ajax数据交互方式
  9. GridView中合并单元格
  10. VS2019 + Qt ERROR MSB4181 QtRunwork 返回了false,但未记录错误
  11. 潘多拉路由器php,Padavan潘多拉固件ap模式openwrt固件应该如何设置有线AP模式
  12. 网站通用 敏感词列表
  13. ShowWindow的nCmdShow参数列表
  14. 大型团队合作的八条法则
  15. [转载]1986年吴图南 马岳梁 吴英华 孙剑云等名家大師
  16. logback配置 (分文件夹、可配路径)_hanCSDN_20180906
  17. Java平滑处理什么意思_几种平滑处理方法
  18. win10桌面计算机打不开,win10桌面此电脑右键管理打不开处理方法
  19. 本地电脑如何搭建web网站,并发布到公网访问?1-2
  20. C语言:编写代码实现,模拟用户登录情景,并且只能登录三次。(只允许输入三次密码,如果密码正确则提示登陆成功,如果三次均输入错误,则退出程序)

热门文章

  1. nlp学习--专家系统总结-专家系统基础
  2. 楚汉诸侯战天下隐私政策
  3. e-人事管理系统-招聘管理-人才库
  4. 2019.03.21【ZJOI2007】【BZOJ1095】【洛谷P2056】Hide 捉迷藏(DFS序)(线段树)
  5. C语言-商品销售管理系统
  6. C语言,变长数组的用法
  7. python进行分数运算
  8. nuitka打包命令解释
  9. 如何批量修改word文件名称?
  10. stc51单片机入门 c语言,STC51单片机入门 (C语言)