在一个月黑风高的夜晚,突然收到现网生产环境Kafka消息积压的告警,梦中惊醒啊,马上起来排查日志。

问题现象:消费请求卡死在查找Coordinator

Coordinator为何物?Coordinator用于管理Consumer Group中各个成员,负责消费offset位移管理和Consumer Rebalance。Consumer在消费时必须先确认Consumer Group对应的Coordinator,随后才能join Group,获取对应的topic partition进行消费。

那如何确定Consumer Group的Coordinator呢?分两步走:

1、一个Consumer Group对应一个__consumers_offsets的分区,首先先计算Consumer Group对应的__consumers_offsets的分区,计算公式如下:

__consumers_offsets partition# = Math.abs(groupId.hashCode() % groupMetadataTopicPartitionCount,其中groupMetadataTopicPartitionCount由offsets.topic.num.partitions指定。

2、1中计算的该partition的leader所在的broker就是被选定的Coordinator。

定位过程

Coordinator节点找到了,现在看看Coordinator是否有问题:

不出所料,Coordinator对应分区Leader为-1,消费端程序会一直等待,直到Leader选出来为止,这就直接导致了消费卡死。

为啥Leader无法选举?Leader选举是由Controller负责的。Controller节点负责管理整个集群中分区和副本的状态,比如partition的Leader选举,topic创建,副本分配,partition和replica扩容等。现在我们看看Controller的日志:

1.         6月10日15:48:30,006 秒Broker 1成为controller

此时感知的节点为1和2,节点3 在zk读不出来:

31秒847的时候把__consumer_offsets的分区3的Leader选为1,ISR为[1,2],leader_epoch为14:

再过1秒后才感知到Controller发生变化,自身清退

2.         Broker 2在其后几百毫秒后(15:48:30,936)也成为Controller

但是Broker2 是感知到Broker 3节点是活的,日志如下:

注意这个时间点,Broker1还没在zk把__consumer_offsets的分区3 的Leader从节点3改为1,这样Broker 2还认为Broker 3是Leader,并且Broker 3在它认为是活的,所以不需要重新选举Leader。这样一直保持了相当长的时间,即使Broker 1已经把这个分区的Leader切换了,它也不感知。

3.         Broker 2在12号的21:43:19又感知Broker 1网络中断,并处理节点失败事件:

因为Broker 2内存中认为__consumer_offsets分区3的Leader是broker 3,所以不会触发分区3的Leader切换。

Broker 2但是在处理失败的节点Broker 1时,会把副本从ISR列表中去掉,去掉前会读一次zk,代码如下:

但是发现zk中分区3的Leader已经变为1,ISR列表为[1,2],当要去掉的节点1就是Leader的时候,Leader就会变为-1, ISR只有[2],从日志也可以看到:

这样分区3 的Leader一直为-1,直到有新的事件触发节点2重新选举才能恢复(例如重启某个节点)。

根因总结

出现网络异常后,由于新老controller之间感知的可用节点不同,导致新controller对某个分区的Leader在内存中的信息与zk记录元数据的信息不一致,导致controller选举流程出现错误,选不出Leader。 需要有新的选举事件才能触发Leader选出来,例如重启。

问题总结

这是一个典型的由于网络异常导致脑裂,进而出现了多个Controller,菊厂分布式消息服务Kafka经过电信级的可靠性验证,已经完美解决了这些问题 。

转载于:https://www.cnblogs.com/hwpaas/p/9509648.html

Kafka无法消费?!我的分布式消息服务Kafka却稳如泰山!相关推荐

  1. 分布式消息系统 Kafka 简介

    分布式消息系统 Kafka 简介 阅读目录 5.1 吞吐量 5.2 负载均衡 5.3 拉取系统 5.4 可扩展性 5.5 消息删除策略 6.1 消息队列 6.2 行为跟踪 6.3 元信息监控 6.4 ...

  2. 分布式消息队列 Kafka

    分布式消息队列 Kafka 2016-02-25 杜亦舒 Kafka是一个高吞吐量的.分布式的消息系统,由Linkedin开发,开发语言为scala 具有高吞吐.可扩展.分布式等特点 适用场景 活动数 ...

  3. kafka 重复消费和数据丢失_刨根问底,Kafka消息中间件到底会不会丢消息

    大型互联网公司一般都会要求消息传递最大限度的不丢失,比如用户服务给代金券服务发送一个消息,如果消息丢失会造成用户未收到应得的代金券,最终用户会投诉. 为避免上面类似情况的发生,除了做好补偿措施,更应该 ...

  4. 分布式消息技术 Kafka

    Kafka的基本介绍 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/ngi ...

  5. 【中间件】大数据之分布式消息队列Kafka

    目录 Kafka设计动机 Kafka特点 Kafka设计架构 基本架构 Kafka各组件详解 Kafka关键技术点 典型应用场景       在大数据数据收集环节,需要构建数据流水线,其中一种方式可以 ...

  6. 浅谈分布式消息技术 Kafka

    Kafka的基本介绍 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/ngi ...

  7. 分布式消息队列kafka

    文章目录 前言 什么是Kafka? Kafka的特性 Kafka的意义 Kafka工作原理 kafka架构介绍 Producer Broker Consumer Patition Zookeeper ...

  8. 分布式消息队列Kafka集群安装

    kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目.在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ.在这片博文中,作者简单提 ...

  9. 分布式消息系统Kafka初步

    http://my.oschina.net/ielts0909/blog/92972 终于可以写kafka的文章了,Mina的相关文章我已经做了索引,在我的博客中置顶了,大家可以方便的找到.从这一篇开 ...

  10. 消息队列系列之分布式消息队列Kafka

    介绍 ApacheKafka®是一个分布式流媒体平台.这到底是什么意思呢? 我们认为流媒体平台具有三个关键功能: 它可以让你发布和订阅记录流.在这方面,它类似于消​​息队列或企业消息传递系统. 它允许 ...

最新文章

  1. pyqt5 视频播放器
  2. 《剑指offer》c++版本 7.重建二叉树
  3. latex中bibtex中引用会议和期刊论文时的写法及规则
  4. java对象模型是什么_蓝石榴_个人博客_JVM内存结构、Java内存模型、Java对象模型...
  5. [Redux/Mobx] 在Redux中怎么发起网络请求?
  6. linux errno 线程,Linux errno 错误对照表
  7. mysql硬盘备份_原创-在mysql中把里面的数据库备份到自己的硬盘上
  8. python中二维数组如何查找_【剑指offer】---二维数组中的查找(Python)
  9. Java字符串流学习
  10. 等级考试(三):三级网络---似曾相识(续)
  11. Project Euler Problem 27 Quadratic primes
  12. 现在电脑的主流配置_2019~2020电脑配置清单主流配件(下)
  13. python Udp与Tcp
  14. 北京购房攻略(4.17)
  15. python-pygame安装教程
  16. Q 语言初学者系列:(1)开门篇
  17. MySQL——页和索引
  18. 移动端图片浏览器轮子
  19. 50个程序员的网站!建议收藏
  20. 引爆你的集合灵感 [C#, LINQ]

热门文章

  1. Think In Java 读后感
  2. Cocos2d-x 3.0 开发(四)使用CocoStudio创建UI并载入到程序中
  3. 让Android虚拟手机快速启动
  4. Java中的队列API——Queue
  5. Windows中使用Docker安装ClickHouse
  6. libevent源码分析系列
  7. java开发传统项目_【笔记】Eclipse非传统方式搭建Java Web项目(开发中的项目....)...
  8. z平面与s平面计算机控制稳定性,2 计算机控制系统分析
  9. Python细节面试题--小整数对象池和大整数对象池
  10. 昆明职高计算机学校,昆明职高学校,昆明职高学校前十强,昆明职高学校哪些比较好一点 - IT教育频道...