1. kafka分区数如何设置?

默认情况下
1 指定分区,按你指定的分区
2 未指定分区,但是指定了key,依据key的hashCode计算分区
3 未指定分区,且没有指定key,依据轮询算法计算分区

2. kafka中消息传输一致中的最多一次、最少一次、恰好一次,是如何实现的?

恰好一次:acks=-1 ,幂等机制
最多一次:acks=0
最少一次:acks=-1 or acks=1

3. Spark Steaming拉取数据,如何实现恰好一次?

4. Spark为什么比Hadoop快?(不止是基于内存,需扩充)

1 hadoop每次shuffle操作后,数据必须写到磁盘. spark则不然,可以保存在内存中.
2 hadoop每次都要走MR流程,Spark则可以将shuffle结果缓存到内存中
3spark task启动时间快

1.消除了冗余的HDFS读写 Hadoop每次shuffle操作后,必须写到磁盘,而Spark在shuffle后不一定落盘,可以cache到内存中,以便迭代时使用。如果操作复杂,很多的shufle操作,那么Hadoop的读写IO时间会大大增加。

2.消除了冗余的MapReduce阶段 Hadoop的shuffle操作一定连着完整的MapReduce操作,冗余繁琐。而Spark基于RDD提供了丰富的算子操作,且reduce操作产生shuffle数据,可以缓存在内存中。

3.JVM的优化 Spark Task的启动时间快。Spark采用fork线程的方式,Spark每次MapReduce操作是基于线程池的,只在启动时创建。而Hadoop采用创建新的进程的方式,启动一个Task便会启动一次JVM。

5. kafka为什么会发生数据丢失?

ack=0
生产者发送消息到leader后,就继续发送其他的消息,不需要等待leader的ack
缺点是数据可能丢失

ack=1
生产者发送消息到leader后,leader会将消息落地到磁盘,然后就向生产者发送ack
缺点是
数据可能丢失(leader落地了,并ack,但是follwer还未同步,数据不全)

6. Kafka数据丢失了如何解决?

为了保证数据不丢失,可以设置acks=-1.

7. Kafka与zookeeper选举机制间的区别?

8. Kafka的组成?

Producer:生产消息
Consumer:消费信息
Broker: 缓存消息
Zookeeper: 选举controller

9. kafka为什么快?

  • 写文件快,顺序存储
  • 读文件快,零拷贝

10. 监控kafka的文件?

常用的kafka监控工具有 KafkaOffsetMonitor 、Kafka Manager、Capillary、Kafka Eagle,经过测试,最后决定使用Kafka Manager

11. kafka的数据积压如何解决?

1 增加消费者数量,同时提高topic的分区数
2 提高每次poll的数据量,默认500,可以调大

12. Spark Streaming读取kafka数据的方式?

13. kafka的ISR列表

ISR表示存活的副本,存活的意思是

  • 和zookeeper保持连接
  • 副本的最后一条消息的offset与leader副本的最后一条消息的offset插件不超过某个指定值

kafka面试题简答相关推荐

  1. 华为笔试题 简答错误记录(字符串处理,好题!!!)

    输入描述: 一行或多行字符串.每行包括带路径文件名称,行号,以空格隔开.文件路径为windows格式如:E:\V1R2\product\fpgadrive.c 1325 输出描述: 将所有的记录统计并 ...

  2. 计算机二级考试模拟表单答题,2016年计算机二级考试《VFP》模拟简答试题

    1[简答题]1.建立一个表单文件myform,将employee表添加到表单的数据环境中,然后在表单中添加表格控件gridl,指定其记录源类型为"别名".记录源为employee表 ...

  3. 景深决定照相机什么特性_2017年摄影专业单独考试试题库——简答

    简答: 1.什么是景深? 答:当镜头对准某景物聚焦后,在该景物前后一定距离范围内的景物,也能在焦平面上 ,结成比较清晰的影像.这个结成清晰景物影像空间的纵长距离范围,称作景深. 2.什么是轮廓光?在摄 ...

  4. 远动自动化工班长试题库简答(1-38)

    简答: 1.>判断远动通道质量的方法有下列四种 答:(1)观察远动信号的波形,看波形失真情况  :   (2)环路测量信道信号衰减幅度  : (3)测量信道的信噪比  :             ...

  5. linux面试题中的简答题,[计算机]linux面试题简答题部分.doc

    [计算机]linux面试题简答题部分 linux面试题(简答题部分)2 简述进程的启动.终止的方式以及如何查看进程?答:启动进程的方式分为手动启动和自动启动两种方式,其中手动启动的方法用service ...

  6. 2019年这50个Kafka面试题,你知道答案么

    转载自  2019年这50个Kafka面试题,你知道答案么 Apache Kafka对于新手的面试问题:41, 42, 43, 44, 45, 47, 49 Apache Kafka对于有经验的人的面 ...

  7. 432统计简答(个人笔记)

    简答题/面试题属开放性问答,答案并不唯一,因此自己对问题的理解与阐述就显得尤为重要.除说准基本概念外,适当具体加以论证更有助于表达. 以下为方便个人记忆而整理的部分简答及解析,仅供参考,欢迎读者斧正或 ...

  8. Kafka面试题及答案整理 110道 (持续更新)

    最新Kafka面试题[附答案解析]Kafka面试题及答案,Kafka最新面试题及答案,Kafka面试题新答案已经全部更新完了,有些答案是自己总结的,也有些答案是在网上搜集整理的.这些答案难免会存在一些 ...

  9. 2019年这50个Kafka面试题,你知道答案么?

    >>>>1.Kafka面试问答 Apache Kafka的受欢迎程度很高,Kafka拥有充足的就业机会和职业前景.此外,在这个时代拥有kafka知识是一条快速增长的道路.所以, ...

最新文章

  1. 泛型与操作符重载杂谈
  2. springboot html引入js_SpringBoot-05-web开发
  3. 一个空值_java匠人手法优雅的处理空值
  4. php +号在传输参数的过程中被变为空格了_编程难学?web相关知识,跟着淼哥学php全栈之路6...
  5. maven集成命令-U -B -P -e -X
  6. sparksql一些指标
  7. LeetCode Closest Binary Search Tree Value II
  8. Google 产品速查手册大全
  9. docker-2 深入了解docker
  10. 过滤内网IP—IPv4
  11. 资源工具分享(第1期):后端架构师技术图谱
  12. X11-forwarding笔记
  13. Java随笔记 - Java代码实现一个死锁程序
  14. PHP页面间参数传递
  15. 灵思科电子科技—室内定位技术有哪些_七大室内定位技术详解
  16. shell脚本常见错误及解决方法
  17. 产品经理1.1_如何高效的开展产品需求评审会
  18. 大数据的特点:5个V
  19. Oracle 、SQL多字段分组统计
  20. Superset系列6-制作折线图

热门文章

  1. html5表单与Jquery Ajax结合使用
  2. matlab如何判断两个矩阵的元素是否相同_蚁群算法及其MATLAB实现
  3. stringbuilder_String,StringBuilder,StringBuffer三者的区别?
  4. java idle 机制_深入springboot原理——一步步分析springboot启动机制(starter机制)...
  5. python对象的引用_Python 对象引用、可变性和垃圾回收
  6. 最常用的Linux命令大全
  7. 灯效控制器和rgb控制器_还有什么不能RGB?TT发布Level 20 RGB BattleStation电竞桌
  8. 最长公共子串_两个字符串的最长公共子串(后缀自动机)
  9. spi的dma方式前四个字节_前嗅教你大数据:常见几种编码介绍
  10. 江苏省计算机二级c语言考试知识点,计算机二级考试C语言常考知识点归纳