Hadoop生态

一.HDFS

  • HDFS的读写流程?
  • HDFS中,NameNode与DataNode的作用?
  • SecondaryNameNode的作用以及与NameNode的区别和联系?
  • 什么是集群安全模式?什么情况下会进入安全模式?以及安全模式的解决方法?
  • 为什么HDFS不适合小文件?
  • HDFS支持的存储格式和压缩算法都有哪些?
  • 说说HDFS的可靠性策略
  • HDFS的优缺点都有哪些?

二.MapReduce

  • MapReduce的执行流程(Yarn模式)?
  • MapReduce的关键类有哪些?maper方法有哪些?setup方法是干嘛的?它是每读取一行数据就调用一次这个方法吗?
  • Shuffle过程原理(详细)
  • combine函数的作用是什么?
  • MapReduce在每个阶段的调优方法都有哪些?
  • Hadoop的进程都有哪些?分别都有什么作用?
  • Yran的Job提交流程
  • MapReduce中可干预组件有哪些?以及各组件的原理?
  • 分区与分块的区别?
  • resourceManager的工作职责是什么?
  • NodeManager的工作职责是什么?
  • 简述Hadoop的调度器(FIFO、Capacity Scheduler、Fair Scheduler)

三.Hive

  • 描述一下Hive动态分区和分桶的使用场景和使用方法?
  • Hive是怎么集成Hbase的?
  • Hive查询的时候on和where的区别是什么?为什么?
  • 说一下Hive的内部表、外部表以及分区表都有什么特点以及它们的使用场景
  • Hive调优的方式有哪些?
  • Hive数据倾斜的原因以及处理办法
  • Hive自定义函数实现了什么接口、什么方法?
  • 如何控制Hive中Mapper和Reduce的个数?
  • Hive有哪些保存元数据的方式,每个有什么特点

四.HBase

  • 说说HBase的特点都有哪些?
  • Rowkey怎么设计,有什么好处?
  • Hbase的优化方式有哪些?
  • Hbase的读写流程
  • 说说数据Flush的过程
  • RowKey如何设计可以避免热点问题
  • Hbase的最小存储单元是什么
  • Hbase如何进行预分区以及作用?
  • Hbase中的HFile什么时候要合并成大文件,什么时候要拆分成小文件
  • 为什么Hbase查询比较块?

Spark技术栈

一.Scala

  • 说一说Scala的偏函数和柯里化
  • Scala的apply和unapply方法是什么作用?
  • Java和Scala的区别
  • Scala的优点有哪些?
  • Scala的数据类型有哪些?
  • Scala中什么是闭包?
  • Trait和abstract class的区别是什么?

二.Spark Core

  • Spark有几种部署模式?都有什么特点?
  • driver的功能是什么?
  • Hadoop和Spark都是并行计算,说说它们的不同点和它们的相同点
  • 聊一聊Spark中RDD的概念,它有哪些特性
  • 简述宽依赖和窄依赖的概念,groupByKey、reduceByKey、map、filter、union五种中哪些会导致宽依赖,哪些会导致窄依赖?
  • Spark如何防止内存溢出
  • stage、tast以及job之间的关系以及划分方式
  • Spark中的reduceByKey和groupByKey的区别与用法
  • map与mapPartitions的区别
  • foreach和foreachPartition的区别
  • coalesce与reparttion的区别
  • 说说Spark血统的概念
  • 说说Spark RDD的持久化机制
  • 说说Spark提交任务的完整流程
  • Spark Join的优化方式有哪些?
  • Spark的shuffle有几种方式
  • 哪些算子涉及到shuffle
  • 简述一下MapReduce的shuffle与Spark的shuffle的过程
  • Spark广播变量的作用
  • 数据倾斜的解决方案
  • Spark的通信机制

三.Spark SQL

  • Dataset创建的几种方式?
  • Dataframe相对rdd有哪些不同
  • SparkSQL如何处理结构化数据和非结构化数据
  • Spark SQL的原理
  • Spark SQL中缓存方式有哪几种?registerTempTable是action类型的,为什么不发生缓存?

四.SparkStreaming

  • SparkStreaming有哪几种方式消费Kafka中的数据,它们之间的区别是什么?
  • 简述SparkStreaming窗口函数的原理
  • 简述SparkStreaming的容错原理

核心组件

一.Flume

  • Flume的组成与事务
  • 介绍一下Memory Channel
  • 说说File Channel
  • 说说Kafka Channel
  • 介绍一下Flume几种Sink
  • 说说Flume拦截器的使用
  • 什么是选择器
  • 如何实现Flume数据传输的监控

二.Kafka

  • Kafka和传统消息队列有何区别
  • Kafka的应用场景
  • Kafka在高并发的情况下,如何避免消息的丢失和消息重复?
  • Kafka到SparkStreaming怎么保证数据的完整性,怎么保证数据不重复消费?
  • Kafka的消费者高阶和低阶API有什么区别?
  • Kafka是如何保证数据一致性和可靠性
  • Spark实时作业宕机,kafka指定的topic数据堆积怎么办?
  • 说一下Kafka的acks
  • Kafka的读写流程?
  • Kafka为什么只让leader进行读写?
  • 为了避免磁盘被占满,Kafka会周期性的删除旧消息,那么删除策略有哪些?控制力度到什么程度,具体描述一下
  • 简要描述Kafka数据高可用的原理是什么?
  • Kafka的偏移量offset存放在哪里,为什么?
  • 如何保证Kafka的消息有序?
  • 说说Kafka的分区分配策略
  • Kafka消息数据积压,消费能力不足怎么处理?
  • 如何实现Kafka的高吞吐

数据仓库

一.数据仓库基础

二.用户存留和拉链表

大数据算法

一.海量数据处理

二.数据结构

大数据面试常见JAVA问题

一.JAVA基础

二.多线程

三.JVM

(大数据)面试题汇总相关推荐

  1. 常见大数据面试题汇总带答案

    大数据面试题汇总 **牛客网刷sql题** redis flume flink(大部分知识点写过的帖子里都有) mr,java ,集群 算法题 kafka 维度建模分为哪几种? SQL高频面试题 hb ...

  2. 深圳公司大数据面试题汇总

    点击上方 "大数据肌肉猿"关注, 星标一起成长 后台回复[加群],进入高质量学习交流群 2021年大数据肌肉猿公众号奖励制度 相关阅读: 上海小公司大数据面试题汇总 背景 本文为# ...

  3. 2021最全大数据面试题汇总---hadoop篇,附答案!

    大数据面试题来了! 本篇文章搜集了常见的大数据面试题以及答案,包含了Hadoop,Flume,Hbase,Hive,kafka,spark,zookeeper等方面的内容,助同学们收到心仪的Offer ...

  4. 小林秋招大数据面试题汇总(下)

    一.猫眼娱乐 一面 自我介绍 项目 项目中HBase rowkey 设计 讲下快排时间复杂度 HashMap. HashTable. ConcurrentHashMap了解嘛? HashMap 多线程 ...

  5. 大数据面试题及答案 汇总版

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/albg_boy/article/det ...

  6. 5W字讲解最新大数据面试题

    此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待 复习大数据面试题,看这一套就够了! 本文目录: 一.Hadoop 二.Hive ...

  7. 大数据知识面试题-MapReduce和YARN(2022版)

    序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...

  8. (转)大数据面试题130道及答案整理 1-15

    大数据面试题130道及答案整理 1-15 转载自:https://www.cnblogs.com/yuluoxingkong/p/13475235.html 1.HashMap 和 Hashtable ...

  9. 大数据知识面试题-Hadoop(2022版)

    序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...

最新文章

  1. 带套属于安全行为吗_教师不管学生上课睡觉的行为,属于不负责任吗?建议收藏!...
  2. 正睿 2018 提高组十连测 Day4 T3 碳
  3. python3 logging模块_Python3之logging模块浅析
  4. Tensorflow入门__实例:图计算
  5. C++ STL 四种智能指针
  6. 深度学习之循环神经网络(11-a)LSTM情感分类问题代码
  7. oracle 循环修改数据库,oracle对一个表的多行数据进行修改,SQL批量修改
  8. node怎么把token放到redis_从零开始手写 redis(八)朴素 LRU 淘汰算法性能优化
  9. discuz php mysql_php下mysql数据库操作类(改自discuz)
  10. CAN通讯与RS485通讯区别
  11. android 代码混淆 反编译,Android的反编译和代码混淆
  12. et99php,加密锁/加密狗ET199(包含网络锁功能)
  13. PCB封装-正片与负片
  14. 矩阵 维度 axis
  15. JAVA校招基础面试题
  16. 论文笔记:残差神经网络(ResNet v1)
  17. 什么是云渲染?【谈谈云渲染和传统渲染农场的区别】
  18. python括号是中文还是英文_Python括号约定
  19. 转:职场“上班奴”十二大典型特征
  20. 趋势科技将安全工具HijackThis开源

热门文章

  1. 游戏建模大佬教会你如何用softimage ice制作轮子转动
  2. 在中国使用谷歌语音识别_如何在Google文档中使用语音输入
  3. 搜索引擎蜘蛛爬虫 User Agent 一览(便于采集)
  4. 经验分享|原来这些图灵奖巨匠就藏在身边
  5. Transcad学习——小区合并为大区
  6. sql数据库入门(1)
  7. Debian安装Firebird
  8. 我的世界粘土服务器怎么注册a,我的世界粘土服务器怎么进 | 手游网游页游攻略大全...
  9. 这两天不爽——公车上被误认为色狼、游泳撞破上嘴唇
  10. 无人机原理::(一)模型框架与控制系统框架详解