(大数据)面试题汇总
Hadoop生态
一.HDFS
- HDFS的读写流程?
- HDFS中,NameNode与DataNode的作用?
- SecondaryNameNode的作用以及与NameNode的区别和联系?
- 什么是集群安全模式?什么情况下会进入安全模式?以及安全模式的解决方法?
- 为什么HDFS不适合小文件?
- HDFS支持的存储格式和压缩算法都有哪些?
- 说说HDFS的可靠性策略
- HDFS的优缺点都有哪些?
二.MapReduce
- MapReduce的执行流程(Yarn模式)?
- MapReduce的关键类有哪些?maper方法有哪些?setup方法是干嘛的?它是每读取一行数据就调用一次这个方法吗?
- Shuffle过程原理(详细)
- combine函数的作用是什么?
- MapReduce在每个阶段的调优方法都有哪些?
- Hadoop的进程都有哪些?分别都有什么作用?
- Yran的Job提交流程
- MapReduce中可干预组件有哪些?以及各组件的原理?
- 分区与分块的区别?
- resourceManager的工作职责是什么?
- NodeManager的工作职责是什么?
- 简述Hadoop的调度器(FIFO、Capacity Scheduler、Fair Scheduler)
三.Hive
- 描述一下Hive动态分区和分桶的使用场景和使用方法?
- Hive是怎么集成Hbase的?
- Hive查询的时候on和where的区别是什么?为什么?
- 说一下Hive的内部表、外部表以及分区表都有什么特点以及它们的使用场景
- Hive调优的方式有哪些?
- Hive数据倾斜的原因以及处理办法
- Hive自定义函数实现了什么接口、什么方法?
- 如何控制Hive中Mapper和Reduce的个数?
- Hive有哪些保存元数据的方式,每个有什么特点
四.HBase
- 说说HBase的特点都有哪些?
- Rowkey怎么设计,有什么好处?
- Hbase的优化方式有哪些?
- Hbase的读写流程
- 说说数据Flush的过程
- RowKey如何设计可以避免热点问题
- Hbase的最小存储单元是什么
- Hbase如何进行预分区以及作用?
- Hbase中的HFile什么时候要合并成大文件,什么时候要拆分成小文件
- 为什么Hbase查询比较块?
Spark技术栈
一.Scala
- 说一说Scala的偏函数和柯里化
- Scala的apply和unapply方法是什么作用?
- Java和Scala的区别
- Scala的优点有哪些?
- Scala的数据类型有哪些?
- Scala中什么是闭包?
- Trait和abstract class的区别是什么?
二.Spark Core
- Spark有几种部署模式?都有什么特点?
- driver的功能是什么?
- Hadoop和Spark都是并行计算,说说它们的不同点和它们的相同点
- 聊一聊Spark中RDD的概念,它有哪些特性
- 简述宽依赖和窄依赖的概念,groupByKey、reduceByKey、map、filter、union五种中哪些会导致宽依赖,哪些会导致窄依赖?
- Spark如何防止内存溢出
- stage、tast以及job之间的关系以及划分方式
- Spark中的reduceByKey和groupByKey的区别与用法
- map与mapPartitions的区别
- foreach和foreachPartition的区别
- coalesce与reparttion的区别
- 说说Spark血统的概念
- 说说Spark RDD的持久化机制
- 说说Spark提交任务的完整流程
- Spark Join的优化方式有哪些?
- Spark的shuffle有几种方式
- 哪些算子涉及到shuffle
- 简述一下MapReduce的shuffle与Spark的shuffle的过程
- Spark广播变量的作用
- 数据倾斜的解决方案
- Spark的通信机制
三.Spark SQL
- Dataset创建的几种方式?
- Dataframe相对rdd有哪些不同
- SparkSQL如何处理结构化数据和非结构化数据
- Spark SQL的原理
- Spark SQL中缓存方式有哪几种?registerTempTable是action类型的,为什么不发生缓存?
四.SparkStreaming
- SparkStreaming有哪几种方式消费Kafka中的数据,它们之间的区别是什么?
- 简述SparkStreaming窗口函数的原理
- 简述SparkStreaming的容错原理
核心组件
一.Flume
- Flume的组成与事务
- 介绍一下Memory Channel
- 说说File Channel
- 说说Kafka Channel
- 介绍一下Flume几种Sink
- 说说Flume拦截器的使用
- 什么是选择器
- 如何实现Flume数据传输的监控
二.Kafka
- Kafka和传统消息队列有何区别
- Kafka的应用场景
- Kafka在高并发的情况下,如何避免消息的丢失和消息重复?
- Kafka到SparkStreaming怎么保证数据的完整性,怎么保证数据不重复消费?
- Kafka的消费者高阶和低阶API有什么区别?
- Kafka是如何保证数据一致性和可靠性
- Spark实时作业宕机,kafka指定的topic数据堆积怎么办?
- 说一下Kafka的acks
- Kafka的读写流程?
- Kafka为什么只让leader进行读写?
- 为了避免磁盘被占满,Kafka会周期性的删除旧消息,那么删除策略有哪些?控制力度到什么程度,具体描述一下
- 简要描述Kafka数据高可用的原理是什么?
- Kafka的偏移量offset存放在哪里,为什么?
- 如何保证Kafka的消息有序?
- 说说Kafka的分区分配策略
- Kafka消息数据积压,消费能力不足怎么处理?
- 如何实现Kafka的高吞吐
数据仓库
一.数据仓库基础
二.用户存留和拉链表
大数据算法
一.海量数据处理
二.数据结构
大数据面试常见JAVA问题
一.JAVA基础
二.多线程
三.JVM
(大数据)面试题汇总相关推荐
- 常见大数据面试题汇总带答案
大数据面试题汇总 **牛客网刷sql题** redis flume flink(大部分知识点写过的帖子里都有) mr,java ,集群 算法题 kafka 维度建模分为哪几种? SQL高频面试题 hb ...
- 深圳公司大数据面试题汇总
点击上方 "大数据肌肉猿"关注, 星标一起成长 后台回复[加群],进入高质量学习交流群 2021年大数据肌肉猿公众号奖励制度 相关阅读: 上海小公司大数据面试题汇总 背景 本文为# ...
- 2021最全大数据面试题汇总---hadoop篇,附答案!
大数据面试题来了! 本篇文章搜集了常见的大数据面试题以及答案,包含了Hadoop,Flume,Hbase,Hive,kafka,spark,zookeeper等方面的内容,助同学们收到心仪的Offer ...
- 小林秋招大数据面试题汇总(下)
一.猫眼娱乐 一面 自我介绍 项目 项目中HBase rowkey 设计 讲下快排时间复杂度 HashMap. HashTable. ConcurrentHashMap了解嘛? HashMap 多线程 ...
- 大数据面试题及答案 汇总版
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/albg_boy/article/det ...
- 5W字讲解最新大数据面试题
此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待 复习大数据面试题,看这一套就够了! 本文目录: 一.Hadoop 二.Hive ...
- 大数据知识面试题-MapReduce和YARN(2022版)
序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...
- (转)大数据面试题130道及答案整理 1-15
大数据面试题130道及答案整理 1-15 转载自:https://www.cnblogs.com/yuluoxingkong/p/13475235.html 1.HashMap 和 Hashtable ...
- 大数据知识面试题-Hadoop(2022版)
序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...
最新文章
- 带套属于安全行为吗_教师不管学生上课睡觉的行为,属于不负责任吗?建议收藏!...
- 正睿 2018 提高组十连测 Day4 T3 碳
- python3 logging模块_Python3之logging模块浅析
- Tensorflow入门__实例:图计算
- C++ STL 四种智能指针
- 深度学习之循环神经网络(11-a)LSTM情感分类问题代码
- oracle 循环修改数据库,oracle对一个表的多行数据进行修改,SQL批量修改
- node怎么把token放到redis_从零开始手写 redis(八)朴素 LRU 淘汰算法性能优化
- discuz php mysql_php下mysql数据库操作类(改自discuz)
- CAN通讯与RS485通讯区别
- android 代码混淆 反编译,Android的反编译和代码混淆
- et99php,加密锁/加密狗ET199(包含网络锁功能)
- PCB封装-正片与负片
- 矩阵 维度 axis
- JAVA校招基础面试题
- 论文笔记:残差神经网络(ResNet v1)
- 什么是云渲染?【谈谈云渲染和传统渲染农场的区别】
- python括号是中文还是英文_Python括号约定
- 转:职场“上班奴”十二大典型特征
- 趋势科技将安全工具HijackThis开源
热门文章
- 游戏建模大佬教会你如何用softimage ice制作轮子转动
- 在中国使用谷歌语音识别_如何在Google文档中使用语音输入
- 搜索引擎蜘蛛爬虫 User Agent 一览(便于采集)
- 经验分享|原来这些图灵奖巨匠就藏在身边
- Transcad学习——小区合并为大区
- sql数据库入门(1)
- Debian安装Firebird
- 我的世界粘土服务器怎么注册a,我的世界粘土服务器怎么进 | 手游网游页游攻略大全...
- 这两天不爽——公车上被误认为色狼、游泳撞破上嘴唇
- 无人机原理::(一)模型框架与控制系统框架详解