大数据面试之Hadoop

1.Hadoop
- 1.1 架构模型
- - 1.1.1 1.x的版本架构模型
  - 1.1.2 2.x的版本架构模型
- 1.2 有哪些角色？每个角色的功能？
- 1.3 Hadoop的shuffle过程
- 1.4 Hadoop调优
- 1.5 combiner和partition的作用
- 1.6 Hadoop 3.X 新特性

说明，感谢亮哥长期对我的帮助，此处多篇文章均为亮哥带我整理。以及参考诸多博主的文章。如果侵权，请及时指出，我会立马停止该行为；如有不足之处，还请大佬不吝指教，以期共同进步。

1.Hadoop

1.1 架构模型

1.1.1 1.x的版本架构模型

文件系统核心模块：NameNode：集群当中的主节点，主要用于管理集群当中的各种数据secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理DataNode：集群当中的从节点，主要用于存储集群当中的各种数据数据计算核心模块：JobTracker：接收用户的计算请求任务，并分配任务给从节点TaskTracker：负责执行主节点JobTracker分配的任务

1.1.2 2.x的版本架构模型

第一种：NameNode与ResourceManager单节点架构模型

文件系统核心模块：NameNode：集群当中的主节点，主要用于管理集群当中的各种数据secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理DataNode：集群当中的从节点，主要用于存储集群当中的各种数据数据计算核心模块：ResourceManager：接收用户的计算请求任务，并负责集群的资源分配NodeManager：负责执行主节点APPmaster分配的任务

第二种：NameNode单节点与ResourceManager高可用架构模型

文件系统核心模块：NameNode：集群当中的主节点，主要用于管理集群当中的各种数据secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理DataNode：集群当中的从节点，主要用于存储集群当中的各种数据数据计算核心模块：ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分，通过zookeeper实现ResourceManager的高可用NodeManager：负责执行主节点ResourceManager分配的任务

第三种：NameNode高可用与ResourceManager单节点架构模型

文件系统核心模块：NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，其中nameNode可以有两个，形成高可用状态DataNode：集群当中的从节点，主要用于存储集群当中的各种数据JournalNode：文件系统元数据信息管理数据计算核心模块：ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分NodeManager：负责执行主节点ResourceManager分配的任务

第四种：NameNode与ResourceManager高可用架构模型

文件系统核心模块：NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，一般都是使用两个，实现HA高可用JournalNode：元数据信息管理进程，一般都是奇数个DataNode：从节点，用于数据的存储数据计算核心模块：ResourceManager：Yarn平台的主节点，主要用于接收各种任务，通过两个，构建成高可用NodeManager：Yarn平台的从节点，主要用于处理ResourceManager分配的任务

参考

1.2 有哪些角色？每个角色的功能？

1.namenode：接收客户端的读写请求存储元数据信息接收datanode的心跳报告负载均衡分配数据块的存储节点2.datanode：真正处理客户端的读写请求向namenode发送心跳向namenode发送块报告真正的数据存储副本之间的相互复制3.secondarynamenode：备份元数据信息帮助namenode进行元数据合并  减轻namenode的压力4.客户端进行数据块的物理切分向namenode发送读写请求向namenode发送读写响应

参考

1.3 Hadoop的shuffle过程

1.Map端的shuffleMap端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill(溢写，默认Buffer大小为100M，达到80%时会溢写)。在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去，以期望能够达到负载均衡。接着运行combiner(如果设置了的话)，combiner的本质也是一个Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了。2.Reduce端的shuffleReduce端的shuffle主要包括三个阶段，copy、sort(merge)和reduce。首先要将Map端产生的输出文件拷贝到Reduce端接下来就是sort阶段，也成为merge阶段，因为这个阶段的主要工作是执行了归并排序。最后就是Reduce过程了，在这个过程中产生了最终的输出结果，并将其写到HDFS上。

参考

1.4 Hadoop调优

一、调优的目的充分的利用机器的性能，更快的完成mr程序的计算任务。甚至是在有限的机器条件下，能够支持运行足够多的mr程序。
二、调优的总体概述从mr程序的内部运行机制，我们可以了解到一个mr程序由mapper和reducer两个阶段组成，其中mapper阶段包括数据的读取、map处理以及写出操作(排序和合并/sort&merge)，而reducer阶段包含mapper输出数据的获取、数据合并(sort&merge)、reduce处理以及写出操作。那么在这七个子阶段中，能够进行较大力度的进行调优的就是map输出、reducer数据合并以及reducer个数这三个方面的调优操作。也就是说虽然性能调优包括cpu、内存、磁盘io以及网络这四个大方面，但是从mr程序的执行流程中，我们可以知道主要有调优的是内存、磁盘io以及网络。在mr程序中调优，主要考虑的就是减少网络传输和减少磁盘IO操作，故本次课程的mr调优主要包括服务器调优、代码调优、mapper调优、reducer调优以及runner调优这五个方面。
三、服务器调优服务器调优主要包括服务器参数调优和jvm调优。在本次项目中，由于我们使用hbase作为我们分析数据的原始数据存储表，所以对于hbase我们也需要进行一些调优操作。除了参数调优之外，和其他一般的java程序一样，还需要进行一些jvm调优。hdfs调优1. dfs.datanode.failed.volumes.tolerated: 允许发生磁盘错误的磁盘数量，默认为0，表示不允许datanode发生磁盘异常。当挂载多个磁盘的时候，可以修改该值。2. dfs.replication: 复制因子，默认33. dfs.namenode.handler.count: namenode节点并发线程量，默认104. dfs.datanode.handler.count：datanode之间的并发线程量，默认10。5. dfs.datanode.max.transfer.threads：datanode提供的数据流操作的并发线程量，默认4096。一般将其设置为linux系统的文件句柄数的85%~90%之间，查看文件句柄数语句ulimit -a，修改vim /etc/security/limits.conf, 不能设置太大文件末尾，添加* soft nofile 65535* hard nofile 65535注意：句柄数不能够太大，可以设置为1000000以下的所有数值，一般不设置为-1。异常处理：当设置句柄数较大的时候，重新登录可能出现unable load session的提示信息，这个时候采用单用户模式进行修改操作即可。单用户模式：启动的时候按'a'键，进入选择界面，然后按'e'键进入kernel修改界面，然后选择第二行'kernel...'，按'e'键进行修改，在最后添加空格+single即可，按回车键回到修改界面，最后按'b'键进行单用户模式启动，当启动成功后，还原文件后保存，最后退出(exit)重启系统即可。6. io.file.buffer.size: 读取/写出数据的buffer大小，默认4096，一般不用设置，推荐设置为4096的整数倍(物理页面的整数倍大小)。hbase调优1. 设置regionserver的内存大小，默认为1g，推荐设置为4g。修改conf/hbase-env.sh中的HBASE_HEAPSIZE=4g2. hbase.regionserver.handler.count: 修改客户端并发线程数，默认为10。设置规则为，当put和scans操作比较的多的时候，将其设置为比较小的值；当get和delete操作比较多的时候，将其设置为比较大的值。原因是防止频繁GC操作导致内存异常。3. 自定义hbase的分割和紧缩操作，默认情况下hbase的分割机制是当region大小达到hbase.hregion.max.filesize(10g)的时候进行自动分割，推荐每个regionserver的region个数在20~500个为最佳。hbase的紧缩机制是hbase的一个非常重要的管理机制，hbase的紧缩操作是非常消耗内存和cpu的，所以一般机器压力比较大的话，推荐将其关闭，改为手动控制。4. hbase.balancer.period： 设置hbase的负载均衡时间，默认为300000(5分钟)，在负载比较高的集群上，将其值可以适当的改大。5. hfile.block.cache.size：修改hflie文件块在内存的占比，默认0.4。在读应用比较多的系统中，可以适当的增大该值，在写应用比较多的系统中，可以适当的减少该值，不过不推荐修改为0。6. hbase.regionserver.global.memstore.upperLimit：修改memstore的内存占用比率上限，默认0.4，当达到该值的时候，会进行flush操作将内容写的磁盘中。7. hbase.regionserver.global.memstore.lowerLimit: 修改memstore的内存占用比率下限，默认0.38，进行flush操作后，memstore占用的内存比率必须不大于该值。8. hbase.hregion.memstore.flush.size: 当memstore的值大于该值的时候，进行flush操作。默认134217728(128M)。9. hbase.hregion.memstore.block.multiplier: 修改memstore阻塞块大小比率值，默认为4。也就是说在memstore的大小超过4*hbase.hregion.memstore.flush.size的时候就会触发写阻塞操作。最终可能会导致出现oom异常。mapreduce调优1. mapreduce.task.io.sort.factor: mr程序进行合并排序的时候，打开的文件数量，默认为10个.2. mapreduce.task.io.sort.mb: mr程序进行合并排序操作的时候或者mapper写数据的时候，内存大小，默认100M3. mapreduce.map.sort.spill.percent： mr程序进行flush操作的阀值，默认0.80。4. mapreduce.reduce.shuffle.parallelcopies：mr程序reducer copy数据的线程数，默认5。5. mapreduce.reduce.shuffle.input.buffer.percent: reduce复制map数据的时候指定的内存堆大小百分比，默认为0.70，适当的增加该值可以减少map数据的磁盘溢出，能够提高系统性能。6. mapreduce.reduce.shuffle.merge.percent：reduce进行shuffle的时候，用于启动合并输出和磁盘溢写的过程的阀值，默认为0.66。如果允许，适当增大其比例能够减少磁盘溢写次数，提高系统性能。同mapreduce.reduce.shuffle.input.buffer.percent一起使用。7. mapreduce.task.timeout：mr程序的task执行情况汇报过期时间，默认600000(10分钟)，设置为0表示不进行该值的判断。四、代码调优代码调优，主要是mapper和reducer中，针对多次创建的对象，进行代码提出操作。这个和一般的java程序的代码调优一样。
五、mapper调优mapper调优主要就是就一个目标：减少输出量。我们可以通过增加combine阶段以及对输出进行压缩设置进行mapper调优。combine介绍：实现自定义combine要求继承reducer类，特点：以map的输出key/value键值对作为输入输出键值对，作用是减少网络输出，在map节点上就合并一部分数据。比较适合，map的输出是数值型的，方便进行统计。压缩设置：在提交job的时候分别设置启动压缩和指定压缩方式。
六、reducer调优reducer调优主要是通过参数调优和设置reducer的个数来完成。reducer个数调优：要求：一个reducer和多个reducer的执行结果一致，不能因为多个reducer导致执行结果异常。规则：一般要求在hadoop集群中的执行mr程序，map执行完成100%后，尽量早的看到reducer执行到33%，可以通过命令hadoop job -status job_id或者web页面来查看。原因： map的执行process数是通过inputformat返回recordread来定义的；而reducer是有三部分构成的，分别为读取mapper输出数据、合并所有输出数据以及reduce处理，其中第一步要依赖map的执行，所以在数据量比较大的情况下，一个reducer无法满足性能要求的情况下，我们可以通过调高reducer的个数来解决该问题。优点：充分利用集群的优势。缺点：有些mr程序没法利用多reducer的优点，比如获取top n的mr程序。
七、runner调优runner调优其实就是在提交job的时候设置job参数，一般都可以通过代码和xml文件两种方式进行设置。1. mapred.child.java.opts: 修改childyard进程执行的jvm参数，针对map和reducer均有效，默认：-Xmx200m2. mapreduce.map.java.opts： 需改map阶段的childyard进程执行jvm参数，默认为空，当为空的时候，使用mapred.child.java.opts。3. mapreduce.reduce.java.opts：修改reducer阶段的childyard进程执行jvm参数，默认为空，当为空的时候，使用mapred.child.java.opts。4. mapreduce.job.reduces： 修改reducer的个数，默认为1。可以通过job.setNumReduceTasks方法来进行更改。5. mapreduce.map.speculative：是否启动map阶段的推测执行，默认为true。其实一般情况设置为false比较好。可通过方法job.setMapSpeculativeExecution来设置。6. mapreduce.reduce.speculative：是否需要启动reduce阶段的推测执行，默认为true，其实一般情况设置为fase比较好。可通过方法job.setReduceSpeculativeExecution来设置。7. mapreduce.map.output.compress：设置是否启动map输出的压缩机制，默认为false。在需要减少网络传输的时候，可以设置为true。8. mapreduce.map.output.compress.codec：设置map输出压缩机制，默认为org.apache.hadoop.io.compress.DefaultCodec，推荐使用SnappyCodec(在之前版本中需要进行安装操作，现在版本不太清楚，安装参数：http://www.cnblogs.com/chengxin1982/p/3862309.html)9. hbase参数设置由于hbase默认是一条一条数据拿取的，在mapper节点上执行的时候是每处理一条数据后就从hbase中获取下一条数据，通过设置cache值可以一次获取多条数据，减少网络数据传输。

1.5 combiner和partition的作用

combiner的意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量partition的默认实现是hashpartition，是map端将数据按照reduce个数取余，进行分区，不同的reduce来copy自己的数据。partition的作用是将数据分到不同的reduce进行计算，加快计算效果。

参考

1.6 Hadoop 3.X 新特性

(1) Java最低版本要求从Java7更改成Java8
(2) HDFS支持纠删码（Erasure Coding）
(3) 引入YARN的时间轴服务v.2（YARN Timeline Service v.2）
(4) 重写了shell脚本
(5) 隐藏底层jar包（shaded client jars）
(6) 支持containers和分布式调度
(7) MapReduce任务级本地优化
(8) 支持多于两个的NameNodes
(9) 改变了多个服务的默认端口（例如：HDFS的web界面，端口由50070变成9870）
(10) 支持Microsoft Azure Data Lake文件系统
(11) Intra-datanode（用Intra解决DataNode宕机负载不均衡的问题）
(12) 重写守护进程以及任务的堆内存管理
(13) 使用S3Guard进行AMAZON S3一致性（解决客户端同时进行查询、上传操作时，数据元和显示给客户端的数据不一致问题）

大数据面试之Hadoop相关推荐

大数据面试-06-大数据工程师面试题
3.14 1.一个Hadoop环境,整合了HBase和Hive,是否有必要给HDFS和Hbase都分别配置压缩策略?请给出对压缩策略的建议. hdfs在存储的时候不会将数据进行压缩,如果想进行压缩,我 ...
大数据面试求职经验总结
写在前面:空杯心态,多投多改,把握好校招机会,它是你最容易通往大厂的机会. 面试经验分享: 1. 提前了解应聘公司信息,知道该公司是做什么的,发展情况,招聘的岗位的要求等 : 2.面试不要说自己是培训 ...
精选大数据面试真题10道(附答案详细解析)
大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点-融会贯通):专项型(一篇文章针对某个框架进行深入解析-专项演练). 此篇文章为系列文章的第一篇(混合型) 第一题:大数据笔试 ...
大数据面试之hive重点(二)
大数据面试之hive重点(二) Hive SQL转化为MR的过程? 可回答:1)Hive SQL的解析过程:2)Hive SQL的底层实现问过的一些公司:阿里,头条,小米,滴滴,美团x2,网易,快手 ...
大数据面试之新浪面试题
大数据面试之新浪面试题学长1 一面 1)自我介绍叫什么名字,来自哪里,本科哪个学校,硕士哪个学校,大数据做了多长时间,对Hadoop生态圈以及Spark生态圈中的哪些技术比较了解(很简单的一句就带 ...
面试系列一：精选大数据面试真题10道（混合型）-附答案详细解析
本公众号(五分钟学大数据)将推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型 ...
大数据面试问题，大数据面试技巧都有哪些呢？
大数据的火爆发展吸引了众多小伙伴想要转行,年后是大家换工作的高发期,很多对目前工作不满意的小伙伴,都在考虑换一个薪资更高.发展前景更好的工作.节后必定是跳槽的跳槽,换工作的换工作,IT界将发生一场大的 ...
大数据学习总结+JAVA学习总结+大数据面试+java面试+大数据java异常总结
文章目录一.java模块面试问题 1.动态代理 2.浏览器禁用Cookie后的Session处理 3.主从复制的流程[重要] 5.redis的数据类型[重要] 6.Junit测试的注解 7.缓存问题 ...
大数据面试吹牛草稿V2.0
面试吹牛之前先打个草稿! 本文首发于微信公众号[五分钟学大数据],公众号上有很多大数据学习方法,学习文档,最全的大数据面试八股文等各位面试官好! 1. 我叫 xxx,毕业于 xxx,之前在 xxx ...

大数据面试之Hadoop

大数据面试之Hadoop

1.Hadoop

1.1 架构模型

1.1.1 1.x的版本架构模型

1.1.2 2.x的版本架构模型

1.2 有哪些角色？每个角色的功能？

1.3 Hadoop的shuffle过程

1.4 Hadoop调优

1.5 combiner和partition的作用

1.6 Hadoop 3.X 新特性

大数据面试之Hadoop相关推荐

最新文章

热门文章