大数据面试之Hadoop

  • 1.Hadoop
    • 1.1 架构模型
      • 1.1.1 1.x的版本架构模型
      • 1.1.2 2.x的版本架构模型
    • 1.2 有哪些角色?每个角色的功能?
    • 1.3 Hadoop的shuffle过程
    • 1.4 Hadoop调优
    • 1.5 combiner和partition的作用
    • 1.6 Hadoop 3.X 新特性

说明,感谢亮哥长期对我的帮助,此处多篇文章均为亮哥带我整理。以及参考诸多博主的文章。如果侵权,请及时指出,我会立马停止该行为;如有不足之处,还请大佬不吝指教,以期共同进步。

1.Hadoop

1.1 架构模型

1.1.1 1.x的版本架构模型

文件系统核心模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块:JobTracker:接收用户的计算请求任务,并分配任务给从节点TaskTracker:负责执行主节点JobTracker分配的任务

1.1.2 2.x的版本架构模型

第一种:NameNode与ResourceManager单节点架构模型

文件系统核心模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块:ResourceManager:接收用户的计算请求任务,并负责集群的资源分配NodeManager:负责执行主节点APPmaster分配的任务

第二种:NameNode单节点与ResourceManager高可用架构模型

文件系统核心模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块:ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分,通过zookeeper实现ResourceManager的高可用NodeManager:负责执行主节点ResourceManager分配的任务

第三种:NameNode高可用与ResourceManager单节点架构模型

文件系统核心模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,其中nameNode可以有两个,形成高可用状态DataNode:集群当中的从节点,主要用于存储集群当中的各种数据JournalNode:文件系统元数据信息管理数据计算核心模块:ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分NodeManager:负责执行主节点ResourceManager分配的任务

第四种:NameNode与ResourceManager高可用架构模型

文件系统核心模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,一般都是使用两个,实现HA高可用JournalNode:元数据信息管理进程,一般都是奇数个DataNode:从节点,用于数据的存储数据计算核心模块:ResourceManager:Yarn平台的主节点,主要用于接收各种任务,通过两个,构建成高可用NodeManager:Yarn平台的从节点,主要用于处理ResourceManager分配的任务

参考

1.2 有哪些角色?每个角色的功能?

1.namenode:接收客户端的读写请求存储元数据信息接收datanode的心跳报告负载均衡分配数据块的存储节点2.datanode:真正处理客户端的读写请求向namenode发送心跳向namenode发送块报告真正的数据存储副本之间的相互复制3.secondarynamenode:备份元数据信息帮助namenode进行元数据合并  减轻namenode的压力4.客户端进行数据块的物理切分向namenode发送读写请求向namenode发送读写响应

参考

1.3 Hadoop的shuffle过程

1.Map端的shuffleMap端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,而不是HDFS。每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(溢写,默认Buffer大小为100M,达到80%时会溢写)。在spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡。接着运行combiner(如果设置了的话),combiner的本质也是一个Reducer,其目的是对将要写入到磁盘上的文件先进行一次处理最后,每个Map任务可能产生多个spill文件,在每个Map任务完成前,会通过多路归并算法将这些spill文件归并成一个文件。至此,Map的shuffle过程就结束了。2.Reduce端的shuffleReduce端的shuffle主要包括三个阶段,copy、sort(merge)和reduce。首先要将Map端产生的输出文件拷贝到Reduce端接下来就是sort阶段,也成为merge阶段,因为这个阶段的主要工作是执行了归并排序。最后就是Reduce过程了,在这个过程中产生了最终的输出结果,并将其写到HDFS上。

参考

1.4 Hadoop调优

一、调优的目的充分的利用机器的性能,更快的完成mr程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的mr程序。
二、调优的总体概述从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成,其中mapper阶段包括数据的读取、map处理以及写出操作(排序和合并/sort&merge),而reducer阶段包含mapper输出数据的获取、数据合并(sort&merge)、reduce处理以及写出操作。那么在这七个子阶段中,能够进行较大力度的进行调优的就是map输出、reducer数据合并以及reducer个数这三个方面的调优操作。也就是说虽然性能调优包括cpu、内存、磁盘io以及网络这四个大方面,但是从mr程序的执行流程中,我们可以知道主要有调优的是内存、磁盘io以及网络。在mr程序中调优,主要考虑的就是减少网络传输和减少磁盘IO操作,故本次课程的mr调优主要包括服务器调优、代码调优、mapper调优、reducer调优以及runner调优这五个方面。
三、服务器调优服务器调优主要包括服务器参数调优和jvm调优。在本次项目中,由于我们使用hbase作为我们分析数据的原始数据存储表,所以对于hbase我们也需要进行一些调优操作。除了参数调优之外,和其他一般的java程序一样,还需要进行一些jvm调优。hdfs调优1. dfs.datanode.failed.volumes.tolerated: 允许发生磁盘错误的磁盘数量,默认为0,表示不允许datanode发生磁盘异常。当挂载多个磁盘的时候,可以修改该值。2. dfs.replication: 复制因子,默认33. dfs.namenode.handler.count: namenode节点并发线程量,默认104. dfs.datanode.handler.count:datanode之间的并发线程量,默认10。5. dfs.datanode.max.transfer.threads:datanode提供的数据流操作的并发线程量,默认4096。一般将其设置为linux系统的文件句柄数的85%~90%之间,查看文件句柄数语句ulimit -a,修改vim /etc/security/limits.conf, 不能设置太大文件末尾,添加* soft nofile 65535* hard nofile 65535注意:句柄数不能够太大,可以设置为1000000以下的所有数值,一般不设置为-1。异常处理:当设置句柄数较大的时候,重新登录可能出现unable load session的提示信息,这个时候采用单用户模式进行修改操作即可。单用户模式:启动的时候按'a'键,进入选择界面,然后按'e'键进入kernel修改界面,然后选择第二行'kernel...',按'e'键进行修改,在最后添加空格+single即可,按回车键回到修改界面,最后按'b'键进行单用户模式启动,当启动成功后,还原文件后保存,最后退出(exit)重启系统即可。6. io.file.buffer.size: 读取/写出数据的buffer大小,默认4096,一般不用设置,推荐设置为4096的整数倍(物理页面的整数倍大小)。hbase调优1. 设置regionserver的内存大小,默认为1g,推荐设置为4g。修改conf/hbase-env.sh中的HBASE_HEAPSIZE=4g2. hbase.regionserver.handler.count: 修改客户端并发线程数,默认为10。设置规则为,当put和scans操作比较的多的时候,将其设置为比较小的值;当get和delete操作比较多的时候,将其设置为比较大的值。原因是防止频繁GC操作导致内存异常。3. 自定义hbase的分割和紧缩操作,默认情况下hbase的分割机制是当region大小达到hbase.hregion.max.filesize(10g)的时候进行自动分割,推荐每个regionserver的region个数在20~500个为最佳。hbase的紧缩机制是hbase的一个非常重要的管理机制,hbase的紧缩操作是非常消耗内存和cpu的,所以一般机器压力比较大的话,推荐将其关闭,改为手动控制。4. hbase.balancer.period: 设置hbase的负载均衡时间,默认为300000(5分钟),在负载比较高的集群上,将其值可以适当的改大。5. hfile.block.cache.size:修改hflie文件块在内存的占比,默认0.4。在读应用比较多的系统中,可以适当的增大该值,在写应用比较多的系统中,可以适当的减少该值,不过不推荐修改为0。6. hbase.regionserver.global.memstore.upperLimit:修改memstore的内存占用比率上限,默认0.4,当达到该值的时候,会进行flush操作将内容写的磁盘中。7. hbase.regionserver.global.memstore.lowerLimit: 修改memstore的内存占用比率下限,默认0.38,进行flush操作后,memstore占用的内存比率必须不大于该值。8. hbase.hregion.memstore.flush.size: 当memstore的值大于该值的时候,进行flush操作。默认134217728(128M)。9. hbase.hregion.memstore.block.multiplier: 修改memstore阻塞块大小比率值,默认为4。也就是说在memstore的大小超过4*hbase.hregion.memstore.flush.size的时候就会触发写阻塞操作。最终可能会导致出现oom异常。mapreduce调优1. mapreduce.task.io.sort.factor: mr程序进行合并排序的时候,打开的文件数量,默认为10个.2. mapreduce.task.io.sort.mb: mr程序进行合并排序操作的时候或者mapper写数据的时候,内存大小,默认100M3. mapreduce.map.sort.spill.percent: mr程序进行flush操作的阀值,默认0.80。4. mapreduce.reduce.shuffle.parallelcopies:mr程序reducer copy数据的线程数,默认5。5. mapreduce.reduce.shuffle.input.buffer.percent: reduce复制map数据的时候指定的内存堆大小百分比,默认为0.70,适当的增加该值可以减少map数据的磁盘溢出,能够提高系统性能。6. mapreduce.reduce.shuffle.merge.percent:reduce进行shuffle的时候,用于启动合并输出和磁盘溢写的过程的阀值,默认为0.66。如果允许,适当增大其比例能够减少磁盘溢写次数,提高系统性能。同mapreduce.reduce.shuffle.input.buffer.percent一起使用。7. mapreduce.task.timeout:mr程序的task执行情况汇报过期时间,默认600000(10分钟),设置为0表示不进行该值的判断。四、代码调优代码调优,主要是mapper和reducer中,针对多次创建的对象,进行代码提出操作。这个和一般的java程序的代码调优一样。
五、mapper调优mapper调优主要就是就一个目标:减少输出量。我们可以通过增加combine阶段以及对输出进行压缩设置进行mapper调优。combine介绍:实现自定义combine要求继承reducer类,特点:以map的输出key/value键值对作为输入输出键值对,作用是减少网络输出,在map节点上就合并一部分数据。比较适合,map的输出是数值型的,方便进行统计。压缩设置:在提交job的时候分别设置启动压缩和指定压缩方式。
六、reducer调优reducer调优主要是通过参数调优和设置reducer的个数来完成。reducer个数调优:要求:一个reducer和多个reducer的执行结果一致,不能因为多个reducer导致执行结果异常。规则:一般要求在hadoop集群中的执行mr程序,map执行完成100%后,尽量早的看到reducer执行到33%,可以通过命令hadoop job -status job_id或者web页面来查看。原因: map的执行process数是通过inputformat返回recordread来定义的;而reducer是有三部分构成的,分别为读取mapper输出数据、合并所有输出数据以及reduce处理,其中第一步要依赖map的执行,所以在数据量比较大的情况下,一个reducer无法满足性能要求的情况下,我们可以通过调高reducer的个数来解决该问题。优点:充分利用集群的优势。缺点:有些mr程序没法利用多reducer的优点,比如获取top n的mr程序。
七、runner调优runner调优其实就是在提交job的时候设置job参数,一般都可以通过代码和xml文件两种方式进行设置。1. mapred.child.java.opts: 修改childyard进程执行的jvm参数,针对map和reducer均有效,默认:-Xmx200m2. mapreduce.map.java.opts: 需改map阶段的childyard进程执行jvm参数,默认为空,当为空的时候,使用mapred.child.java.opts。3. mapreduce.reduce.java.opts:修改reducer阶段的childyard进程执行jvm参数,默认为空,当为空的时候,使用mapred.child.java.opts。4. mapreduce.job.reduces: 修改reducer的个数,默认为1。可以通过job.setNumReduceTasks方法来进行更改。5. mapreduce.map.speculative:是否启动map阶段的推测执行,默认为true。其实一般情况设置为false比较好。可通过方法job.setMapSpeculativeExecution来设置。6. mapreduce.reduce.speculative:是否需要启动reduce阶段的推测执行,默认为true,其实一般情况设置为fase比较好。可通过方法job.setReduceSpeculativeExecution来设置。7. mapreduce.map.output.compress:设置是否启动map输出的压缩机制,默认为false。在需要减少网络传输的时候,可以设置为true。8. mapreduce.map.output.compress.codec:设置map输出压缩机制,默认为org.apache.hadoop.io.compress.DefaultCodec,推荐使用SnappyCodec(在之前版本中需要进行安装操作,现在版本不太清楚,安装参数:http://www.cnblogs.com/chengxin1982/p/3862309.html)9. hbase参数设置由于hbase默认是一条一条数据拿取的,在mapper节点上执行的时候是每处理一条数据后就从hbase中获取下一条数据,通过设置cache值可以一次获取多条数据,减少网络数据传输。

1.5 combiner和partition的作用

combiner的意义就是对每一个maptask的输出进行局部汇总,以减小网络传输量partition的默认实现是hashpartition,是map端将数据按照reduce个数取余,进行分区,不同的reduce来copy自己的数据。partition的作用是将数据分到不同的reduce进行计算,加快计算效果。

参考

1.6 Hadoop 3.X 新特性

(1) Java最低版本要求从Java7更改成Java8
(2) HDFS支持纠删码(Erasure Coding)
(3) 引入YARN的时间轴服务v.2(YARN Timeline Service v.2)
(4) 重写了shell脚本
(5) 隐藏底层jar包(shaded client jars)
(6) 支持containers和分布式调度
(7) MapReduce任务级本地优化
(8) 支持多于两个的NameNodes
(9) 改变了多个服务的默认端口(例如:HDFS的web界面,端口由50070变成9870)
(10) 支持Microsoft Azure Data Lake文件系统
(11) Intra-datanode(用Intra解决DataNode宕机负载不均衡的问题)
(12) 重写守护进程以及任务的堆内存管理
(13) 使用S3Guard进行AMAZON S3一致性(解决客户端同时进行查询、上传操作时,数据元和显示给客户端的数据不一致问题)

大数据面试之Hadoop相关推荐

  1. 大数据面试-06-大数据工程师面试题

    3.14 1.一个Hadoop环境,整合了HBase和Hive,是否有必要给HDFS和Hbase都分别配置压缩策略?请给出对压缩策略的建议. hdfs在存储的时候不会将数据进行压缩,如果想进行压缩,我 ...

  2. 大数据面试求职经验总结

    写在前面:空杯心态,多投多改,把握好校招机会,它是你最容易通往大厂的机会. 面试经验分享: 1. 提前了解应聘公司信息,知道该公司是做什么的,发展情况,招聘的岗位的要求等 : 2.面试不要说自己是培训 ...

  3. 精选大数据面试真题10道(附答案详细解析)

    大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点-融会贯通):专项型(一篇文章针对某个框架进行深入解析-专项演练). 此篇文章为系列文章的第一篇(混合型) 第一题:大数据笔试 ...

  4. 大数据面试之hive重点(二)

    大数据面试之hive重点(二) Hive SQL转化为MR的过程? 可回答:1)Hive SQL的解析过程:2)Hive SQL的底层实现 问过的一些公司:阿里,头条,小米,滴滴,美团x2,网易,快手 ...

  5. 大数据面试之新浪面试题

    大数据面试之新浪面试题 学长1 一面 1)自我介绍 叫什么名字,来自哪里,本科哪个学校,硕士哪个学校,大数据做了多长时间,对Hadoop生态圈以及Spark生态圈中的哪些技术比较了解(很简单的一句就带 ...

  6. 面试系列一:精选大数据面试真题10道(混合型)-附答案详细解析

    本公众号(五分钟学大数据)将推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型 ...

  7. 大数据面试问题,大数据面试技巧都有哪些呢?

    大数据的火爆发展吸引了众多小伙伴想要转行,年后是大家换工作的高发期,很多对目前工作不满意的小伙伴,都在考虑换一个薪资更高.发展前景更好的工作.节后必定是跳槽的跳槽,换工作的换工作,IT界将发生一场大的 ...

  8. 大数据学习总结+JAVA学习总结+大数据面试+java面试+大数据java异常总结

    文章目录 一.java模块面试问题 1.动态代理 2.浏览器禁用Cookie后的Session处理 3.主从复制的流程[重要] 5.redis的数据类型[重要] 6.Junit测试的注解 7.缓存问题 ...

  9. 大数据面试吹牛草稿V2.0

    面试吹牛之前先打个草稿! 本文首发于微信公众号[五分钟学大数据],公众号上有很多大数据学习方法,学习文档,最全的大数据面试八股文等 各位面试官好! 1. 我叫 xxx,毕业于 xxx,之前在 xxx ...

最新文章

  1. 学计算机视觉台式机,回顾2020,2020年最受欢迎的7种电脑视觉工具
  2. Ueditor的两种定制方式
  3. enum2str做为queryValue时的问题
  4. 来自曾经一起“挥洒汗水”的志愿者伙伴们的一封信
  5. SAP CRM WebClient UI里的文件是如何上传到ABAP Netweaver后台的
  6. [AtCoder Beginner Contest 216] 题解
  7. windows安装pygame(python3.6)_当我试图安装PyGameforPython3.6时,Pip不起作用[过时]
  8. java format 补足空格_11 个简单的 Java 性能调优技巧
  9. DP 转移方程 —— 单调队列优化 斜率优化 李超树优化
  10. ttf能改成gfont吗_如何修改TTF字体
  11. Java:计算立方体的体积和底面积
  12. UMail邮件服务器竖铜墙铁壁有效阻止垃圾邮件入侵
  13. 【油猴脚本编写初体验】一键复制网页标题和地址(copy-title-and-location)
  14. Spring IOC理论推导及其本质
  15. mac系统可以进行软件测试吗,iPhone和Mac如何加入Apple Beta版软件测试计划
  16. opencv + MFC 视频图像显示
  17. micro-app 微前端脚手架搭建
  18. Hexo,创建属于你自己的博客
  19. react-native : 开发工具转帖记录
  20. ps切图,学成案例开头。。。。。

热门文章

  1. mingw编译FFmpeg32位和64位dll
  2. win10自带电影和电视无法加载字幕问题
  3. 谷歌可能全面退出中国市场 或关闭谷歌中国(附博客全文)
  4. DB2-GPFS(General Parallel File System)并行文件系统简叙、安装使用及DB高可用
  5. zynq 7000 sdk下裸机can(ps/pl) 调试
  6. 7-1 温度转换 (100 分) 摄氏温度/华氏温度
  7. 怎样查询2021年青海高考成绩,2021年青海高考成绩查询系统入口,青海高考成绩怎么近查询系统...
  8. 免费(无辜)ARP与代理ARP
  9. android生成apk流程,Android Studio生成APK的基本流程
  10. HFSS初探日志(四):毫米波相控阵喇叭馈源天线设计