我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,让我们再来看看关于Hadoop的精华问答。

1

Q:NameNode的工作特点

A:NameNode始终在内存中保存metedata,用于处理“读请求”,到有“写请求”到来时,NameNode首先会写editlog到磁盘,即向edits文件中写日志,成功返回后,才会修改内存,并且向客户端返回。

Hadoop会维护一个人fsimage文件,也就是NameNode中metedata的镜像,但是fsimage不会随时与NameNode内存中的metedata保持一致,而是每隔一段时间通过合并edits文件来更新内容。Secondary NameNode就是用来合并fsimage和edits文件来更新NameNode的metedata的。

2

Q:某个节点上任务数目太多,资源利用率太高,怎么控制一个节点上的任务数目?

A:一个节点上运行的任务数目主要由两个因素决定,一个是NodeManager可使用的资源总量,一个是单个任务的资源需求量,比如一个NodeManager上可用资源为8 GB内存,8 cpu,单个任务资源需求量为1 GB内存,1cpu,则该节点最多运行8个任务。

NodeManager上可用资源是由管理员在配置文件yarn-site.xml中配置的,相关参数如下:

yarn.nodemanager.resource.memory-mb:总的可用物理内存量,默认是8096

yarn.nodemanager.resource.cpu-vcores:总的可用CPU数目,默认是8

对于MapReduce而言,每个作业的任务资源量可通过以下参数设置:

mapreduce.map.memory.mb:物理内存量,默认是1024

mapreduce.map.cpu.vcores:CPU数目,默认是1

默认情况,各个调度器只会对内存资源进行调度,不会考虑CPU资源,你需要在调度器配置文件中进行相关设置。

3

Q:如何设置单个任务占用的内存量和CPU数目?

A:对于MapReduce而言,每个作业的任务资源量可通过以下参数设置:

mapreduce.map.memory.mb:物理内存量,默认是1024

mapreduce.map.cpu.vcores:CPU数目,默认是1

需要注意的是,默认情况,各个调度器只会对内存资源进行调度,不会考虑CPU资源,你需要在调度器配置文件中进行相关设置。

4

Q:用户给任务设置的内存量为1000MB,为何最终分配的内存却是1024MB?

A:为了易于管理资源和调度资源,Hadoop YARN内置了资源规整化算法,它规定了最小可申请资源量、最大可申请资源量和资源规整化因子,如果应用程序申请的资源量小于最小可申请资源量,则YARN会将其大小改为最小可申请量,也就是说,应用程序获得资源不会小于自己申请的资源,但也不一定相等;如果应用程序申请的资源量大于最大可申请资源量,则会抛出异常,无法申请成功;规整化因子是用来规整化应用程序资源的,应用程序申请的资源如果不是该因子的整数倍,则将被修改为最小的整数倍对应的值,公式为ceil(a/b)*b,其中a是应用程序申请的资源,b为规整化因子。

以上介绍的参数需在yarn-site.xml中设置,相关参数如下:

yarn.scheduler.minimum-allocation-mb:最小可申请内存量,默认是1024

yarn.scheduler.minimum-allocation-vcores:最小可申请CPU数,默认是1

yarn.scheduler.maximum-allocation-mb:最大可申请内存量,默认是8096

yarn.scheduler.maximum-allocation-vcores:最大可申请CPU数,默认是4

对于规整化因子,不同调度器不同,具体如下:

FIFO和Capacity Scheduler,规整化因子等于最小可申请资源量,不可单独配置。

Fair Scheduler:规整化因子通过参数yarn.scheduler.increment-allocation-mb和yarn.scheduler.increment-allocation-vcores设置,默认是1024和1。

通过以上介绍可知,应用程序申请到资源量可能大于资源申请的资源量,比如YARN的最小可申请资源内存量为1024,规整因子是1024,如果一个应用程序申请1500内存,则会得到2048内存,如果规整因子是512,则得到1536内存。

5

Q:hadoop能干什么?

A:hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)

小伙伴们冲鸭,后台留言区等着你!

关于Hadoop,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~

福利

1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

2、公众号后台回复:白皮书,获取IDC最新数据白皮书整理资料!

推荐阅读:

  • 上万条数据撕开微博热搜的真相!

  • IT公司老板落水,各部门员工怎么救??

  • HTML 30 年进化史

  • 读了鸿蒙 OS 的代码后,我发现优秀项目都有这个共性!

  • 字节跳动李航:自学机器学习,研究AI三十载,他说AI发展或进入平缓期

  • 主链增幅最高飚至152%,主流币却惊现回落;以太坊发币速度持续放缓

真香,朕在看了!

Hadoop精华问答 | NameNode的工作特点相关推荐

  1. Hadoop精华问答 | NameNode是什么?

    戳蓝字"CSDN云计算"关注我们哦! 2006年项目成立的一开始,"Hadoop"这个单词只代表了两个组件--HDFS和MapReduce.到现在的13个年头, ...

  2. Hadoop精华问答:Hadoop框架最核心的设计是?

    2006年项目成立的一开始,"Hadoop"这个单词只代表了两个组件--HDFS和MapReduce.到现在的13个年头,这个单词代表的是"核心",今天我们就来 ...

  3. Hadoop精华问答 | hadoop能干什么?

    Hadoop能够进行大批量数据的离线处理,但是在实时计算上的表现实在是不尽如人意;而Storm就可以担当这部分的角色,今天,就让我们看看关于Storm的精华问答吧. 1 Q:hadoop是什么 A:H ...

  4. Hadoop精华问答 | 非大数据的项目能否用Hadoop?

    戳蓝字"CSDN云计算"关注我们哦! 技术的日新月异,让我们见证了Hadoop十年从无到有,再到称王.2006年项目成立的一开始,"Hadoop"这个单词只代表 ...

  5. Hadoop精华问答 | Hadoop框架中最核心的设计是什么?

    Hadoop能够进行大批量数据的离线处理,但是在实时计算上的表现实在是不尽如人意;而Storm就可以担当这部分的角色,今天,就让我们看看关于Storm的精华问答吧. 1 Q:hadoop发展史 A: ...

  6. Hadoop精华问答 | 如何设置单个任务占用的内存量和CPU数目?

    我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,让我们再来看看关于Hadoop的精华问答. 1 Q:默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑 ...

  7. Hadoop精华问答 | 基于Hadoop的数据中心有什么好处?

    戳蓝字"CSDN云计算"关注我们哦! 2006年项目成立的一开始,"Hadoop"这个单词只代表了两个组件--HDFS和MapReduce.到现在的13个年头, ...

  8. Hadoop精华问答 | 关于Hadoop核心技术的精华问答

    戳蓝字"CSDN云计算"关注我们哦! 随着科技时代的发展,大数据与云计算已势不可挡的架势席卷未来,不可否认,大数据时代已经来临,并将深刻地改变着我们的工作和生活.学习大数据技术,是 ...

  9. Hadoop精华问答 | Hadoop 和Spark有什么区别?

    我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,希望通过今天的有问有答深入解读Hadoop的昨天.今天和明天,憧憬下一个十年. 1 Q:Hadoop是什么? A:Hado ...

最新文章

  1. 机器视觉学习笔记:BP神经网络详解
  2. MOSS SDK学习笔记系列文章
  3. 在 Linux 上找出并解决程序错误的主要方法【转】
  4. 实战SSM_O2O商铺_04自下而上逐步整合SSM
  5. vmstat命令列出的属性详解
  6. server的自增主键返回函数 sql_SQL自增主键函数
  7. Jquery复习(七)之尺寸
  8. windowbuilder安装
  9. Redis异步消息队列
  10. 维护人员工具_软件项目管理:软件工具与开发环境相关知识介绍
  11. java剑指offer_剑指offer题目java实现
  12. ps分辨率像素英寸和厘米的区别_PS萌新必知的专业术语
  13. chmod 777命令_Linux用户权限管理及用户权限管理命令操作
  14. CentOS7 升级到7.4
  15. 数字图像处理与python实现 pdf_python数字图像处理实现直方图与均衡化
  16. 乐有家:房源信息立体把控,打造全渠道真房源
  17. SmartUpload文件上传
  18. 路由器mac地址克隆
  19. python有几级等级考试成绩查询_python查询46级成绩
  20. springboot项目jar包发布的,如何线上修改jar包。

热门文章

  1. 怎么抓python程序的包_如何在AWS上部署python应用程序
  2. 多stream_基础之Lambda和Stream的邂逅
  3. python notebook软件_Jupyter notebook快速入门教程(推荐)
  4. 你的博士三五年,不艰辛?
  5. 年近八旬教授曾一次性捐款8000多万,今获省杰出贡献奖!
  6. 清华“最强本科生”揭晓!网友:我大概是来凑数的……
  7. Linux下environ环境变量操作函数
  8. 【转载保存】RunTime.getRunTime().addShutdownHook 添加钩子
  9. ubuntu 配置 静态ip
  10. 一场关于动态化开发实践的技术探讨