一、uber(u:ber)模式

  MapReduce以Uber模式运行时,所有的map,reduce任务都在一个jvm中运行,对于小的mapreduce任务,uber模式的运行将更为高效。

uber模式配置,在mapred-site.xml中进行配置,如下

mapreduce.job.ubertask.enable配置为true,默认为false。

mapreduce.job.ubertask.maxmaps默认为9。mapreduce.job.ubertask.maxreduces默认为1。

mapreduce.job.ubertask.maxbytes默认为一个块的大小即128M。

二、集群的时钟同步

  集群中各节点的时间不一致时,运行mapreduce时可能会报错,token is expired,current time is xxxx found yyyyy。

配置集群的时钟同步的过程如下:

  1.检查是否安装了ntp,rpm -qa|grep ntp,如果没安装则先安装。

2.开启ntpd服务,chkonfig ntpd on。重启服务service ntpd restart。

3.在时间服务器节点上编辑/etc/ntp.conf。

增加restrict 10.0.0.12 mask 255.0.0.0 nomodify notrap

注释掉server0.xxx,server1.xxx 和server2.xxx

去掉注释server 127.127.1.0和fudge 127.127.1.0 stratum 10

4.配置BIOS与系统时间同步,编辑/etc/sysconfig/ntpd

在OPTIONS的前一行添加SYNC_HWCLOCK=yes

5.配置集群中的其他机器

每10分钟与服务器同步一次,必须用root用户创建,用sudo命令时会出错。

#crontab -e

增加0-59/10 * * * * /usr/sbin/ntpdate xxxx(服务器的hostname)

6.检查是否成功ntpdate xxxx(服务器的hostname),查看2个服务器上时间的间隔值。

三、Web Application Proxy

  用于防止Yarn遭受Web攻击,本身是ResourceManager的一部分,可通过配置独立进程。ResourceManager Web的访问基于守信用户,当Application Master运行于一个非受信用户,其提供给ResourceManager的可能是非受信连接,Web Application Proxy可以阻止这种连接提供给RM。

配置yarn-site.xml中添加yarn.web-proxy.address,值例如hostname:8089。

启动在上面hostname所对应的主机上执行sbin/yarn-deamon.sh start proxyserver后查看是否有webappproxyserver进程。

sbin/start-yarn.sh最下面的start proxyserver是注释掉的,需要放开注释。

四、mr应用程序日志配置在yarn上

默认的container的日志是在本地文件系统上,通过historyserver查看日志时会报错。可以进行日志的聚集功能配置,上传日志到hdfs的tmp目录。

在yarn-site.xml中进行配置:

yarn.log-aggregation-enable设置为true

yarn.log-aggregation.retain-seconds设置为604800,即7天。

五、MiniCluster

用户仅使用1个命令就可以启动1个单节点的Hadoop集群,不需要设置任何环境变量或者配置文件。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0.jar minicluster

六、hadoop2.6.0作业恢复问题

mapred-site.xml中配置mapreduce.jobtracker.restart.recover配置为true。

第一次kill -9 appmaster,Hadoop会重启这个appmaster,但是在你第二次kill时候,就会发出异常。

在kill的时候假设你map task执行到99%重启appMaster也是0%开始,但是map Task执行完毕之后,在reduce Task kill,那么重启的时候就只执行reduce 的task。

七、启用日志聚合需要注意的

启用日志聚合后,一定要等hdfs启动完全后再启动yarn,否则会报错。日志聚合会将container的日志上传至hdfs。

八、日志查看

框架的日志默认在安装目录的logs目录,应用程序日志查看container的日志。

九、集群卸载节点

hdfs卸载datanode节点:

在namenode节点的hdfs-site.xml中增加配置:dfs.host.exclude值为一个文件的路径,在这个文件中增加需要卸载的datanode节点的全路径主机名。

刷新datanode状态,在namenode节点上只执行bin/hdfs dfsadmin -refreshNodes

关掉卸载节点的datanode进程。

yarn卸载nodemanager节点:

在resourcemanager节点的yarn-site.xml中增加配置:yarn.resourcemanager.nodes.exclude-path值为一个文件的路径,在这个文件中增加需要卸载的datanode节点的全路径主机名。

刷新yarn状态,在resourcemanager节点上只执行bin/yarn rmadmin -refreshNodes

关掉卸载节点的nodemanager进程。

转载于:https://www.cnblogs.com/lnlvinso/p/6568925.html

Hadoop学习笔记五相关推荐

  1. Hadoop学习笔记—4.初识MapReduce

    一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个 编程模型 ,用以进行大数据量的计算.对于大 数据量的计算,通常采用的处理手法就是并行计算.但对许多开 ...

  2. hadoop学习笔记-目录

    以下是hadoop学习笔记的顺序: hadoop学习笔记(一):概念和组成 hadoop学习笔记(二):centos7三节点安装hadoop2.7.0 hadoop学习笔记(三):hdfs体系结构和读 ...

  3. Hadoop学习笔记—16.Pig框架学习

    Hadoop学习笔记-16.Pig框架学习 一.关于Pig:别以为猪不能干活 1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin, ...

  4. Hadoop学习笔记(四)HDFS部分下

    Hadoop学习笔记(四)HDFS部分下 一.HDFS 的数据流 1.1 HDFS的写数据流程 客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,Nam ...

  5. Hadoop学习笔记一 简要介绍

    Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop.     本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...

  6. Hadoop学习笔记(1) ——菜鸟入门

     Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户能够在不了解分布式底层细节的情况下.开发分布式 ...

  7. python函数是一段具有特定功能的语句组_Python学习笔记(五)函数和代码复用

    本文将为您描述Python学习笔记(五)函数和代码复用,具体完成步骤: 函数能提高应用的模块性,和代码的重复利用率.在很多高级语言中,都可以使用函数实现多种功能.在之前的学习中,相信你已经知道Pyth ...

  8. Hadoop学习笔记(1)

    原文:http://www.cnblogs.com/zjfstudio/p/3859704.html Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分 ...

  9. Hadoop学习笔记—18.Sqoop框架学习

    Hadoop学习笔记-18.Sqoop框架学习 一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据 ...

最新文章

  1. 金九银十征服、阿里、京东、字节跳动,的程序员和他们的公众号
  2. Remoting Practice Sample
  3. 【js】版本号对比处理方案
  4. 一篇好文之Android数据库 GreenDao的完全解析
  5. PE文件的感染C++源代码
  6. lingo的初步使用(集)
  7. Nginx根据User-Agent适配PC和手机
  8. 省选专练HAOI2015树上操作
  9. VM14装deepin-15.6-amd64
  10. Altium Designer 21/AD21程序安装及注意事项
  11. 值得收藏的资源网站大全
  12. 2022-2027年中国金融科技行业市场调研及未来发展趋势预测报告
  13. 2021,要这样学大数据开发
  14. win10 命令行查看、创建、删除用户
  15. Http请求格式和响应格式
  16. matlab 三维 作图 坐标轴_matlab三维画图
  17. PCB布线数字地、模拟地、电源地,单点接地抗干扰
  18. 2023校招美团第三次笔试
  19. 姚明全部比赛录像合集【百度网盘高清分享】
  20. platform设备驱动全透析(转自宋宝华老师)

热门文章

  1. 发力大陆移动VR,HTC刚刚发布ViveWave开放平台和ViveFocus一体机
  2. UE4蓝图中的AI行为树功能使用经验指南
  3. 英伟达吞并Arm失败!英美欧盟一齐干涉,老黄还要给孙正义12.5亿美元分手费
  4. 双方互GAN,不如来试试群体博弈?更快更强更自由 | ICLR 2021
  5. 擦掉纹身的AI火了:再现无暇皮肤,网友却发现“伏地魔” | Reddit热议
  6. 博士在淘宝“扫垃圾”
  7. 清华本科生开发强化学习平台「天授」:千行代码实现,性能吊打国外成熟平台,刚刚开源...
  8. 首届清华智班30人名单公布:贵校第一批AI本科生,状元金牌云集,与姚班“抢人”...
  9. ORACL内部异常:
  10. .OCX、.dll文件注册命令Regsvr32的使用