HDFS和YARN集群新增节点
目录
- 静态新增
- 动态新增
- Hadoop HDFS 数据自动平衡脚本使用方法
静态新增
静态新增的方式,相当于我们最开始部署Hadoop集群规划一样,停止集群,新增一个DateNode数据节点,这种方法不适用于线上提供服务的场景。
例如现在集群有:
bigdata111(namenode)
bigdata112(datanode)
bigdata113(datanode)
bigdata114(新增datanode)
HDFS新增节点方式:
关闭现有的hdfs集群。
在bigdata111,bigdata112,bigdata113的hadoop的配置文件(slaves)里面添加bigdata114。
在bigdata114节点配置hostsname,hosts,然后进行hdfs的配置,可以使用scp命令从bigdata113节点里面拉去hdfs的配置过来。
对4个几点进行ssh免密登录的配置。
启动集群,启动命令:start-hdfs.sh
通过hadoop自带的hdfs的web页面查看datanode节点的数量。
例如现在集群有:
bigdata111(ResourceManager),bigdata112(NodeManager),bigdata113(NodeManager),bigdata114(新增NodeManager)
YARN新增节点方式:
关闭现有的yarn集群。
在bigdata111,bigdata112,bigdata113的hadoop的配置文件(slaves)里面添加bigdata114。
在bigdata114节点配置hostsname,hosts,然后进行yarn的配置,可以使用scp命令从bigdata113节点里面拉去yarn的配置过来。
对4个几点进行ssh免密登录的配置。
启动集群,启动命令:start-yarn.sh
通过hadoop自带的yarn的web页面查看NodeManager节点的数量。
动态新增
静态新增的方式,不需要关闭集群就可以直接添加,这种方法适用于线上提供服务的场景。
例如现在集群有:
bigdata111(namenode)
bigdata112(datanode)
bigdata113(datanode)
bigdata114(新增datanode)
HDFS新增节点方式:
不关闭现有的hdfs集群。
在bigdata111,bigdata112,bigdata113的hadoop的配置文件(slaves)里面添加bigdata114。
在bigdata114节点配置hostsname,hosts,然后进行hdfs的配置,可以使用scp命令从bigdata113节点里面拉去hdfs的配置过来。
对4个几点进行ssh免密登录的配置。
在bigdata114几点单独启动datanode,启动命令:hadoop-daemon.sh start datanode
刷新hdfs的nodes节点,命令:hdfs dfsadmin -refreshNodes
然后在web页面查看datanode是否添加进去。
例如现在集群有:
bigdata111(ResourceManager),bigdata112(NodeManager),bigdata113(NodeManager),bigdata114(新增NodeManager)
YARN新增节点方式:
不关闭现有的yarn集群。
在bigdata111,bigdata112,bigdata113的hadoop的配置文件(slaves)里面添加bigdata114。
在bigdata114节点配置hostsname,hosts,然后进行yarn的配置,可以使用scp命令从bigdata113节点里面拉去yarn的配置过来。
对4个几点进行ssh免密登录的配置。
在bigdata114几点单独启动nodemanager,启动命令:yarn-daemon.sh start nodemanager
刷新yarn的nodes节点,命令:yarn rmadmin -refreshNodes
然后在web页面查看nodemanager是否添加进去。
Hadoop HDFS 数据自动平衡脚本使用方法
在Hadoop中,包含一个start-balancer.sh脚本,通过运行这个工具,启动HDFS数据均衡服务。该工具可以做到热插拔,即无须重启计算机和 Hadoop 服务。Hadoop的bin目录下的start−balancer.sh脚本就是该任务的启动脚本。启动命令为:
bin/start-balancer.sh –threshold
影响Balancer的几个参数:
-threshold
默认设置:10,参数取值范围:0-100
参数含义:判断集群是否平衡的阈值。理论上,该参数设置的越小,整个集群就越平衡。
dfs.balance.bandwidthPerSec
默认设置:1048576(1M/S)
参数含义:Balancer运行时允许占用的带宽
示例如下:
#启动数据均衡不手动指定,默认阈值为 10%
$Hadoop_home/bin/start-balancer.sh#启动数据均衡,指定阈值 5%
bin/start-balancer.sh –threshold 5#停止数据均衡
$Hadoop_home/bin/stop-balancer.sh在hdfs-site.xml文件中可以设置数据均衡占用的网络带宽限制
<property><name>dfs.balance.bandwidthPerSec</name><value>1048576</value><description> Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. </description>
</property>
转载自 :https://mp.weixin.qq.com/s/crxmlkeTZHJ2NuvUGKjnKA
HDFS和YARN集群新增节点相关推荐
- ES集群新增节点无法加入集群 timed out while waiting for initial discovery state - timeout: 30s
ES : 7.5.0 ES集群新增节点无法加入集群 timed out while waiting for initial discovery state - timeout: 30s ES集群需 ...
- pythonspark集群模式运行_有关python numpy pandas scipy 等 能在YARN集群上 运行PySpark
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上 运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...
- 基于YARN集群构建运行PySpark Application
文章转载:https://www.tuicool.com/articles/eaYVN3v Spark Application可以直接运行在YARN集群上,这种运行模式,会将资源的管理与协调统一交给Y ...
- flink on yarn集群搭建
环境需求 CentOS7.5.1804.jdk1.8.0_181.zookeeper3.6.2.hadoop3.2.2.flink1.12.2 关于hadoop的安装细节请查看<hadoop3. ...
- Spark On YARN 集群安装部署
2019独角兽企业重金招聘Python工程师标准>>> 最近毕设需要用到 Spark 集群,所以就记录下了部署的过程.我们知道 Spark 官方提供了三种集群部署方案: Standa ...
- hadoop yarn 集群配置
yarn基本概念 yarn是负责调度mapreduce程序,hdfs是负责存储数据 1.Resource Manager 接受用户提交的分布式计算程序,并为其划分资源 管理.监控各个Node Mana ...
- Yarn篇--搭建yarn集群
一.前述 有了上次hadoop集群的搭建,搭建yarn就简单多了.废话不多说,直接来 二.规划 三.配置如下 yarn-site.xml配置 <property> < ...
- YARN集群的mapreduce测试(一)
hadoop集群搭建中配置了mapreduce的别名是yarn [hadoop@master01 hadoop]$ mv mapred-site.xml.template mapred-site.xm ...
- 第二节HDFS完全分布式集群搭建与配置及常见问题总结
提示:此文章内容超级全面和详细 文章目录 前言 一.HDFS完全分布式集群是什么? 二.HDFS完全分布式集群搭建与配置 1.HDFS完全分布式集群搭建库 2.HDFS完全分布式集群搭建配置 HDFS ...
最新文章
- Linux常用命令集锦
- 今天写了一个含配置文件的 文件分割 及 合并 的java程序。
- SQL卸载重装实例名重复问题
- QTimer定时器的使用,判断ros是否关闭,ros关闭后关闭窗口
- 【VS开发】VS2010 MFC中控件、对话框等背景颜色动态修改的方法
- docker 升级linux内核,docker-machine之升级linux内核
- JAVA数组批量设值(初始化)的办法
- linux下redis安装教程
- 互联网卫星地图服务比较
- Linux Email服务搭建与应用
- java监听服务器信息,java实时监控服务器状态
- 2016上半年高项项目经理考试培训考试感想
- 运行项目页面显示“该网页无法正常运作”的解决办法 - 前端篇
- 第一种可以用手机远程实时观看的网络摄像机,还带云台,报警,双向语音
- PPT内常用的五个插件
- GBase 8a 高可用集群同城双活灾备方案
- oracle风扇设置,HP DL380 G6风扇满速原因
- OpenGL ES 2.0 for Android教程(九):添加触摸反馈
- KFC门店信息获取 爬虫实战
- IE可以上网谷歌和QQ无法上网
热门文章
- 易基因:禾本科植物群落的病毒组丰度/组成与人为管理/植物多样性变化的相关性 | 宏病毒组
- 博客系统知多少:揭秘那些不为人知的学问(一)
- jquery取选中的checkbox的值
- 似乎一夜间,所有的枯枝都绽出了绿芽
- spring aop的@target与@within的真正区别到底是什么?
- Kali-linux密码在线破解
- 对上次的“打地鼠“进行了调整
- 突发!倪行军出任支付宝中国董事长,技术出身的他,曾写下“支付宝”第一行代码.........
- 【深度学习】Deep Learning必备之必背十大网络结构
- Mac OS X 10.5 Leopard: Direcory Utility, The end of Netinfo