Spark集群处理能力不足需要扩容,如何在现有spark集群中新增新节点?本文以一个实例介绍如何给Spark集群新增一个节点。

1. 集群环境

现有Spark集群包括3台机器,用户名都是cdahdp,主目录/home/ap/cdahdp,配置是2C8G虚拟机,集群基于yarn架构。

Master:128.196.54.112/W118PC01VM01

Slave1:128.196.54.113/W118PC02VM01

Slave2:128.196.54.114/W118PC03VM01

相关软件版本:jdk1.7、scala2.10.4、hadoop2.6.0、spark1.1

现在需要新增一个节点:128.196.54.115/W118PC04VM01,2C8G

首先停止当前集群:停止spark,停止hdfs和yarn。

2. 新节点要求

(1)新节点需要增加用户cdahdp,主目录/home/ap/cdahdp。与集群现有机器一致。

(2)修改所有节点的/etc/hosts文件,更新新节点的ip hostname配置。

(3)配置ssh,使新节点与集群中各节点能够无密码互相ssh登录。

(4)在新节点上安装jdk、scala、hadoop和spark。其版本,安装目录,环境变量设置与集群中现有节点保持一致。比如可以直接从集群节点赋值。

3. 配置文件修改

(1)修改$HADOOP_HOME/etc/hadoop/slaves文件,增加新节点作为slave节点。

(2)修改$SPARK_HOME/conf/slaves文件,增加新节点作为slave节点。

(3)格式化新节点的namenode:

cd $HADOOP_HOME/bin

./hdfs namenode -format

4. 启动新集群

启动hdfs,yarn,以及spark。

cd $HADOOP_HOME/sbin

./start-dfs.sh && ./start-yarn.sh

cd $SPARK_HOME/sbin

./start-all.sh

扩容以前:

扩容以后:

5. 集群的负载均衡

(1)查看HDFS集群的基本信息:执行hadoop dfsadmin -report

(2)负载均衡:在$HADOOP_HOME/sbin/下执行start-balancer.sh

说明:balancer操作是一个较慢的过程,所以在后台执行。balance过程中,数据在各节点之间迁移的速度默认是1M/s。

负载均衡之前:

执行负载均衡:

负载均衡之后:

至此,在spark集群增加新节点完毕。

转载于:https://www.cnblogs.com/simplestupid/p/4695644.html

Spark集群新增节点方法相关推荐

  1. ES集群新增节点无法加入集群 timed out while waiting for initial discovery state - timeout: 30s

    ES : 7.5.0 ES集群新增节点无法加入集群 timed out while waiting for initial discovery state - timeout: 30s   ES集群需 ...

  2. HDFS和YARN集群新增节点

    目录 静态新增 动态新增 Hadoop HDFS 数据自动平衡脚本使用方法 静态新增 静态新增的方式,相当于我们最开始部署Hadoop集群规划一样,停止集群,新增一个DateNode数据节点,这种方法 ...

  3. 如何将Jupyter Notebook连接到远程Spark集群并每天运行Spark作业?

    As a data scientist, you are developing notebooks that process large data that does not fit in your ...

  4. spark集群访问mysql_一种Spark并行访问MPP数据库的方法与流程

    本发明涉及数据库 技术领域: :,具体来说,涉及一种Spark并行访问MPP数据库的方法. 背景技术: ::从关系数据库读取数据,Spark可以使用DataFrame和JdbcRDD等方法.这些方法在 ...

  5. Spark集群启动时worker节点启不起来

    在spark集群中使用命令: sbin/start-all.sh 启动集群时报错: starting org.apache.spark.deploy.master.Master, logging to ...

  6. AWS EC2 搭建 Hadoop 和 Spark 集群

    前言 本篇演示如何使用 AWS EC2 云服务搭建集群.当然在只有一台计算机的情况下搭建完全分布式集群,还有另外几种方法:一种是本地搭建多台虚拟机,好处是免费易操控,坏处是虚拟机对宿主机配置要求较高, ...

  7. Spark详解(六):Spark集群资源调度算法原理

    1. 应用程序之间 在Standalone模式下,Master提供里资源管理调度功能.在调度过程中,Master先启动等待列表中应用程序的Driver,这个Driver尽可能分散在集群的Worker节 ...

  8. spark 集群单词统计_最近Kafka这么火,聊一聊Kafka:Kafka与Spark的集成

    Spark 编程模型 在Spark 中, 我们通过对分布式数据集的操作来表达计算意图 ,这些计算会自动在集群上 井行执行 这样的数据集被称为弹性分布式数据集 Resilient Distributed ...

  9. spark 广播变量大数据_大数据处理 | Spark集群搭建及基本使用

    点击蓝字关注我 前面用了一篇文章详细的介绍了集群HDFS文件系统的搭建,HDFS文件系统只是一个用于存储数据的系统,它主要是用来服务于大数据计算框架,例如MapReduce.Spark,本文就接着上一 ...

  10. spark集群访问mysql_spark连接数据源以及在spark集群上跑

    1.spark连接mysql import org.apache.spark.SparkConf import org.apache.spark.sql.{SaveMode, SparkSession ...

最新文章

  1. 微服务测试之静态代码扫描
  2. 高等数学、线性代数、概率论数理统计书籍推荐
  3. Kafka分区分配策略(4)——分配的实施
  4. 【Go】Panic函数
  5. java get 空指针_Java 中空指针处理方法
  6. 数据“被”覆盖有假象,SQL数据库恢复终极绝招(数据恢复高级技术)
  7. python with循环_Python for循环、while循环
  8. mfc程序转化为qt_小峰的QT学习笔记
  9. 操作系统之进程管理:9、进程互斥的硬件实现方法
  10. IIS搭建网站遇到的问题
  11. Flutter ClipPath 自定义CustomClipper 玩转不一样的背景图案
  12. Uncaught RangeError: Maximum call stack size exceeded解决思路
  13. java javascript 的编码
  14. mysql 5.6.15.0 源码_源码编译mysql-5.6.15
  15. hosts文件位置在哪里?(3种打开hosts文件的方法)
  16. java设计图形编辑器,java图形编辑器
  17. 深度终端:ubuntu等linux下好用的远程终端软件
  18. CCNP路由实验之十七 广域网技术之一
  19. 80386 Programmer's Manual: Chapter 9 Exceptions and Interrupts(Personal Translation)
  20. Jackson荧光染料丨艾美捷Jackson Alexa Fluor®荧光染料

热门文章

  1. 运维必读:避免故障、拒绝背锅的 10 大原则!
  2. Nginx使用GeoIP模块来限制地区访问
  3. 雷林鹏分享:Ruby 发送邮件 - SMATP
  4. 第二阶段冲刺10天 第二天
  5. C#技术点--修改系统时间
  6. emacs,objective-c mode 代码补全!
  7. iOS The binary you uploaded was invalid
  8. 深入学习c++(虚函数遇到析构函数就退化了)
  9. java网络编程基础——TCP网络编程三
  10. 【leetcode 简单】第五题 最长公共前缀