2019独角兽企业重金招聘Python工程师标准>>>

spark 1.5.1 集群部署 博客分类: spark

实验环境

操作系统:ubuntu 14.04 64位

Master 10.107.12.10
Worker1 10.107.12.20
Worker2 10.107.12.50
Worker3 10.107.12.60

JDK 安装

实验安装的是jdk1.7.0_71版本,具体安装步骤及环境变量设置参考这里。


SSH 无密登录

下面是我写的一个自动化SSH 无密登录脚本,运行脚本前需要安装expect包,ubuntu 系统下直接执行:sudo apt-get install expect就可以了。该脚本运行在namenode上,运行时只需要将IP_1改成对应的datanode地址,PWD_1是对应datanode密码。

# NO_PWD_SSH
#!/bin/sh
IP_1=10.107.12.20,10.107.12.50,10.107.12.60
PWD_1=111111key_generate() {expect -c "set timeout -1; spawn ssh-keygen -t dsa; expect { {Enter file in which to save the key*} {send -- \r;exp_continue} {Enter passphrase*} {send -- \r;exp_continue} {Enter same passphrase again:} {send -- \r;exp_continue} {Overwrite (y/n)*} {send -- n\r;exp_continue} eof {exit 0;} };"
}auto_ssh_copy_id () {expect -c "set timeout -1; spawn ssh-copy-id -i $HOME/.ssh/id_dsa.pub root@$1; expect { {Are you sure you want to continue connecting *} {send -- yes\r;exp_continue;} {*password:} {send -- $2\r;exp_continue;} eof {exit 0;} };"
}rm -rf ~/.sshkey_generateips_1=$(echo $IP_1 | tr ',' ' ')
for ip in $ips_1
doauto_ssh_copy_id $ip  $PWD_1
doneeval &(ssh-agent)
ssh-add
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39

安装 scala

1. 下载 scala 2.11.4

下载地址点这里。

2. 解压

tar zxvf scala-2.11.4.tgz解压,解压后放在了/root/spark_sdk/目录下。

tar zxvf scala-2.11.4.tgz
  • 1

3. 设置环境变量

~/.bashrc文件中加入如下命令:

export SCALA_HOME=/root/spark_sdk/scala-2.11.4
PATH=$PATH:$SCALA_HOME/bin
  • 1
  • 2

使环境变量生效:source ~/.bashrc


安装 Spark 1.5.1

1. 下载 Spark 1.5.1

下载地址点这里。

2. 解压

tar zxvf spark-1.5.1-bin-hadoop2.6.tgz解压,解压后放在了/root/spark_sdk/目录下。

3. 设置环境变量

~/.bashrc文件中加入如下命令:

export SPARK_HOME=/root/spark_sdk/spark-1.5.1-bin-hadoop2.6
PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
  • 1
  • 2

使环境变量生效:source ~/.bashrc

4. 修改Spark 配置文件

spark-env.sh 文件

export JAVA_HOME=/root/spark_sdk/jdk1.7.0_71
  • 1

yarn-env.sh 文件

export SCALA_HOME=/root/spark_sdk/scala-2.11.4
export JAVA_HOME=/root/spark_sdk/jdk1.7.0_71
export SPARK_MASTER_IP=10.107.12.10
export SPARK_WORKER_MEMORY=2048m
export HADOOP_CONF_DIR=/root/spark_sdk/hadoop-2.7.1/etc/hadoop
  • 1
  • 2
  • 3
  • 4
  • 5

这里10.107.12.10是Master节点IP

slaves 文件

10.107.12.20
10.107.12.50
10.107.12.60
  • 1
  • 2
  • 3

上面3个IP分别对应的是Worker节点的IP。

5. 启动Spark

./sbin/start-all.sh
  • 1

6. 集群启动验证

执行jps命令,可以查询到有如下进程说明集群部署成功!

Master
Worker
  • 1
  • 2

运行SparkPi

spark-submit  --master spark://10.107.12.10:7077 --class org.apache.spark.examples.SparkPi --name Spark-Pi /root/spark_sdk/spark-1.5.1-bin-hadoop2.6/lib/spark-examples-1.5.1-hadoop2.6.0.jar
  • 1

使用web查看Spark运行状态

http://10.107.12.10:8080
  • 1

这里的IP就是Master节点地址。

7. 关闭集群

关闭集群执行sbin/stop-all.sh

http://blog.csdn.net/zcf1002797280/article/details/49560789


转载于:https://my.oschina.net/xiaominmin/blog/1599422

spark 1.5.1 集群部署相关推荐

  1. Spark 2.2.0 集群部署

    环境说明 服务器1 主机名:node201 IP:10.0.0.201 OS: centos 7.4 hadoop: NameNode, ResourceManager, SecondaryNameN ...

  2. Hadoop+Spark 集群部署

    研究了几天 Hadoop+Spark 集群部署,虽然现在还是有点不懂(一脸懵B),想写下自己的总结,日后有新的发现再补充. 我安装时候的参考教程: http://www.powerxing.com/i ...

  3. Kylin集群部署和cube使用

    Kylin集群部署和cube使用 安装集群环境 节点 Kylin节点模式 Ip 内存 磁盘 Node1 All 192.167.71.11 2G 80G Node2 query 192.168.71. ...

  4. 手绘流程图讲解spark是如何实现集群的高可用

    本文分享自华为云社区<图解spark是如何实现集群的高可用>,作者:breakDawn. 我们看下spark是怎么针对master.worker.executor的异常情况做处理的. 容错 ...

  5. Mycat集群部署(基于HAProxy + Mycat)

    Mycat集群部署(基于HAProxy + Mycat) 1. 背景 系统开发中,数据库是非常重要的一个点.除了程序的本身的优化,如:SQL语句优化.代码优化,数据库的处理本身优化也是非常重要的.主从 ...

  6. Kylin集群部署及基本架构简介

    一.基本架构及原理 实现:利用hadoop中MapReduce框架对hive表中的数据进行预计算,将预计算结果缓存至Hbase中,解决TB级数据分析需求 原理架构参考:https://www.cnbl ...

  7. 【云原生】Docker集群部署MinIO

    MinIO 是全球领先的对象存储先锋,目前在全世界有数百万的用户. 在标准硬件上,读/写速度上高达183 GB / 秒 和 171 GB / 秒. 对象存储可以充当主存储层,以处理Spark.Pres ...

  8. 【部署】Apache DolphinScheduler 伪集群部署

    [部署]Apache DolphinScheduler(海豚) 伪集群部署(Pseudo-Cluster) Standalone极速体验版 DolphinScheduler 伪集群部署 前置准备工作 ...

  9. 数据库系列之SequoiaDB高可用集群部署(二)

    SequoiaDB作为存储引擎,支持高并发的HTAP场景.本位总结运维分析项目中使用SequoiaDB作为数据存储的高可用部署实战,并接入Kafka进行高并发的更新业务和Spark进行高并发的批量查询 ...

  10. 数据库系列之SequoiaDB高可用集群部署(一)

    SequoiaDB作为存储引擎,支持高并发的HTAP场景.本位总结运维分析项目中使用SequoiaDB作为数据存储的高可用部署实战,并接入Kafka进行高并发的更新业务和Spark进行高并发的批量查询 ...

最新文章

  1. 【怎样写代码】参数化类型 -- 泛型(九):泛型代码中的default关键字
  2. php 安装redis php扩展
  3. 大规模知识图谱的构建
  4. java 集合类简单的分析1
  5. python 关于excelcsv与cookie的部分笔记
  6. 上传文件至数据库并下载
  7. SpringBoot配置文件敏感信息加密,springboot配置文件数据库密码加密jasypt
  8. Cesium颜色调整
  9. Spring Cloud Config - RSA简介以及使用RSA加密配置文件
  10. MFC 通用对话框之“查找替换“对话框
  11. 初步设计对复杂系统的意义
  12. 薛定谔把妹法、量子力学和鸡汤(超长,慎入)
  13. Redhat克隆及其配置
  14. The kernel appears to have died. It will restart automatically.
  15. Ubuntu gbd调试
  16. 什么是数据安全,为什么需要数据安全,怎么才能实现数据安全?
  17. 如何用excel筛选相似内容_excel怎么筛选出相同内容
  18. KubeVela解读
  19. GraalVM Enterprise Edition 22.3.0 企业版安装
  20. ps -mp pid -o THREAD,tid,time;printf %x\n tid;jstack pid |grep tid -A 30;CPU占用太高追查

热门文章

  1. Flink 在快手实时多维分析场景的应用
  2. 实时计算在贝壳的实践
  3. linux安装jdk和tomcat7.0
  4. 嵌入式linux系统运行程序,嵌入式Linux系统启动过程
  5. python 教材 配套 试题库_Python语言应用2020满分完整版考 试题库大全
  6. 优品景象 进销存系统推荐_初步了解WMS(仓库管理系统)
  7. java热门编程题_java经典50编程题(1-10)
  8. memcached mysql 类_mysql有没有类似和memcached里那样的CAS版本控制?
  9. 多示例代码:go语言中循环练习题,不包括break,continue
  10. bootstrap 黑边框表格样式_bootstrap3.0教程之多种表格效果(条纹状表格、条纹状表格、鼠标悬停等)...