基于Hadoop集群的Spark集群搭建

注:Spark需要依赖scala,因此需要先安装scala

一、 简单叙述一下scala的安装

(1)下载scala软件安装包,上传到集群

(2)建立一个用于存放scala的目录,将上传的安装包移动到新建的目录下,并解压
移动文件:# mv scala-2.12.8.tgz ~/scala
解压文件:# tar -xzf scala-2.12.8.tgz

(3)修改环境变量
修改环境配置文件:# vi .bash_profile
添加如下配置信息(注意与自己的地址对应)
#scala environment
SCALA_HOME=/home/admin/scala/scala-2.12.8
PATH=SCALAHOME/bin:SCALA_HOME/bin:SCALAH​OME/bin:PATH
export SCALA_HOME PATH
(4)使环境变量生效并进入scala命令行测试

二、单机Spark环境部署

准备工作:Spark程序包
Spark安装包下载地址:http://spark.apache.org/downloads.html

(1)将下载的安装包上传至集群主节点上

(2)建立一个用于存放scala的目录,将上传的安装包移动到新建的目录下,并解压
移动文件:# mv spark-2.4.3-bin-hadoop2.7.tgz ~/spark
解压文件:# tar -xzf spark-2.4.3-bin-hadoop2.7.tgz

(3)添加环境变量
修改环境配置文件:# vi .bash_profile
添加如下配置信息(注意与自己的地址对应)
#spark environment
SPARK_HOME=/home/admin/spark/spark-2.4.3-bin-hadoop2.7
PATH=SPARKHOME/bin:SPARK_HOME/bin:SPARKH​OME/bin:PATH
export SPARK_HOME PATH

(4)使环境变量生效并进入Spark命令行测试

注:至此,单机的spark安装已经完成
可以用“IP+ 4040”在浏览器进行访问(如图)

三、Spark集群环境部署

(1)配置spark文件
将spark-env.sh.template配置文件拷贝并修改文件名为spark-env.sh
进入spark的配置文件所在目录:# cd ~//spark/spark-2.4.3-bin-hadoop2.7/conf
拷贝spark的配置文件:# cp spark-env.sh.template spark-env.sh

修改配置文件:# vi spark-env.sh
export JAVA_HOME=/home/admin/java/jdk1.8.0_131
export SPARK_MASTER_IP=Cluster-01
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2000M
(2)配置slaves文件
将slaves.template拷贝到slaves
进入spark的配置文件所在目录:# cd ~//spark/spark-2.4.3-bin-hadoop2.7/conf
拷贝spark的配置文件:# cp slaves.template slaves
编辑slaves,把默认slaves内容localhost换成如下内容

(3)配置好后,将主机上的/home/admin/spark文件夹复制到各个节点上
将“spark” 目录和“.bash_profile” 文件发送给集群中的所有主机。
向集群中的其他主机发送:# scp -r ~/spark ~/.bash_profile admin@Cluster-02:/home/admin
注:是所有节点都要发送
(4)启动Hadoop集群(start-all.sh),启动spark集群
启动spark集群:# ./start-all.sh

(5)在浏览器访问验证
可以用“IP+ 8080”在浏览器进行访问(如图)

至此,spark集群便搭建完成!!!!!!

四、编写Spark应用程序

(1)准备测试数据

(2)在hadoop集群中新建目录

(3)将数据上传到hadoop集群中的新建目录
(4)启动spark-shell,执行如下命令测试

基于Hadoop集群的Spark集群搭建相关推荐

  1. CDH大数据平台搭建之SPARK集群搭建

    CDH大数据平台搭建之SPARK集群搭建 一.安装规划 二.下载 三.安装及配置 1.解压 2.修改配置文件 四.启动 五.JPS检查节点 一.安装规划 参考CHD大数据平台搭建之集群规划 二.下载 ...

  2. 基于Hadoop的58同城离线计算平台设计与实践

    作者:余意,来自:DataFun 导读:58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大.58大数据平台的定位主要是服务数据 ...

  3. 基于 Hadoop 的58同城离线计算平台设计与实践

    导读:58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大.58大数据平台的定位主要是服务数据业务开发人员,提高数据开发效率,提 ...

  4. Windows PC上创建大数据职业技能竞赛实验环境之五--hadoop、hive和spark编程

    前述,我们在Windows WSL上,通过Docker容器技术实现了Hadoop集群环境,现在看看利用现有集群环境进行编程开发. 1 设置容器开启时自运行SSH服务 参照docker中安装Ubuntu ...

  5. 基于Hadoop + Hive框架进行电子商务数据分析的设计与实现

    摘要 随着大数据时代的到来,企业挖掘出隐藏巨大的数据价值给带来了更多的市场机会.大数据存储,处理和处理的研究已是企业未来发展的趋势,因此,将开展基于Hadoop + Hive框架进行电子商务数据分析, ...

  6. 基于Hadoop安装spark集群

    基于Hadoop的spark环境搭建 已有环境情况 Hadoop HA Java 软件版本 Hadoop 2.7.2 Java 1.8.0_301 Scala 2.11.8 Spark 2.1.0 下 ...

  7. 记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群

    一.基本信息 官网 http://spark.apache.org/ Apache Spark 官方文档中文版(Spark 2.2.0) http://spark.apachecn.org/#/ Sp ...

  8. Windows家庭版下基于Docker的hadoop、Spark集群搭建

    Windows家庭版下基于Docker的hadoop.Spark集群搭建 目录 Windows家庭版下基于Docker的hadoop.Spark集群搭建 1.实验目的 2.实验平台 3.实验内容和要求 ...

  9. Hadoop集群+Spark集群搭建基于VMware虚拟机教程+安装运行Docker

    Hadoop集群+Spark集群搭建+安装运行Docker 目录 一.准备工作 二.在虚拟机上安装CentOS 7 三.hdfs的环境准备 四.hdfs配置文件的修改 五.克隆(复制虚拟机) 六.制作 ...

最新文章

  1. CentOS下的Autoconf和AutoMake(实践篇) 2
  2. makefile讲义(1)——makefile基础(概述)
  3. poly-YOLOv3
  4. Linux中常见目录的作用
  5. 知乎热点:数学专业的学霸们毕业后都在做什么
  6. java复制文件的4种方式及拷贝文件到另一个目录下的实例代码
  7. win10的ios镜像
  8. Windows 0x80190001错误解决
  9. 学习 PixiJS — 动画精灵
  10. 链表的中间结点-python
  11. GPG使用方法总结(密钥管理,加解密文件)
  12. python 模拟百度搜索关键词
  13. :要求查询出每一个雇员的编号,姓名,工资,领导的姓名,部门名称及位置,工资所在公司的工资等级
  14. Java类(无参、有参构造方法、静态变量)
  15. Java SE菜鸟之泛型
  16. 什么是勒索病毒?有哪些危害?如何预防?
  17. TI公司之DSP结构与芯片
  18. Zernik矩亚像素边缘检测
  19. 新颖的基于BS结构的毕业设计题目50例
  20. 广州天象网络技术有限公司AE的八大就业方向 下

热门文章

  1. Android系统启动过程详解
  2. 记录android离屏渲染的一些资料
  3. ios ffmpeg(libfdk-aac) aac encode
  4. 推箱子游戏的java设计思路_用JAVA实现一个推箱子游戏
  5. nginx清缓存,网站刷新不过来时用
  6. 用C++做一个通讯录管理系统(手把手教学)
  7. 恭喜宿主获得鸿蒙,第四十章大殿讲道,十连抽获得鸿蒙至宝!
  8. python连续质数计算代码分析,素性测试的Miller-Rabin算法完全解析 (C语言实现、Python实现)...
  9. layui的表单控件的input文本框赋值
  10. python 输入中文_【提醒】Python新手开发人员注意事项:不要误输入中文标点符号...