版本!

需要注意两点:

  • (1)使用的Hadoop必须是 2.0 系列,比如 0.23.x,2.0.x,2.x.x或CDH4、CDH5 等,将 Spark 运行在 Hadoop 上,本质上是将 Spark 运行在 Hadoop YARN 上,因为 Spark 自身只提供了作业管理功能资源调度要依托于第三方系统,比如 YARN 或 Mesos 等

  • (2)之所以不采用Mesos而是YARN,是因为YARN拥有强大的社区支持,且逐步已经成为资源管理系统中的标准。(事实标准)

一、准备工作

  • (1)安装 jdk (建议 jdk7 以上)

    [root@hadoop0 ~]# echo $JAVA_HOME
    /usr/local/jdk
    [root@hadoop0 ~]# java -version
    java version "1.8.0_73"
    Java(TM) SE Runtime Environment (build 1.8.0_73-b02)
    Java HotSpot(TM) Client VM (build 25.73-b02, mixed mode)
  • (2)安装 scala(2.10.4)

    [root@hadoop0 ~]# echo $SCALA_HOME
    /usr/local/scala
    [root@hadoop0 ~]# scala -version
    Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
  • (3)安装 hadoop 2.x(至少提供 hdfs)

    本文 hadoop 版本为 spark-1.3.0-bin-hadoop2.4.tgz

    [root@hadoop0 ~]# cd /usr/local/hadoop-2.6.0-cdh5.4.0
    [root@hadoop0 hadoop-2.6.0-cdh5.4.0]# ./sbin/hadoop-daemon.sh start namenode
    [root@hadoop0 hadoop-2.6.0-cdh5.4.0]# ./sbin/hadoop-daemon.sh start datanode

    在浏览器的地址栏输入:http://hadoop0:9000,进行验证

二、配置 Spark

本文采用的 spark 版本为:spark-1.6.1-bin-hadoop2.6.tgz。

下载、解压,就不必多说

修改配置文件

.template 文件后缀的含义即是,

  • (1)这是模板,这些配置只是大体的模板形式的给出配置,
  • (2)这些模板不可直接使用,需由客户重命名且指定属性值之后才可生效

(1)spark-env.sh.template

  • (1)重命名

    mv spark-env.sh.tempalte spark-env.sh
  • (2)增加三个可选的(最好选)的路径:

    JAVA_HOME=/usr/local/jdk
    SCALA_HOME=/usr/local/scala
    HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0-cdh5.4.0/etc/hadoop
  • (3)做如下设置

    SPARK_MASTER_IP=hadoop0
    SPARK_MASTER_PORT=7077
    SPARK_MASTER_WEBUI_PORT=8080
    SPARK_WORKER_CORES=1
    SPARK_WORKER_MEMORY=1000m
    SPARK_WORKER_PORT=7078
    SPARK_WORKER_WEBUI_PORT=8081
    SPARK_WORKER_INSTANCES=1

(2)slaves.template

  • (1)重命名

    mv slaves.template slaves
  • (2)添加本机主机名

    hadoop0

(3)spark-defaults.conf.template

  • (1)重命名

    mv spark-defaults.conf.template spark-defaults.conf
  • (2)增加一个条目

    spark.master spark://hadoop0:7077

三、验证

  • (1)jps 查看运行中的 java 进程

    [root@hadoop0 ~]# jps

  • (2)Web UI 在浏览器端查看

    在浏览器地址栏输入:http://hadoop0:8080/

Spark standalone 模式下的集群部署相关推荐

  1. CentOS7下Elasticsearch集群部署记录

    Elasticsearch是一个分布式搜索服务,提供Restful API,底层基于Lucene,采用多shard的方式保证数据安全,并且提供自动resharding的功能,github等大型的站点也 ...

  2. Elasticsearch——Windows下ES集群部署 Linux下ES单节点、集群部署

    1.开篇 在之前的两篇文章中,说白了就是在windows下部署的ES单节点的环境. 这篇文章主要是说一下windows下部署ES集群.Linux下单节点部署. 单台 Elasticsearch 服务器 ...

  3. spark StandAlone模式下的作业提交流程

    spark StandAlone也有两种作业提交模式,client 和 cluster模式,以下以cluster为例说明 提交代码 ./spark-submit \ --class org.apach ...

  4. Centos6下RocketMQ集群部署记录

    一.RocketMQ基础知识介绍 Apache RocketMQ是阿里开源的一款高性能.高吞吐量.队列模型的消息中间件的分布式消息中间件. 上图是一个典型的消息中间件收发消息的模型,RocketMQ也 ...

  5. redis搭建主从哨兵模式+分片集群部署(redis系列二)

    前言:在前一章了解redis的基本介绍后,这一章主要介绍redis的实战部署,文章有点长请一步步耐心看完,我相信肯定会有收获的,这里用的资源包是2022年最新的redis版本可能会跟旧版本不同,在此章 ...

  6. 大数据之-Hadoop完全分布式_完全分布式模式下的集群配置---大数据之hadoop工作笔记0034

    然后前面我们准备好了,完全分布式下用的集群环境,下面我们,开始配置hadoop集群 我们这里用hadoop102,hadoop103,hadoop104 这3台机器. 需要hadoop102,103, ...

  7. Apache+Tomcat+jk windows环境下的集群部署

    记一次在Windows服务器上搭建apatch+tomcat+jk的集群搭建过程,其中也遇到了很多问题,总结一下. 一.准备工作 1.apache-tomcat-7.0.88 2.Apche http ...

  8. SPARK安装二:HADOOP集群部署

    一.hadoop下载 使用2.7.6版本,因为公司生产环境是这个版本 cd /opt wget http://mirrors.hust.edu.cn/apache/hadoop/common/hado ...

  9. Spark基础学习笔记05:搭建Spark Standalone模式的集群

    文章目录 零.本讲学习目标 一.Spark集群拓扑 (一)集群拓扑 (二)集群角色分配 二.搭建集群 (一)私有云上创建三台虚拟机 (二)利用SecureCRT登录三台虚拟机 1.登录master虚拟 ...

最新文章

  1. 消息队列-----生成者 Spring整合rabbitmq
  2. QEMU和KVM 中断处理过程
  3. thinkphp 创建子应用
  4. 内部类不能有静态变量(除静态的对Static的理解)
  5. 我ABAP开发生涯中搜集的一些有意思的数据库表
  6. 赛门铁克备份软件服务起不来_软件安全开发服务资质和信息系统灾难备份与恢复服务资质...
  7. c#用canny算子做边缘提取_机器视觉学习(三)边缘检测
  8. 【渝粤题库】国家开放大学2021春2542行政组织学题目
  9. 将Android源码集成到Eclipse中的方法
  10. 【2015年第4期】大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...
  11. PAT乙级1088 三人行 (20分)
  12. 前端开发者常用的9个JavaScript图表库
  13. 使用Eclipse查看反编译后的代码(Decompiler 插件)
  14. C语言——快速取以2为底x的对数
  15. 点击开始十秒倒计时html,十秒倒计时案例.html
  16. android 原笔迹,Android-原笔迹手写的探索与开发
  17. 投资理财-基金基本术语概念整理
  18. 工厂模式总结——三个工厂
  19. c语言猴子吃桃问题(简洁做法)
  20. ECharts之横向柱状图二

热门文章

  1. Linux 7配置named,centos7dns服务器配置文件name.conf权限问题
  2. uview组件得到回调的参数
  3. 转码服务器 作用,转码服务器工作原理介绍.pdf
  4. scala中的filter函数
  5. 迷宫问题python实现
  6. css 倒三角_改善CSS的10种最佳做法,帮助你从样式中获得最大的收益。
  7. DeepStream框架整理
  8. OpenCV探索之路(六):图像变换——霍夫变换
  9. CUDA算法——Stream and Event
  10. TensorFlow安装中碰到的问题汇总