Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前提是首先部署好hadoop HDFS并且运行在yarn上,然后就可以开始部署spark on yarn了,假设现在准备环境已经部署完毕,这里是在CDH 环境下部署Spark

  除了上面的环境准备,安装Spark前,还应该保证Scala正常安装,基于Scala的情况下,就可以开始部署Spark了,

  首先还是解压Spark,安装位置就是/bigdata/spark

tar -xvzf spark-1.6.2-bin-hadoop2.6.tgz
mv spark-1.6.2-bin-hadoop2.6 /bigdata/
ln -s /bigdata/spark-1.6.2-bin-hadoop2.6 /bigdata/spark
cd /bigdata/spark

  这里为了方便升级,使用/bigdata/sprak指向具体的spark目录,接下来可以配置环境变量,以方便随时输入命令来提交相关程序,直接在环境变量配置文件的PATH变量最后追加 :/bigdata/spark/bin 即可配置,配置完成后source一下即可生效

  然后同样是处理配置文件:

cp conf/spark-env.sh.template conf/spark-env.sh
cp conf/slaves.template conf/slaves

  这时slaves不用做任何修改默认即可,如果有多台spark,也可以配置除master之外的主机名列表,这个不用配置也可以

  执行 vim conf/spark-env.sh 编辑配置文件,在最后追加如下配置:

# JDK目录
export JAVA_HOME=/usr/local/java/jdk1.8.0_73
# Scala目录
export SCALA_HOME=/usr/local/scala/scala-2.11.8
# Master IP地址
export SPARK_MASTER_IP=192.168.0.187
# Worker运行内存
export SPARK_WORKER_MEMORY=2G
# hadoop配置文件目录 cdh中默认是如下目录 这个hadoop必须运行在yarn上 spark才能直接通过此配置文件目录通过yarn进行调度
export HADOOP_CONF_DIR=/etc/hadoop/conf
# spark master端口 默认7077 下面是可选的
export SPARK_MASTER_PORT=7077
# 此项默认 也是可选的
export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}

  配置完这些项之后,spark就可以跑在yarn上了,到这里就部署完了,也没必要启动spark的master和slaves服务,因为是靠yarn进行任务调度,所以直接提交任务即可

转载于:https://www.cnblogs.com/freeweb/p/5898850.html

Spark on YARN的部署相关推荐

  1. spark on yarn简单部署

    spark on yarn无需启动master和worker进程.

  2. Spark On YARN 集群安装部署

    2019独角兽企业重金招聘Python工程师标准>>> 最近毕设需要用到 Spark 集群,所以就记录下了部署的过程.我们知道 Spark 官方提供了三种集群部署方案: Standa ...

  3. spark on yarn 完全分部署_大数据Spark面试题(一)

    1.spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) 1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定.将Spark应用以多线程的方式直接运行在本地, ...

  4. spark on yarn 完全分布式_Apache Spark探秘:三种分布式部署方式比较

    [本文详细介绍了Spark的三种部署方式及其比较,欢迎读者朋友们阅读.转发和收藏!] 目前Apache Spark支持三种分布式部署方式,分别是 standalone . spark on mesos ...

  5. spark on yarn 部署问题

    spark on yarn 部署报:java.io.IOException: Resource file:/usr/local/spark-1.6.3-bin-hadoop2.6/lib/spark- ...

  6. Spark On Yarn基本原理及部署

    文章目录 Spark On Yarn基本原理 Spark On Yarn架构图 Spark On Yarn部署及测试 Spark On Yarn基本原理 对于企业来说,如果在已有的Yarn群集的前提下 ...

  7. DSS部署-11、Spark on Yarn部署

    文章目录 第七部分 Spark on Yarn部署 相关配置 操作记录如下 spark-sql -e "show databases" 第七部分 Spark on Yarn部署 相 ...

  8. Apache Spark源码走读之8 -- Spark on Yarn

    欢迎转载,转载请注明出处,徽沪一郎. 概要 Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准.其主要职责将是分布式计算集群的 ...

  9. spark on yarn 完全分布式_Spark编程笔记(1)-架构基础与运行原理

    引言 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一 次重大变革 .当前我们正处于第三次信息浪潮(2010年前后),物联网.云计算和大数据技术突飞猛进. 信息爆炸是我们当前所需要解决 ...

最新文章

  1. prometheus监控_使用Prometheus和Grafana监视开放自由
  2. python读数据-如何用Python读取开放数据?
  3. JavaScript中this的五种绑定方式详解
  4. 请简述计算机软件系统与硬件系统的关系,电脑硬件与软件的关系是什么?
  5. 羊车门问题python_python编程羊车门问题代码示例
  6. 【收藏】Geomesa(三)图层的裁剪分析
  7. Android--使用剪切板在Activity中传值
  8. 7-2 数组元素循环右移问题 (40 分)
  9. aud删除 oracle_Oracle 11g如何清理数据库的历史日志详解
  10. Mysql 最最最基本语句(大全)
  11. Matlab中median函数的使用
  12. python进阶练习题:第一步,成为百万富翁 - 汇率卡塔【难度:2级】--景越Python编程实例训练营,不同难度Python习题,适合自学Python的新手进阶
  13. 第六章 网上银行与电子支付-1
  14. 第五节 FLASH 程序存储器和数据EEPROM
  15. github上传文件出错
  16. qt 侧边栏 Sidebar
  17. Java 后端自学之路之小白
  18. python magic number,boost.python 做出来的pyc报bad magic number
  19. Rxjava源码分析之IO.Reactivex.CompositeDisposable
  20. 2016 UESTC Training for Data Structures K - 郭大侠与甲铁城 CDOJ 1342 离线树状数组

热门文章

  1. MyBatis foreach语句批量插入数据
  2. 31岁了学python还是arm_学嵌入式的,学完了51单片机,下一步呢,是学stm32还是学arm呢.有些迷茫还有Linux等。怎么一步步学好...
  3. arduino和轮毂电机接线_丰田Prius B电机技术解析
  4. Leetcode143. 重排链表 (golang描述)
  5. Vue 事件绑定 事件修饰符 条件判断 循环遍历
  6. “21天好习惯”第一期-20
  7. 八类网线和七类网线的区别_Cat8 八类网线与超五类网线、六类网线、超六类网线及七类/超七类网线的区别...
  8. TinyML与Tensor Flow Lite的关系
  9. sql去某几个字段重复的记录
  10. 云计算的高增长将持续推动光模块行业景气度