Spark on YARN的部署
Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前提是首先部署好hadoop HDFS并且运行在yarn上,然后就可以开始部署spark on yarn了,假设现在准备环境已经部署完毕,这里是在CDH 环境下部署Spark
除了上面的环境准备,安装Spark前,还应该保证Scala正常安装,基于Scala的情况下,就可以开始部署Spark了,
首先还是解压Spark,安装位置就是/bigdata/spark
tar -xvzf spark-1.6.2-bin-hadoop2.6.tgz mv spark-1.6.2-bin-hadoop2.6 /bigdata/ ln -s /bigdata/spark-1.6.2-bin-hadoop2.6 /bigdata/spark cd /bigdata/spark
这里为了方便升级,使用/bigdata/sprak指向具体的spark目录,接下来可以配置环境变量,以方便随时输入命令来提交相关程序,直接在环境变量配置文件的PATH变量最后追加 :/bigdata/spark/bin 即可配置,配置完成后source一下即可生效
然后同样是处理配置文件:
cp conf/spark-env.sh.template conf/spark-env.sh cp conf/slaves.template conf/slaves
这时slaves不用做任何修改默认即可,如果有多台spark,也可以配置除master之外的主机名列表,这个不用配置也可以
执行 vim conf/spark-env.sh 编辑配置文件,在最后追加如下配置:
# JDK目录 export JAVA_HOME=/usr/local/java/jdk1.8.0_73 # Scala目录 export SCALA_HOME=/usr/local/scala/scala-2.11.8 # Master IP地址 export SPARK_MASTER_IP=192.168.0.187 # Worker运行内存 export SPARK_WORKER_MEMORY=2G # hadoop配置文件目录 cdh中默认是如下目录 这个hadoop必须运行在yarn上 spark才能直接通过此配置文件目录通过yarn进行调度 export HADOOP_CONF_DIR=/etc/hadoop/conf # spark master端口 默认7077 下面是可选的 export SPARK_MASTER_PORT=7077 # 此项默认 也是可选的 export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}
配置完这些项之后,spark就可以跑在yarn上了,到这里就部署完了,也没必要启动spark的master和slaves服务,因为是靠yarn进行任务调度,所以直接提交任务即可
转载于:https://www.cnblogs.com/freeweb/p/5898850.html
Spark on YARN的部署相关推荐
- spark on yarn简单部署
spark on yarn无需启动master和worker进程.
- Spark On YARN 集群安装部署
2019独角兽企业重金招聘Python工程师标准>>> 最近毕设需要用到 Spark 集群,所以就记录下了部署的过程.我们知道 Spark 官方提供了三种集群部署方案: Standa ...
- spark on yarn 完全分部署_大数据Spark面试题(一)
1.spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) 1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定.将Spark应用以多线程的方式直接运行在本地, ...
- spark on yarn 完全分布式_Apache Spark探秘:三种分布式部署方式比较
[本文详细介绍了Spark的三种部署方式及其比较,欢迎读者朋友们阅读.转发和收藏!] 目前Apache Spark支持三种分布式部署方式,分别是 standalone . spark on mesos ...
- spark on yarn 部署问题
spark on yarn 部署报:java.io.IOException: Resource file:/usr/local/spark-1.6.3-bin-hadoop2.6/lib/spark- ...
- Spark On Yarn基本原理及部署
文章目录 Spark On Yarn基本原理 Spark On Yarn架构图 Spark On Yarn部署及测试 Spark On Yarn基本原理 对于企业来说,如果在已有的Yarn群集的前提下 ...
- DSS部署-11、Spark on Yarn部署
文章目录 第七部分 Spark on Yarn部署 相关配置 操作记录如下 spark-sql -e "show databases" 第七部分 Spark on Yarn部署 相 ...
- Apache Spark源码走读之8 -- Spark on Yarn
欢迎转载,转载请注明出处,徽沪一郎. 概要 Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准.其主要职责将是分布式计算集群的 ...
- spark on yarn 完全分布式_Spark编程笔记(1)-架构基础与运行原理
引言 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一 次重大变革 .当前我们正处于第三次信息浪潮(2010年前后),物联网.云计算和大数据技术突飞猛进. 信息爆炸是我们当前所需要解决 ...
最新文章
- prometheus监控_使用Prometheus和Grafana监视开放自由
- python读数据-如何用Python读取开放数据?
- JavaScript中this的五种绑定方式详解
- 请简述计算机软件系统与硬件系统的关系,电脑硬件与软件的关系是什么?
- 羊车门问题python_python编程羊车门问题代码示例
- 【收藏】Geomesa(三)图层的裁剪分析
- Android--使用剪切板在Activity中传值
- 7-2 数组元素循环右移问题 (40 分)
- aud删除 oracle_Oracle 11g如何清理数据库的历史日志详解
- Mysql 最最最基本语句(大全)
- Matlab中median函数的使用
- python进阶练习题:第一步,成为百万富翁 - 汇率卡塔【难度:2级】--景越Python编程实例训练营,不同难度Python习题,适合自学Python的新手进阶
- 第六章 网上银行与电子支付-1
- 第五节 FLASH 程序存储器和数据EEPROM
- github上传文件出错
- qt 侧边栏 Sidebar
- Java 后端自学之路之小白
- python magic number,boost.python 做出来的pyc报bad magic number
- Rxjava源码分析之IO.Reactivex.CompositeDisposable
- 2016 UESTC Training for Data Structures K - 郭大侠与甲铁城 CDOJ 1342 离线树状数组
热门文章
- MyBatis foreach语句批量插入数据
- 31岁了学python还是arm_学嵌入式的,学完了51单片机,下一步呢,是学stm32还是学arm呢.有些迷茫还有Linux等。怎么一步步学好...
- arduino和轮毂电机接线_丰田Prius B电机技术解析
- Leetcode143. 重排链表 (golang描述)
- Vue 事件绑定 事件修饰符 条件判断 循环遍历
- “21天好习惯”第一期-20
- 八类网线和七类网线的区别_Cat8 八类网线与超五类网线、六类网线、超六类网线及七类/超七类网线的区别...
- TinyML与Tensor Flow Lite的关系
- sql去某几个字段重复的记录
- 云计算的高增长将持续推动光模块行业景气度