CDH-5.9.2整合spark2

2024-06-07 09:23:27

1.编写目的：由于cdh-5.9.2自带spark版本是spark1.6，现需要测试spark2新特性，需要整合spark2，

且spark1.x和spark2.x可以同时存在于cdh中，无需先删除spark1.x；

2.安装包下载

2.1首先下载csd包，地址： http://archive.cloudera.com/spark2/csd/

2.2 parcel包下载地址：http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera1/

需要注意的是要下载对应的版本和对应的操作系统包；

3.安装开始

将安装包放到对应目录，修改安装包所属用户，以及组，如下图：

将该节点执行：

service cloudera-scm-server restart

service cloudera-scm-agent restart

然后点击主机->Parcel页面，看是否多了个spark2的选项。如下图，你这里此时应该是分配按钮，点击，等待操作完成后，点击激活按钮

然后在dashboard页面，向集群添加服务，就可以看到spark2：

我这里把spark2的history server装在了第三个节点：

至此，安装完成；

4.测试验证：

spark2-shell启动成功；

spark-shell,即spark1也启动成功；

=====》使用spark-submit模式几条job：

[hdfs@hadoopNode3:/opt/cloudera/parcels/SPARK2/bin]$ ./spark2-submit --master yarn --deploy-mode cluster --conf spark.driver.memory=2g --class org.apache.spark.examples.SparkPi --executor-cores 4 /opt/cloudera/parcels/CDH/lib/spark/examples/lib/spark-examples-1.6.0-cdh5.9.2-hadoop2.6.0-cdh5.9.2.jar

[hdfs@hadoopNode3:/opt/cloudera/parcels/CDH/lib/spark/bin]$ ./spark-submit --master yarn --deploy-mode cluster --conf spark.driver.memory=2g --class org.apache.spark.examples.SparkPi --executor-cores 4 /opt/cloudera/parcels/CDH/lib/spark/examples/lib/spark-examples-1.6.0-cdh5.9.2-hadoop2.6.0-cdh5.9.2.jar

可以看到用集群模式也都能运行job成功

五.问题总结：

1.在安装过程中，可能会碰到在向集群添加spark2这个服务时候，没有spark2这个选项，这个是csd文件没有放对路劲；

2.在集群其他节点运行spark2的时候，会报错

spark2安装在哪个节点，就要到对应节点运行，否则会有这个报错；

3.运行spark2对应命令，要切换到hdfs用户，否则会报错：

转载于:https://www.cnblogs.com/gxc2015/p/9066334.html

CDH-5.9.2整合spark2相关推荐

CDH安装及使用CM安装集成livy和zepplin
首先转载几位大佬的几篇文章; CDH6.2.0搭建 https://blog.csdn.net/weixin_38201936/article/details/106006335 CDH6.2.0搭建 ...
SparkStreaming整合Kafka（Offset保存在zookeeper上，Spark2.X + kafka0.10.X）
先来一段到处都有的原理(出处到处都有,就不注明了) Streaming和Kafka整合有两种方式--Receiver和Direct,简单理解为:Receiver方式是通过zookeeper来连接kaf ...
在CDH上用外部Spark2.2.1安装和配置 CarbonData
在CDH上用外部Spark2.2.1 (hadoop free版本)standalone 模式安装和配置 CarbonData 一.cdh中外部spark(standalone模式安装) 1.把安装包 ...
CDH安装Spark2
前言我们采用的cdh版本是5.16.1,对应的spark版本是1.6.0,由于项目需要使用使用Spark的版本是2.1.0,所以进行了Spark的升级. 实现过程 1.下载文件 1)jar文件下载 ...
CDH spark2切换成anaconda3的问题
最近spark2有同事想用anaconda3做开发,原因是上面可以跑机器学习的库(服务器因为没外网pip装whl确实麻烦) 1.先在每台机器安装anaconda3 2.把用户的~/.bashrc配置进 ...
RHadoop和CDH整合实例（三）- RHive
五. RHive的安装及测试 RHive依赖于Rserve,所有首先需要安装Rserve(在各个namenode上),接下来在所有节点上启动Rserve: > sudo R > insta ...
基于Spark2.x新闻网大数据实时分析可视化系统项目
本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位.全流程讲解大数据项目的业务分析.技术选型.架构设计.集群规划.安装部署.整合继承与开发和web可视化交互设计. 项目代码托管于gith ...
企业大数据CDH管理平台搭建方案
1 基本介绍 1.1 概述 Hadoop的发行版本有很多,有华为发行版,Intel发行版,Cloudera发行版(CDH),MapR版本,以及HortonWorks版本等.所有发行版都是基于Apach ...
cdh的集成phoenix安装_环境篇：Kylin3.0.1集成CDH6.2.0
环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析( ...
02搭建cdh版本控制
cdh版本控制 CDH安装包下载地址 http://archive.cloudera.com/cdh5/parcels/5.13.0/ Cloudera Manager下载地址 http://arch ...

最新文章

热门文章