hive on spark spark 安装配置

安装对应版本scala
spark和scala的版本需要匹配,不然安装后启动会报错
官网下载源码包
http://spark.apache.org/downloads.html

其他版本可以去https://archive.apache.org/dist/spark/下载
解压后修改pom.xml中对应的scala、Hadoop版本
去dev/make-distribution.sh修改对应版本号,编译时会快一点

改为:

下载之后在pom.xml目录点击git bash here使用git编译 编译过程会有点久
./dev/make-distribution.sh --name “hadoop321-without-hive” --tgz “-Pyarn,hadoop-provided,hadoop-3.2.1”
指定hadoop版本,不带hive编译
编译成功后会生成一个安装包

解压安装包后修改配置文件
cd $SPARK_HOME/conf
mv spark-env.sh.template spark-env.sh
mv spark-defaults.conf.template spark-defaults.conf
vim spark-env.sh

加上配置:
export JAVA_HOME=/opt/jdk1.8.0_181
export SCALA_HOME=/opt/scala-2.11.12
export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_LAUNCH_WITH_SCALA=0
export SPARK_MASTER_IP=10.241.19.7
export SPARK_LIBRARY_PATH=/opt/spark-2.4.4-bin-hadoop321-without-hive/lib

export SPARK_MASTER_WEBUI_PORT=8082
export SPARK_WORKER_DIR=/opt/spark-2.4.4-bin-hadoop321-without-hive/work

export SPARK_MASTER_PORT=7077
export SPARK_WORKER_PORT=7078
export SPARK_LOG_DIR=/opt/spark-2.4.4-bin-hadoop321-without-hive/log
export SPARK_PID_DIR=/opt/spark-2.4.4-bin-hadoop321-without-hive/run
export SPARK_DIST_CLASSPATH=$(/opt/hadoop/bin/hadoop classpath)

vim spark-defaults.conf
加上配置:
spark.master yarn-cluster
spark.home /opt/spark-2.4.4-bin-hadoop321-without-hive
spark.eventLog.enabled true
spark.eventLog.dir hdfs://10.××.××.7:9000/spark-log
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.executor.memory 2g
spark.driver.memory 2g
spark.executor.cores 2
spark.cores.max 2
spark.default.parallelism 36
spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers=“one two three”
spark.executor.extraClassPath /opt/spark-2.4.4-bin-hadoop321-without-hive/jars/*
spark.dirver.extraClassPath /opt/spark-2.4.4-bin-hadoop321-without-hive/jars/*

cd $SPARK_HOME/sbin
启动/停止 spark命令:
start-all.sh/stop.all.sh
访问 spark-env.sh配置的ui地址可以查看spark运行情况

然后再hive-site.xml 配置spark作为引擎
cd $HIVE_HOME/conf
vim hive-site.xml

<property><name>hive.execution.engine</name><value>spark</value>
</property>
<property><name>spark.master</name><value>spark://10.××.××.7:7077</value>
</property>
<property><name>spark.enentLog.enabled</name><value>true</value>
</property>
<property><name>spark.enentLog.dir</name><value>hdfs://10.××.××.7:9000/spark-log</value>
</property>
<property><name>spark.executor.memeory</name><value>2g</value>
</property>
<property><name>spark.executor.cores</name><value>2</value>
</property>
<property><name>spark.cores.max</name><value>2</value>
</property>```重启hive
netstat -nltp | grep 10000
netstat -nltp | grep 9083
kill -9 ********
hive --service metastore &
hiveserver2 &**默认没有参数直接指定使用多少个executor数。而是按照如下方式计算而来executor 数量 = spark.cores.max/spark.executor.cores****spark.cores.max 默认没有设置,这时它使用的是 spark.deploy.defaultCores,而这个的默认值是Int.max,也就是不限制,这样应用就会获取所有可用的CPU资源,****spark.executor.cores (适用于ON YARN和standalone模式) 可以指定每个executor的cup
这个配置在hive-site.xml中配置****如果spark.cores.max不配置,spark.executor.cores配置为1,机器cup总数16,连接一个hive使用spark时就会占用所有资源,其他连接会等待直至失败。**spark-env.sh的export SPARK_DIST_CLASSPATH=$(/opt/hadoop/bin/hadoop classpath)指定后 需要hadoop jar包时会去hadoop目录获取使用spark-submit的命令格式:
spark-submit --conf "spark.eventLog.enabled=true" --conf "spark.eventLog.dir=hdfs://10.××.××.7:9000/spark-log" --master spark://10.××.××.7:7077 /opt/spark-2.4.4-bin-hadoop321-without-hive/examples/src/main/python/pi.py开启spark的history-server
以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息;但该WEBUI随着Application的完成(成功/失败)而关闭,也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历史记录;
Spark运行在yarn或者mesos之上,通过spark的history server仍然可以重构出一个已经完成的Application的运行时参数信息(假如Application运行的事件日志信息已经记录下来)在spark-env.sh加上配置:
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.fs.logDirectory=hdfs://10.××.××.7:9000/spark-log"spark-defaults.conf加上配置:
spark.yarn.historyServer.address 10.××.××.7:18080
spark.history.ui.port           18080
spark.history.fs.logDirector     hdfs://10.××.××.7:9000/spark-log 注:该目录需要事先在hdfs上创建好,否则history-server启动报错
spark.yarn.preserve.staging.files true
spark.eventLog.enabled      true
spark.eventLog.dir          hdfs://10.××.××.7:9000/spark-log 启动命令:
${SPARK_HOME}/sbin/start-history-server.sh
停止命令:
${SPARK_HOME}/sbin/stop-history-server.sh
启动成功后就可以访问webui在spark history-server里面查看日志是会跳转到hadoop 的jobHistoryServer服务的,因此需要开启hadoop的jobHistoryServer服务才能查看日志。

hive on spark 安装配置 详解相关推荐

  1. zabbix安装配置详解(一)

    zabbix安装配置详解(一) 一.nginx安装 1.必要软件准备: 为了支持rewrite功能,我们需要安装pcre: #yum install pcre-* 需要ssl的支持,如果不需要ssl支 ...

  2. lvs keepalived 安装配置详解【转】

    lvs keepalived 安装配置详解 张映 发表于 2012-06-20 分类目录: 服务器相关 前段时间看了一篇文章,lvs做负载均衡根F5差不多,说实话不怎么相信,因为F5没玩过,也无法比较 ...

  3. redis cluster 集群 安装 配置 详解

    redis cluster 集群 安装 配置 详解 张映 发表于 2015-05-01 分类目录: nosql 标签:cluster, redis, 安装, 配置, 集群 Redis 集群是一个提供在 ...

  4. Python3 环境搭建、pycharm安装配置详解、新建Python项目(新手小白版Windows系统)

    Python3 环境搭建 .pycharm安装配置详解 window系统上环境搭建: 一.环境搭建,下载Python (Python 3.8为例) 二.pycharm的下载与安装 window系统上环 ...

  5. 使用LVS实现负载均衡原理及安装配置详解

    使用LVS实现负载均衡原理及安装配置详解 负载均衡集群是 load balance 集群的简写,翻译成中文就是负载均衡集群.常用的负载均衡开源软件有nginx.lvs.haproxy,商业的硬件负载均 ...

  6. 深入分析redis cluster 集群安装配置详解

    Redis 集群是一个提供在多个Redis间节点间共享数据的程序集.redis3.0以前,只支持主从同步的,如果主的挂了,写入就成问题了.3.0出来后就可以很好帮我们解决这个问题. 目前redis 3 ...

  7. Burp Suite安装配置详解(附Java 环境安装)

    Burp Suite安装配置详解 1.Java 安装与环境配置详解 1.0 下载Java SDK 1.8 最新版 2.0 配置Java 环境变量 2.Burp Suite 安装详解 2.0 下载Bur ...

  8. 硬实时RTLinux安装配置详解 (一):准备工作

    更多技术干货,欢迎扫码关注博主微信公众号:HowieXue,一起学习探讨软硬件技术知识经验,关注就有海量学习资料免费领哦: 硬实时RTlinux系统配置 1. Linux内核下载 2. 下载与Linu ...

  9. 硬实时RTLinux安装配置详解 (二):编译运行RTLinux

    硬实时RTlinux系统配置 4. 配置RTLinux 4.1 配置Patch 4.2 配置RTLinux内核 4.3. 编译Rtlinux内核 4.4 制作initramfs启动引导: 5. 大功告 ...

  10. Linux安装消息队列IBM MQ 7.5开发版安装配置详解

    消息队列IBM MQ 7.5开发版安装配置详解 文章目录 消息队列IBM MQ 7.5开发版安装配置详解 前言 一.什么是IBM MQ? 二.安装前准备 1.安装前准备 2.安装MQ Server 3 ...

最新文章

  1. SQL SERVER中什么情况会导致索引查找变成索引扫描
  2. Nagios监控Dell服务器硬件状态
  3. 报错Submitted credentials for token did not match the expected credentials
  4. C# 去除文件或 文件夹只读属性
  5. 使用Dozer框架进行Bean操作
  6. emlog链接html,emlog如何做站内外链跳转优化教程
  7. 【 POJ - 2033 】Alphacode (dp,有坑)
  8. LDAP-轻量级目录访问协议(统一认证)
  9. 《实施Cisco统一通信管理器(CIPT1)》一2.2 CUCM:单站点部署模型
  10. 国网376.1协议报文地址域
  11. 部署外网网站(一)——内网穿透实现外网访问
  12. 遍历文件夹将dicom文件转换为nifty文件
  13. 手把手教你搭建使用NuGet私有源
  14. ASEMI线性稳压电源芯片AMS1117-3.3参数及接线电路图
  15. 雷鸟电视卸载自带应用和开机广告+停用自动更新
  16. html需要电脑什么配置,买电脑主要看什么配置和参数
  17. Mybatis使用Druid连接池
  18. java hash取模,一致性hash算法及其java实现
  19. 《花开半夏》--二十一岁·在一起
  20. LabWindows/CVI线程操作

热门文章

  1. 计算机地图制图的点状符号制作,计算机地图制图地图符号库系统建立全解.doc...
  2. 吾爱破解论坛2021年11月11日,光棍节免费开放注册
  3. 各种激活破解工具一览
  4. excel易用宝的修复
  5. Jtag接口定义及含义
  6. ppapi获取html,在HTML中给PPAPI插件配置参数
  7. php led显示屏控制软件下载,中航led控制软件
  8. LintCode 38: Search a 2D Matrix II
  9. WIN10系统下命令提示符(cmd)的基本操作
  10. IntelliJ IDEA 使用教程 -- 从入门到上瘾