hive on spark 安装配置 详解
hive on spark spark 安装配置
安装对应版本scala
spark和scala的版本需要匹配,不然安装后启动会报错
官网下载源码包
http://spark.apache.org/downloads.html
其他版本可以去https://archive.apache.org/dist/spark/下载
解压后修改pom.xml中对应的scala、Hadoop版本
去dev/make-distribution.sh修改对应版本号,编译时会快一点
改为:
下载之后在pom.xml目录点击git bash here使用git编译 编译过程会有点久
./dev/make-distribution.sh --name “hadoop321-without-hive” --tgz “-Pyarn,hadoop-provided,hadoop-3.2.1”
指定hadoop版本,不带hive编译
编译成功后会生成一个安装包
解压安装包后修改配置文件
cd $SPARK_HOME/conf
mv spark-env.sh.template spark-env.sh
mv spark-defaults.conf.template spark-defaults.conf
vim spark-env.sh
加上配置:
export JAVA_HOME=/opt/jdk1.8.0_181
export SCALA_HOME=/opt/scala-2.11.12
export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_LAUNCH_WITH_SCALA=0
export SPARK_MASTER_IP=10.241.19.7
export SPARK_LIBRARY_PATH=/opt/spark-2.4.4-bin-hadoop321-without-hive/lib
export SPARK_MASTER_WEBUI_PORT=8082
export SPARK_WORKER_DIR=/opt/spark-2.4.4-bin-hadoop321-without-hive/work
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_PORT=7078
export SPARK_LOG_DIR=/opt/spark-2.4.4-bin-hadoop321-without-hive/log
export SPARK_PID_DIR=/opt/spark-2.4.4-bin-hadoop321-without-hive/run
export SPARK_DIST_CLASSPATH=$(/opt/hadoop/bin/hadoop classpath)
vim spark-defaults.conf
加上配置:
spark.master yarn-cluster
spark.home /opt/spark-2.4.4-bin-hadoop321-without-hive
spark.eventLog.enabled true
spark.eventLog.dir hdfs://10.××.××.7:9000/spark-log
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.executor.memory 2g
spark.driver.memory 2g
spark.executor.cores 2
spark.cores.max 2
spark.default.parallelism 36
spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers=“one two three”
spark.executor.extraClassPath /opt/spark-2.4.4-bin-hadoop321-without-hive/jars/*
spark.dirver.extraClassPath /opt/spark-2.4.4-bin-hadoop321-without-hive/jars/*
cd $SPARK_HOME/sbin
启动/停止 spark命令:
start-all.sh/stop.all.sh
访问 spark-env.sh配置的ui地址可以查看spark运行情况
然后再hive-site.xml 配置spark作为引擎
cd $HIVE_HOME/conf
vim hive-site.xml
<property><name>hive.execution.engine</name><value>spark</value>
</property>
<property><name>spark.master</name><value>spark://10.××.××.7:7077</value>
</property>
<property><name>spark.enentLog.enabled</name><value>true</value>
</property>
<property><name>spark.enentLog.dir</name><value>hdfs://10.××.××.7:9000/spark-log</value>
</property>
<property><name>spark.executor.memeory</name><value>2g</value>
</property>
<property><name>spark.executor.cores</name><value>2</value>
</property>
<property><name>spark.cores.max</name><value>2</value>
</property>```重启hive
netstat -nltp | grep 10000
netstat -nltp | grep 9083
kill -9 ********
hive --service metastore &
hiveserver2 &**默认没有参数直接指定使用多少个executor数。而是按照如下方式计算而来executor 数量 = spark.cores.max/spark.executor.cores****spark.cores.max 默认没有设置,这时它使用的是 spark.deploy.defaultCores,而这个的默认值是Int.max,也就是不限制,这样应用就会获取所有可用的CPU资源,****spark.executor.cores (适用于ON YARN和standalone模式) 可以指定每个executor的cup
这个配置在hive-site.xml中配置****如果spark.cores.max不配置,spark.executor.cores配置为1,机器cup总数16,连接一个hive使用spark时就会占用所有资源,其他连接会等待直至失败。**spark-env.sh的export SPARK_DIST_CLASSPATH=$(/opt/hadoop/bin/hadoop classpath)指定后 需要hadoop jar包时会去hadoop目录获取使用spark-submit的命令格式:
spark-submit --conf "spark.eventLog.enabled=true" --conf "spark.eventLog.dir=hdfs://10.××.××.7:9000/spark-log" --master spark://10.××.××.7:7077 /opt/spark-2.4.4-bin-hadoop321-without-hive/examples/src/main/python/pi.py开启spark的history-server
以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息;但该WEBUI随着Application的完成(成功/失败)而关闭,也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历史记录;
Spark运行在yarn或者mesos之上,通过spark的history server仍然可以重构出一个已经完成的Application的运行时参数信息(假如Application运行的事件日志信息已经记录下来)在spark-env.sh加上配置:
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.fs.logDirectory=hdfs://10.××.××.7:9000/spark-log"spark-defaults.conf加上配置:
spark.yarn.historyServer.address 10.××.××.7:18080
spark.history.ui.port 18080
spark.history.fs.logDirector hdfs://10.××.××.7:9000/spark-log 注:该目录需要事先在hdfs上创建好,否则history-server启动报错
spark.yarn.preserve.staging.files true
spark.eventLog.enabled true
spark.eventLog.dir hdfs://10.××.××.7:9000/spark-log 启动命令:
${SPARK_HOME}/sbin/start-history-server.sh
停止命令:
${SPARK_HOME}/sbin/stop-history-server.sh
启动成功后就可以访问webui在spark history-server里面查看日志是会跳转到hadoop 的jobHistoryServer服务的,因此需要开启hadoop的jobHistoryServer服务才能查看日志。
hive on spark 安装配置 详解相关推荐
- zabbix安装配置详解(一)
zabbix安装配置详解(一) 一.nginx安装 1.必要软件准备: 为了支持rewrite功能,我们需要安装pcre: #yum install pcre-* 需要ssl的支持,如果不需要ssl支 ...
- lvs keepalived 安装配置详解【转】
lvs keepalived 安装配置详解 张映 发表于 2012-06-20 分类目录: 服务器相关 前段时间看了一篇文章,lvs做负载均衡根F5差不多,说实话不怎么相信,因为F5没玩过,也无法比较 ...
- redis cluster 集群 安装 配置 详解
redis cluster 集群 安装 配置 详解 张映 发表于 2015-05-01 分类目录: nosql 标签:cluster, redis, 安装, 配置, 集群 Redis 集群是一个提供在 ...
- Python3 环境搭建、pycharm安装配置详解、新建Python项目(新手小白版Windows系统)
Python3 环境搭建 .pycharm安装配置详解 window系统上环境搭建: 一.环境搭建,下载Python (Python 3.8为例) 二.pycharm的下载与安装 window系统上环 ...
- 使用LVS实现负载均衡原理及安装配置详解
使用LVS实现负载均衡原理及安装配置详解 负载均衡集群是 load balance 集群的简写,翻译成中文就是负载均衡集群.常用的负载均衡开源软件有nginx.lvs.haproxy,商业的硬件负载均 ...
- 深入分析redis cluster 集群安装配置详解
Redis 集群是一个提供在多个Redis间节点间共享数据的程序集.redis3.0以前,只支持主从同步的,如果主的挂了,写入就成问题了.3.0出来后就可以很好帮我们解决这个问题. 目前redis 3 ...
- Burp Suite安装配置详解(附Java 环境安装)
Burp Suite安装配置详解 1.Java 安装与环境配置详解 1.0 下载Java SDK 1.8 最新版 2.0 配置Java 环境变量 2.Burp Suite 安装详解 2.0 下载Bur ...
- 硬实时RTLinux安装配置详解 (一):准备工作
更多技术干货,欢迎扫码关注博主微信公众号:HowieXue,一起学习探讨软硬件技术知识经验,关注就有海量学习资料免费领哦: 硬实时RTlinux系统配置 1. Linux内核下载 2. 下载与Linu ...
- 硬实时RTLinux安装配置详解 (二):编译运行RTLinux
硬实时RTlinux系统配置 4. 配置RTLinux 4.1 配置Patch 4.2 配置RTLinux内核 4.3. 编译Rtlinux内核 4.4 制作initramfs启动引导: 5. 大功告 ...
- Linux安装消息队列IBM MQ 7.5开发版安装配置详解
消息队列IBM MQ 7.5开发版安装配置详解 文章目录 消息队列IBM MQ 7.5开发版安装配置详解 前言 一.什么是IBM MQ? 二.安装前准备 1.安装前准备 2.安装MQ Server 3 ...
最新文章
- SQL SERVER中什么情况会导致索引查找变成索引扫描
- Nagios监控Dell服务器硬件状态
- 报错Submitted credentials for token did not match the expected credentials
- C# 去除文件或 文件夹只读属性
- 使用Dozer框架进行Bean操作
- emlog链接html,emlog如何做站内外链跳转优化教程
- 【 POJ - 2033 】Alphacode (dp,有坑)
- LDAP-轻量级目录访问协议(统一认证)
- 《实施Cisco统一通信管理器(CIPT1)》一2.2 CUCM:单站点部署模型
- 国网376.1协议报文地址域
- 部署外网网站(一)——内网穿透实现外网访问
- 遍历文件夹将dicom文件转换为nifty文件
- 手把手教你搭建使用NuGet私有源
- ASEMI线性稳压电源芯片AMS1117-3.3参数及接线电路图
- 雷鸟电视卸载自带应用和开机广告+停用自动更新
- html需要电脑什么配置,买电脑主要看什么配置和参数
- Mybatis使用Druid连接池
- java hash取模,一致性hash算法及其java实现
- 《花开半夏》--二十一岁·在一起
- LabWindows/CVI线程操作
热门文章
- 计算机地图制图的点状符号制作,计算机地图制图地图符号库系统建立全解.doc...
- 吾爱破解论坛2021年11月11日,光棍节免费开放注册
- 各种激活破解工具一览
- excel易用宝的修复
- Jtag接口定义及含义
- ppapi获取html,在HTML中给PPAPI插件配置参数
- php led显示屏控制软件下载,中航led控制软件
- LintCode 38: Search a 2D Matrix II
- WIN10系统下命令提示符(cmd)的基本操作
- IntelliJ IDEA 使用教程 -- 从入门到上瘾