spark-sql(spark sql cli)客户端集成hive
1、安装hadoop集群
参考:http://www.cnblogs.com/wcwen1990/p/6739151.html
2、安装hive
参考:http://www.cnblogs.com/wcwen1990/p/6757240.html
3、安装配置spark
编译spark:http://www.cnblogs.com/wcwen1990/p/7688027.html
部署参考:http://www.cnblogs.com/wcwen1990/p/6889521.html
4、spark-sql集成hive
拷贝hdfs-site.xml、hive-site.xml配置文件到spark conf/目录下:
$ cp /opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/conf/hive-site.xml .
$ cp /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop/hdfs-site.xml .
5、启动spark-sql
$ bin/spark-sql --master local[2]
启动之后可以在shell客户端进行交互式HQL访问hive数据库了。
6、测试:
spark-sql (default)> show databases;
... ...
result
chavin
default
... ...
spark-sql (default)> select * from chavin.dept;
... ...
deptno dname loc
10 ACCOUNTING NEW YORK
20 RESEARCH DALLAS
30 SALES CHICAGO
40 OPERATIONS BOSTON
Time taken: 0.378 seconds, Fetched 4 row(s)
... ...
spark-sql(spark sql cli)客户端集成hive相关推荐
- carbondate mysql_CarbonData集成Hive、Spark
硬件准备: 系统:CentOS 7.6(1810) CPU:4核 内存:16G 软件准备: 注意: 在carbondata-1.6.1中,有组件版本限制,具体为: hadoop支持到2.7.2 hiv ...
- [Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子 $ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive ...
- Hive on Spark和Spark sql on Hive,你能分的清楚么
摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...
- Apache Spark 3.0 SQL DataFrame和DataSet指南
目录 简介 SQL 数据集和数据框 入门 起点:SparkSession Scala语言 Java语言 Python语言 R语言 创建DataFrame Scala语言 Java语言 Python语言 ...
- 大数据入门之分布式计算框架Spark(2) -- Spark SQL
1.Spark SQL概述 一个运行在Spark上执行sql的处理框架,可以用来处理结构化的数据[外部数据源(访问hive.json.parquet等文件的数据)]. Spark SQL提供了SQL的 ...
- 大数据Hadoop之——Spark SQL+Spark Streaming
文章目录 一.Spark SQL概述 二.SparkSQL版本 1)SparkSQL的演变之路 2)shark与SparkSQL对比 3)SparkSession 三.RDD.DataFrames和D ...
- 【Spark】Spark SQL, DataFrames and Datasets Guide(翻译文,持续更新)
本文主要是翻译Spark官网Spark SQL programming guide .只能保证大概意思,尽量保证细节.英文水平有限,如果有错误的地方请指正,轻喷.目录导航在右上角 Spark SQL. ...
- 【阿里云EMR实战篇】以EMR测试集群版本为例,详解 Flink SQL Client 集成 Hive 使用步骤
简介: 以测试集群版本为例(EMR-4.4.1)-- Flink SQL Client 集成 Hive 使用文档 作者:林志成,阿里云EMR产品团队技术支持,拥有多年开源大数据经验 1.以测试集群版本 ...
- Spark SQL之SQL优化
Spark SQL之SQL优化 主要关注于执行性能问题 1.避免使用不必要的UDF函数 UDF:用户定义函数,可以直接在SQL语句中计算的函数,如:count.sum.avg.max.min等 2.没 ...
- Spark操作外部数据源(RDBMS,Hive,HBase,Parquet)
文章目录 一.Spark SQL 二.Spark on Hive 三.Hive on Spark 四.Spark读取Parquet文件 五.Spark连接HBase 1.Maven工程添加依赖 2.代 ...
最新文章
- python文件输入和输出
- java后台访问接口
- 010_html事件属性
- 进程与线程的区别:最浅显易懂的解释
- MS SQLService中的*= 及 =*
- BugkuCTF-WEB题文件包含
- string中c_str()用法总结
- 应届生想要获取web前端开发岗位?这份技能攻略,面试攻略别错过
- linux下安装配置laravel环境,linux下的laravel安装
- python中pop类型_Python基础之基本数据类型
- #9733;如何解释特修斯之船问题?
- python学习笔记6---数据解析
- linux dkms,DKMS简介
- 十年感悟之 python之路
- flv.js视频播放库基本用法
- BDD100K:大规模、多样化的驾驶视频数据集
- 秒懂Retrofit2之GsonConverter
- 什么是API,开发人员该如何使用它们?
- linux nas目录老是掉,Linux运维:NAS存储故障案例
- Java —— 内存泄露排查