Hive到SparkSql
1、SQLContext/HiveContext/SparkSession的使用
Spark1.x中SparkSql的入口点是:HiveContext
#sc is an existing SparkContext
Val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
Spark 2.x中SparkSql的入口点是:SparkSession
val spark = SparkSession.builder().appName(“Spark SQL basic example”).config(“spark.some.config.option”,”some-value’).getOrCreate()
2、spark-shell/spark-sql的使用
1)、添加hive-site.xml配置文件,添加到spark /conf文件夹下面
2)、--jars 传递mysql驱动包
3、查看执行计划
explain extended select a.key*(2+3),b.value from t a join t b on a.key = b.key and a.key >3
4、thrift server/beeline的使用
1)启动thrift server
2)启动beeline连接到thrfitserver
beeline -u jdbc:hive2://localhost:10000 -n hadoop
5、thrift server和普通的spark-shell/spark-sql有什么区别?
1)spark-shell、spark-sql都是一个spark application
2)thrift server,不管你启动多少个客户端(beeline/code),永远都是一个spark application 解决一个数据共享的问题,多个客户端可以共享数据
6、jdbc方式编程访问
1)、maven添加依赖:org.spark-project.hive#hive-jdbc
2)、开发代码访问thrift server
注意事项:在使用jdbc开发时,一定要先启动thriftserver
Hive到SparkSql相关推荐
- spark2.0.1安装部署及使用jdbc连接基于hive的sparksql
2019独角兽企业重金招聘Python工程师标准>>> 1.安装 如下配置,除了配置spark还配置了spark history服务 #先到http://spark.apache.o ...
- 全方位测评Hive、SparkSQL、Presto 等七个大数据查询引擎,最快的竟是……| 程序员硬核测评...
现在大数据组件非常多,众说不一,那么每个企业在不同的使用场景里究竟应该使用哪个引擎呢?易观Spark实战营团队选取了Hive.SparkSQL.Presto.Impala.HAWQ.ClickHous ...
- spark2.0 sql java_spark2.0.1安装部署及使用jdbc连接基于hive的sparksql
1.安装 如下配置,除了配置spark还配置了spark history服务 #先到http://spark.apache.org/根据自己的环境选择编译好的包,然后获取下载连接 cd /opt mk ...
- Hive与SparkSQL语法差异
一.相同函数差异 1.Spark运行时用到的hash函数,与Hive的哈希算法不同,如果使用hash(),结果和Hive的hash()会有差异 2.Hive和SparkSQL使用grouping se ...
- MR/hive/shark/sparkSQL
shark完全兼容hive,完全兼容MR,它把它们替代.类SQL查询,性能比hive高很多 sparkSQL比shark更快.shark严重依赖hive,hive慢,无法优化. SparkSQL和sh ...
- JAVA代码实现hive连接mysql_Java采用JDBC的方式连接Hive(SparkSQL)
前两天,由于系统的架构设计的原因,想通过Java直接访问Hive数据库,对于我这个Java以及Hadoop平台的菜鸟来说,的确是困难重重,不过,还好是搞定了.感觉也不是很麻烦.这篇文章,作为一个感想记 ...
- hive(spark-sql) -e -f -d以及传参数, sh并行
1.统计hive一个库下的表的个数 hive -e" use databases; show tables; --show tables like 'edw*'; "| grep ...
- hive:sparksql:针对反斜杠的正则替换问题
hive中如何替换反斜杠: select title from bo.t_positions where title rlike '\\\\' limit 10 替换后: select regexp_ ...
- hive和spark-sql计算stddev的结果差异
问题描述: 利用spark-sql得到了NaN的值,核对发现这些值都是关于stddev计算后得到的,但是在hive中查得为0.0. 使用的SQL代码为 selectphone , tour_ymd , ...
最新文章
- SAP QM 物料主数据QM视图里字段MARC-INSMK的更新
- Mac下安装PIL库
- android使用java library module时初始化OkHttpClient时报错 ClassDefNotFoundError之类的
- 【调试基础】Part 3 Window操作系统
- ASP.NET的SEO:使用.ashx文件——排除重复内容
- 期货与期权(part3)--期货合约和期权合约
- 操作系统时间片轮换_《操作系统_时间片轮转RR进程调度算法》
- leetcode343. 整数拆分(动态规划)
- Spring Boot整合MyBatis
- 类如何调用自己的私有成员_企业如何快速获取自己的私有领域流量?
- 数据结构之栈与递归的应用(八皇后递归解法)
- Kafka : kafka重启报错 ZkClient allready closed
- 20191126_1_电影票房分析
- python中bif是什么_python类与对象(BIF详细分析及实例讲解)
- 【Flash】关于Flash停止支持相关问题总结
- android 微信跨境支付,微信跨境支付已在超过49个境外国家和地区合规接入
- 猿创征文 |【算法入门必刷】数据结构-栈(五)
- 规则引擎Drools示例:个人所得税计算器、信用卡申请、保险产品准入规则
- 博力扬LED大屏专用光纤收发器千兆单模单纤兼容诺瓦灵星雨德普达中德等
- 纸的大小图解_常用纸张尺寸及示意图(A0,A1...A3,A4,A5...
热门文章
- cocos3.7.1 mac 创建项目
- zabbix如何监控WEB应用性能
- CSP认证	201312-4有趣的数[C++题解]:组合数、数学
- 《C和指针》读书笔记第一章快速上手
- java读取系统中指定的文件_java读取jar中指定的文件
- php设置key,phpstorm8 设置及license key
- 计算机及网络技术发展趋势,网络技术发展对计算机技术的影响
- MYSQL的地理信息数据库_国内为什么没有开源地理信息数据库?
- 不同的PCB混装方式及加工工艺
- 佩珀代因大学计算机科学专业,佩珀代因大学计算机科学与数学本科专业.pdf