首先启动spark-shell:
命令:spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.35.jar --driver-class-path /home/iie4bu/software/mysql-connector-java-5.1.35.jar
查看当前有哪些表:
spark.sql("show tables").show,结果如下:

查询sal表:

按照customerid进行统计,然后获取出不是空的customerid:
scala> spark.sql("select customerid,count(1) from sal group by customerid").filter("customerid is not null").show

将查询结果再保存到Hive中

命令:scala> spark.sql("select customerid,count(1) from sal group by customerid").filter("customerid is not null").write.saveAsTable("hive_table_1"),报错信息:

需要修改成:scala> spark.sql("select customerid,count(1) as mount from sal group by customerid").filter("customerid is not null").write.saveAsTable("hive_table_1")
这样查询表就可以看到刚创建的表了:

浏览器中查看

我们在浏览器中查看刚才的作业:ip:4040


200表示配置分区的数量。
这个值可以手动进行配置:
sparksession.sqlContext.setConf("spark.sql.shuffle.partitions", "10")

然后执行上面的保存成表的操作:
scala> spark.sql("select customerid,count(1) as mount from sal group by customerid").filter("customerid is not null").write.saveAsTable("hive_table_2")
这时再查看看浏览器,发现分区是10了

因此在生产环境中,注意设置这个值,默认是200

SparkSQL之操作Hive相关推荐

  1. SparkSQL操作Hive

    title: SparkSQL操作Hive date: 2020-05-12 16:12:55 tags: Spark Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL ...

  2. python读取oracle数据到hvie parquet_关于sparksql操作hive,读取本地csv文件并以parquet的形式装入hive中...

    说明:spark版本:2.2.0 hive版本:1.2.1 需求: 有本地csv格式的一个文件,格式为${当天日期}visit.txt,例如20180707visit.txt,现在需要将其通过spar ...

  3. idea sparksql操作hive遇到的坑CoarseGrainedSchedulerBackend$DriverEndpoint: Asked to remove non-existent ex

    sparksql操作hive遇到的坑 第一次写sparksql项目想用sparksql操作hive查询数据就找到了百度代码做参考[idea工具开发] 代码如下: import org.apache.s ...

  4. SparkSQL Spark on Hive Hive on Spark

    刚开始接触Spark被Hive在Spark中的作用搞得云里雾里,这里简要介绍下,备忘. 参考:https://blog.csdn.net/zuochang_liu/article/details/82 ...

  5. Spark采坑系列(三)Spark操作Hive的坑

    2019独角兽企业重金招聘Python工程师标准>>> 跟着教学试着用Idea编程,实现Spark查询Hive中的表.结果上来就凉了. 捣鼓好久都不行,在网上查有说将hive-sit ...

  6. spark2.2读写操作hive和mysql数据库

    2019独角兽企业重金招聘Python工程师标准>>> sparksession操作hive数据库 1.需要将core-site.xml,hdfs-site.xml,hive-sit ...

  7. python数据导入hive_Python操作HIve,将数据插入到Mysql

    Python操作HIve,将数据插入到Mysql import sys from hive_service import ThriftHive from hive_service.ttypes imp ...

  8. Hive的安装和使用以及Java操作hive

    Hive 引言 简介 hive是facebook开源,并捐献给了apache组织,作为apache组织的顶级项目(hive.apache.org). hive是一个基于大数据技术的数据仓库(DataW ...

  9. Spark操作Hive分区表

    前言 Spark操作Hive表可谓是异常的方便和简单,这里根据官网简单的总结一下Spark操作Hive分区表 完美的处理处理方式 // 开启Hive动态分区 spark.sqlContext.setC ...

最新文章

  1. float向u8和s8的转换
  2. 从地心到宇宙,再到治疗癌症与“赋灵”智能,这届腾讯WE都聊了些啥?
  3. 俞岳:IBM SmartCloud 的技术架构和开发实践
  4. 一个字稳,云原生产品家族支撑冬奥会九大业务场景,打造云上奥运新体验
  5. 2018 年,你可以把论文投给这 13 场 AI 学术会议(附截稿日期)
  6. 深圳本地网店代运营公司
  7. 用函数刷新页面内容比刷新页面要好
  8. birt报表模板只打印了第一行_财务系统全套表格模板201个!成为同事眼中的红人!低调分享...
  9. svm分类代码_SVM的原理及实现垃圾邮件分类代码解析:
  10. java补码运算代码_计算机原码、补码、反码与java移位运算符(//)
  11. 一款响应式的(电子报)Newsletter 模板 – Antwort
  12. android NDK安装
  13. 从零到卓越:京东客服即时通讯系统的技术架构演进历程(转)
  14. GB2312编码规则与代码实现
  15. 用Python学《微积分B》(单调性与极值,凸性与拐点)
  16. 微信、app、电脑更新缓存总结
  17. 企业招聘普遍年龄35岁以下,那全国人过40岁都干什么去了?
  18. “毒舌”专家解析大数据应用案例Part1—高德交通大数据应用
  19. 【HTML5】基础教程
  20. tpc服务器做系统,tpc-c对应服务器配置

热门文章

  1. 液相色谱柱PHP,C18液相色谱柱 - 食品仪器分析 - 食品论坛 - Powered by Discuz!
  2. Mysql 常用函数(19)- mod 函数
  3. 以太主义的创始人维塔利克·布特林(Vitalik嫩模 Butlin)被称为“V神”
  4. golang学习之旅:使用go语言操作mysql数据库(自己测试了)
  5. Go的Ducktype
  6. PHP的pathinfo()
  7. php中如何让这段东西不显示出来,数据显示处理,该怎么处理
  8. 成熟的 Git 分支模型
  9. JS中的call()方法和apply()方法和slice()用法总结
  10. 4个变量取最大值 c++_DNF:安徒恩上线服务器爆满,甲板上全是火山C,通关翻出4个金牌...