Hive on Spark与SparkSql的区别

hive on spark大体与SparkSQL结构类似,只是SQL引擎不同,但是计算引擎都是spark!

核心代码

#初始化Spark SQL
#导入Spark SQL
from pyspark.sql import HiveContext,Row
# 当不能引入Hive依赖时
# from pyspark.sql import SQLContext,Row
# 注意,上面那一点才是关键的,他两来自于同一个包,你们区别能有多大hiveCtx = HiveContext(sc)   #创建SQL上下文环境
input = hiveCtx.jsonFile(inputFile)   #基本查询示例
input.registerTempTable("tweets")   #注册输入的SchemaRDD(SchemaRDD在Spark 1.3版本后已经改为DataFrame)
#依据retweetCount(转发计数)选出推文
topTweets = hiveCtx.sql("SELECT text,retweetCount FROM tweets ORDER BY retweetCount LIMIT 10")

结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序。而且大家的引擎都是spark
Hive和SparkSQL都不负责计算,它们只是告诉Spark,你需要这样算那样算,但是本身并不直接参与计算。
SparkSql官网:https://spark.apache.org/sql/
hive官网:http://hive.apache.org/index.html

面试会经常问的几个问题

1,spark需要hadoop么
可以不需要,只要可以读取到元数据就可以
2,spark能够代替hadoop么
不能,spark是用于计算的,hadoop可以计算和存储
3,spark需要hive么
可以不需要,只要metastore服务就行
4,spark on hive这种说法
这种说法是很不专业的,回答用上面的hive on spark和spark sql来回答

Hive on Spark与SparkSql的区别相关推荐

  1. Hive on Spark和Spark sql on Hive,你能分的清楚么

    摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...

  2. Hive on Spark VS Spark on Hive

    Hive on Spark VS Spark on Hive 两者概述 Hive on Spark Hive on Spark是由Cloudera发起,由Intel.MapR等公司共同参与的开源项目, ...

  3. SparkSQL Spark on Hive Hive on Spark

    刚开始接触Spark被Hive在Spark中的作用搞得云里雾里,这里简要介绍下,备忘. 参考:https://blog.csdn.net/zuochang_liu/article/details/82 ...

  4. 漫谈大数据 - Spark on Hive Hive on Spark

    目录 Spark on hive 与 Hive on Spark 的区别 Hive查询流程及原理 Hive将SQL转成MapReduce执行速度慢 Hive On Spark优化 Hive元数据库的功 ...

  5. 大数据培训之核心知识点Hbase、Hive、Spark和MapReduce的概念理解、特点及机制等

    今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...

  6. spark core、spark sql、spark streaming 联系与区别

    SparkCore 是做离线批处理 SparkSql 是做sql高级查询 SparkStreaming是做流式处理 SparkShell 是做交互式查询 区别: Spark Core : Spark的 ...

  7. 谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解

    谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解 spark.sql.shuffle.partitio ...

  8. spark sql合并小文件_如何比较Hive,Spark,Impala和Presto?

    Spark,Hive,Impala和Presto是基于SQL的引擎,Impala由Cloudera开发和交付.在选择这些数据库来管理数据库时,许多Hadoop用户会感到困惑.Presto是一个开放源代 ...

  9. Spark on Hive Hive on Spark傻傻分不清?

    Spark on Hive? Hive on Spark傻傻分不清? 1 spark on hive Spark on hive,是spark计算引擎依托hive data source,spark ...

最新文章

  1. python 动态编译代码_使用PyQt(Python+Qt)+动态编译36行代码实现的计算器
  2. 【转】android的startActivityForResult学习心得
  3. 大话设计模式C++版——装饰模式
  4. 好的,没事,失败是成功之母
  5. 8086CPU汇编:一般的标号与直接定址标号
  6. 深入理解DefaultMessageListenerContainer
  7. JAVA基础学习预科部分 (Markdown + dox)2021/2/22持续更新中
  8. Linux(debian7)操作基础(十四)之文本搜索命令grep使用方法
  9. linux 挂载ntfs格式硬盘
  10. 在 Perl 中利用 DOM 和 XPath 对 XML 进行有效处理
  11. Struts框架的工作原理
  12. spss假设检验_SPSS有序Logistic回归的具体操作——「杏花开生物医药统计」
  13. JS高级---函数中的this的指向,函数的不同调用方式
  14. 网页错误代码汇总(整理不易,用心记住)
  15. python中chr65_Python语句 print(chr(65))的运行结果是
  16. iOS 仿微信发送语音消息按钮 - 语音播放器(三)
  17. switch 求分段函数
  18. Adguard Home最低DNS处理时间配置
  19. Android Webview使用自定义字体加载网页
  20. 解决虚拟机启动黑屏无法进入系统

热门文章

  1. 隐含社交信任度和基于情感的方法的推荐系统
  2. 二-Java基础-作业-基础语法
  3. Linux命令解释之grep
  4. pymol安装教程linux,PyMOL | Pymol绘图教程(一)
  5. 修改android的wifi客户端名称的两种方法
  6. 解决NSTextContainer分页时文本截断问题
  7. AFNetWorking 之 网络请求的基本知识
  8. java中正则表达式截取字符串
  9. Linux下oracle em安装,关于在linux下手动安装oracle之后,安装em的问题
  10. windows 实验报告