Hive on Spark与SparkSql的区别
Hive on Spark与SparkSql的区别
hive on spark大体与SparkSQL结构类似,只是SQL引擎不同,但是计算引擎都是spark!
核心代码
#初始化Spark SQL
#导入Spark SQL
from pyspark.sql import HiveContext,Row
# 当不能引入Hive依赖时
# from pyspark.sql import SQLContext,Row
# 注意,上面那一点才是关键的,他两来自于同一个包,你们区别能有多大hiveCtx = HiveContext(sc) #创建SQL上下文环境
input = hiveCtx.jsonFile(inputFile) #基本查询示例
input.registerTempTable("tweets") #注册输入的SchemaRDD(SchemaRDD在Spark 1.3版本后已经改为DataFrame)
#依据retweetCount(转发计数)选出推文
topTweets = hiveCtx.sql("SELECT text,retweetCount FROM tweets ORDER BY retweetCount LIMIT 10")
结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序。而且大家的引擎都是spark
Hive和SparkSQL都不负责计算,它们只是告诉Spark,你需要这样算那样算,但是本身并不直接参与计算。
SparkSql官网:https://spark.apache.org/sql/
hive官网:http://hive.apache.org/index.html
面试会经常问的几个问题
1,spark需要hadoop么
可以不需要,只要可以读取到元数据就可以
2,spark能够代替hadoop么
不能,spark是用于计算的,hadoop可以计算和存储
3,spark需要hive么
可以不需要,只要metastore服务就行
4,spark on hive这种说法
这种说法是很不专业的,回答用上面的hive on spark和spark sql来回答
Hive on Spark与SparkSql的区别相关推荐
- Hive on Spark和Spark sql on Hive,你能分的清楚么
摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...
- Hive on Spark VS Spark on Hive
Hive on Spark VS Spark on Hive 两者概述 Hive on Spark Hive on Spark是由Cloudera发起,由Intel.MapR等公司共同参与的开源项目, ...
- SparkSQL Spark on Hive Hive on Spark
刚开始接触Spark被Hive在Spark中的作用搞得云里雾里,这里简要介绍下,备忘. 参考:https://blog.csdn.net/zuochang_liu/article/details/82 ...
- 漫谈大数据 - Spark on Hive Hive on Spark
目录 Spark on hive 与 Hive on Spark 的区别 Hive查询流程及原理 Hive将SQL转成MapReduce执行速度慢 Hive On Spark优化 Hive元数据库的功 ...
- 大数据培训之核心知识点Hbase、Hive、Spark和MapReduce的概念理解、特点及机制等
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...
- spark core、spark sql、spark streaming 联系与区别
SparkCore 是做离线批处理 SparkSql 是做sql高级查询 SparkStreaming是做流式处理 SparkShell 是做交互式查询 区别: Spark Core : Spark的 ...
- 谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解
谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解 spark.sql.shuffle.partitio ...
- spark sql合并小文件_如何比较Hive,Spark,Impala和Presto?
Spark,Hive,Impala和Presto是基于SQL的引擎,Impala由Cloudera开发和交付.在选择这些数据库来管理数据库时,许多Hadoop用户会感到困惑.Presto是一个开放源代 ...
- Spark on Hive Hive on Spark傻傻分不清?
Spark on Hive? Hive on Spark傻傻分不清? 1 spark on hive Spark on hive,是spark计算引擎依托hive data source,spark ...
最新文章
- python 动态编译代码_使用PyQt(Python+Qt)+动态编译36行代码实现的计算器
- 【转】android的startActivityForResult学习心得
- 大话设计模式C++版——装饰模式
- 好的,没事,失败是成功之母
- 8086CPU汇编:一般的标号与直接定址标号
- 深入理解DefaultMessageListenerContainer
- JAVA基础学习预科部分 (Markdown + dox)2021/2/22持续更新中
- Linux(debian7)操作基础(十四)之文本搜索命令grep使用方法
- linux 挂载ntfs格式硬盘
- 在 Perl 中利用 DOM 和 XPath 对 XML 进行有效处理
- Struts框架的工作原理
- spss假设检验_SPSS有序Logistic回归的具体操作——「杏花开生物医药统计」
- JS高级---函数中的this的指向,函数的不同调用方式
- 网页错误代码汇总(整理不易,用心记住)
- python中chr65_Python语句 print(chr(65))的运行结果是
- iOS 仿微信发送语音消息按钮 - 语音播放器(三)
- switch 求分段函数
- Adguard Home最低DNS处理时间配置
- Android Webview使用自定义字体加载网页
- 解决虚拟机启动黑屏无法进入系统