Shark是构建在Spark和Hive基础之上的数据仓库。 目前,Shark已经完成学术使命,终止开发,但其架构和原理仍具有借鉴意义。 它提供了能够查询Hive中所存储数据的一套SQL接口,兼容现有的Hive QL语法。 这样,熟悉Hive QL或者SQL的用户可以基于Shark进行快速的Ad-Hoc、 Reporting等类型的SQL查询。 Shark底层复用Hive的解析器、 优化器以及元数据存储和序列化接口。 Shark会将Hive QL编译转化为一组Spark任务,进行分布式运算。

本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/5723914.html,如需转载请自行联系原作者

Spark SQL概念学习系列之Spark Shark是什么?相关推荐

  1. Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l&qu ...

  2. Spark SQL and DataFrame for Spark 1.3

    Spark SQL and DataFrame Guide 启动Start Shell [jifeng@feng03 spark-1.3.0-bin-hadoop2.4]$ ./bin/spark-s ...

  3. 谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解

    谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解 spark.sql.shuffle.partitio ...

  4. spark SQL学习(认识spark SQL)

    spark SQL初步认识 spark SQL是spark的一个模块,主要用于进行结构化数据的处理.它提供的最核心的编程抽象就是DataFrame. DataFrame:它可以根据很多源进行构建,包括 ...

  5. Spark中的spark.sql.shuffle.partitions 和spark.default.parallelism参数设置默认partition数目

    当不跟随父对象partition数目的shuffle过程发生后,结果的partition会发生改变,这两个参数就是控制这类shuffle过程后,返回对象的partition的 经过实测,得到结论: s ...

  6. spark.sql.shuffle.partitions 和 spark.default.parallelism 的区别

    在关于spark任务并行度的设置中,有两个参数我们会经常遇到,spark.sql.shuffle.partitions 和 spark.default.parallelism, 那么这两个参数到底有什 ...

  7. Spark RDD概念学习系列之rdd持久化、广播、累加器(十八)

    1.rdd持久化 2.广播 3.累加器 1.rdd持久化 通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/loca ...

  8. Spark入门实战系列--1.Spark及其生态圈简介

    1.简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架.Spark在2013年 ...

  9. Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-d ...

最新文章

  1. python数据导入一个列表_Python基础数据类型list 列表
  2. Android中使用running services查看service进程内存
  3. 关于两个jar包中存在包名和类名都完全相同的jar包冲突问题
  4. 219. 单页应用 会话管理(session、cookie、jwt)
  5. 普通大学生的 Java 开发能力到什么水平才能进大厂?
  6. 2018年3月计算机二级考试题,2018年3月计算机二级考试Access综合试题十
  7. (转)unity web 缓存解决方案
  8. dbcc 删除日志_有用的DBCC日志命令
  9. Spring的开幕式——Spring概述与设计思想
  10. Mybatis拦截器
  11. 基于python的多光谱影像植被指数计算
  12. OTSU算法 (大津算法)理解代码
  13. apk反编译教程+工具
  14. EndNote X9破解之后遇到的问题
  15. java找不到主类错误的原因_java错误:找不到或无法加载主类的原因与解决方法...
  16. 发展5G通信,测试先行
  17. ida的一些工具下载
  18. 数学,离一个程序员有多近?
  19. 艾伟:一个让人遗忘的角落--Exception(一)
  20. 在Follow5 开围脖了

热门文章

  1. 生成的url无法显示_快速生成PDF文档~~
  2. linux是不是显示不了中文版,Linux为什么OpenOffice下不能显示中文
  3. oracle表的管理,Oracle表的管理
  4. gispython定义查询_Python与开源GIS:SpatiaLite 中的基本SQL数据库查询用法
  5. php作业制作htm,PHP作业-HTML-2020-09-28
  6. android音量加减驱动,android下调试声卡驱动之概述
  7. object.__比较运算__
  8. `object.__new__`应用
  9. Element menu
  10. C语言把浮点数转换为字符串