一:Spark SQL的简介

Spark SQL是Spark处理数据的一个模块,跟基本的Spark RDD的API不同,Spark SQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。其本质是,Spark SQL使用这些额外的信息去执行额外的优化,这儿有几种和Spark SQL进行交互的方法,包括SQL和Dataset API,当使用相同的执行引擎时,API或其它语言对于计算的表达都是相互独立的,这种统一意味着开发人员可以轻松地在不同的API之间进行切换。

二:Spark SQL的作用

Spark SQL的一大用处就是执行SQL查询语句,Spark SQL也可以用来从Hive中读取数据,当我们使用其它编程语言来运行一个SQL语句,结果返回的是一个Dataset或者DataFrame.你可以使用命令行,JDBC或者ODBC的方式来与SQL进行交互

三:Spark SQL的特点

官网上第一句话:**Spark SQL is Apache Spark’s module for working with structured data. **
Spark SQL是Apache Spark处理结构化数据的模块
官网地址:https://spark.apache.org/sql/

集成
无缝地将SQL查询与Spark程序混合。
Spark SQL允许您使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。适用于Java、Scala、Python和R语言。


统一的数据访问
以相同的方式连接到任何数据源。
DataFrames和SQL提供了一种访问各种数据源的通用方法,包括Hive、Avro、Parquet、ORC、JSON和JDBC。您甚至可以通过这些源连接数据。


蜂巢集成
在现有仓库上运行SQL或HiveQL查询。
Spark SQL支持HiveQL语法以及Hive SerDes和udf,允许您访问现有的Hive仓库。


标准的连接
通过JDBC或ODBC连接。
服务器模式为业务智能工具提供了行业标准JDBC和ODBC连接。

四:总结

查询结构化数据
适用于各种语言
以相同的方式连接到任何数据源。
访问现有的Hive仓库
标准的连接

Spark SQL介绍和特点相关推荐

  1. Spark SQL玩起来

    标签(空格分隔): Spark [toc] 前言 Spark SQL的介绍只包含官方文档的Getting Started.DataSource.Performance Tuning和Distribut ...

  2. spark sql基本使用方法介绍(转载)

    spark sql基本使用方法介绍 Spark中可以通过spark sql 直接查询Hive或impala中的数据, 一.启动方法 /data/spark-1.4.0-bin-cdh4/bin/spa ...

  3. Spark SQL:基本介绍(特点)

    Spark SQL官方介绍 官网:http://spark.apache.org/sql/ Spark SQL是Spark用来处理结构化数据的一个模块. Spark SQL还提供了多种使用方式,包括D ...

  4. Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入

     问题导读 1.DataFrame是什么? 2.如何创建DataFrame? 3.如何将普通RDD转变为DataFrame? 4.如何使用DataFrame? 5.在1.3.0中,提供了哪些完整的 ...

  5. 2021年大数据Flink(三十):Flink ​​​​​​​Table API  SQL 介绍

    目录 ​​​​​​​Table API & SQL 介绍 为什么需要Table API & SQL ​​​​​​​Table API& SQL发展历程 架构升级 查询处理器的选 ...

  6. Spark SQL基本操作以及函数的使用

    2019独角兽企业重金招聘Python工程师标准>>> 引语: 本篇博客主要介绍了Spark SQL中的filter过滤数据.去重.集合等基本操作,以及一些常用日期函数,随机函数,字 ...

  7. 【Spark Summit East 2017】Spark SQL:Tungsten之后另一个可以达到16倍速度的利器

    更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data:此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.a ...

  8. Adaptive Execution让Spark SQL更高效更好用

    本文所述内容均基于 2018年9月17日 Spark 最新 Spark Release 2.3.1 版本,以及截止到 2018年10月21日 Adaptive Execution 最新开发代码.自动设 ...

  9. hive编程指南电子版_第三篇|Spark SQL编程指南

    在<第二篇|Spark Core编程指南>一文中,对Spark的核心模块进行了讲解.本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上 ...

最新文章

  1. 编写linux下跑马灯应用程序,01 arm11 led 跑马灯程序
  2. WebForm中DataGrid的20篇经典文章
  3. LOJ#510. 「LibreOJ NOI Round #1」北校门外的回忆(线段树)
  4. UILable在Autolayout模式下面自动调节字体大小
  5. 【问题解决】移动端rem适配的时候会出现打开页面时先缩小(放大)后恢复到正常页面的问题
  6. 分类器评价与在R中的实现:混淆矩阵
  7. android使用perfetto工具步骤
  8. Tips--Ubuntu16.04系统安装时无法连接WiFi
  9. 进程间通信方式_第四十九期-Linux内核中的进程概述(4)
  10. 每年圣诞海报是躲不掉的,趁时间还来得及,看看这里PSD分层模板
  11. java--线程--习题集锦
  12. 离散数学_电子科大王丽杰
  13. win10 office2007,excel2007,word2007等每次打开都要配置进度
  14. 致远V8.1 协同 最新版
  15. 交付管理——怎样写用户手册
  16. SiC MOSFET动态测试上位机软件使用说明
  17. spring boot引入JDK的jar,Jenkins自动化部署出错
  18. Android-黑客技术-实现类似电脑版软件破解版
  19. PDF阅读软件综合评测PDF Expert 、MarginNote、Notability Zotero
  20. rust投递箱连接箱子_箱子、栈和堆

热门文章

  1. 如何学习嵌入式开发必备技能
  2. __name__的意义与作用
  3. ios开发之--UITableView中的visibleCells的用法
  4. mysql dump h_mysqldump
  5. EDA实验课课程笔记(七)——DC(Design Compiler)的简介及其图像化使用(一)
  6. android刷新蓝牙缓存,如何使用GattServer以编程方式清除蓝牙缓存
  7. blockquote 和 q 标签 css样式
  8. 再让大家清爽一下,给加班的oscer们,哈
  9. hdu 2604 Queuing AC自动机构造递推式-矩阵-结果
  10. 发布到服务器接口404_新版本永雾林渊周五来袭,404战队真的404了