Spark SQL入门

1、SQL结合spark有两条线：

Spark SQL和Hive on Spark（还在开发状态，不稳定，暂时不建议使用）。

#Hive on Spark是在Hive中的，使用Spark作为hive的执行引擎，只需要在hive中修改一个参数即可：

# set hive.execution.engine=spark

2、Spark SQL

a.概述：

Spark SQL是Spark处理数据的一个模块，跟基本的Spark RDD的API不同，Spark SQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。其本质是，Spark SQL使用这些额外的信息去执行额外的优化，这儿有几种和Spark SQL进行交互的方法，包括SQL和Dataset API，当使用相同的执行引擎时，API或其它语言对于计算的表达都是相互独立的，这种统一意味着开发人员可以轻松地在不同的API之间进行切换。

b.SQL:

Spark SQL的一大用处就是执行SQL查询语句，Spark SQL也可以用来从Hive中读取数据，当我们使用其它编程语言来运行一个SQL语句，结果返回的是一个Dataset或者DataFrame.你可以使用命令行，JDBC或者ODBC的方式来与SQL进行交互。

c.Dataset和DataFrame

Dataset是一个分布式数据集合。Dataset是一个在Spark 1.6版本之后才引入的新接口，它既拥有了RDD的优点（强类型、能够使用强大的lambda函数），又拥有Spark SQL的优点（用来一个经过优化的执行引擎）。你可以将一个JVM对象构造成一个Dataset,之后就可以使用一些transformations操作啦。我们可以使用scala,java来访问Dataset API,不支持python哦，当然，由于python的动态特性，很多的Dataset API是可以使用的，R语言也是一样哦。

DataFrame是Dataset中一个有名字的列。从概念上，它等价于关系型数据库中的一张表，或者等价于R/Python中的Data Frame，但它在底层做了更好的优化。构造DataFrame的数据源很多：结构化的数据文件、hive表、外部数据库、已经存在的RDD。DataFrame 的API支持java,scal.python,R。

3、面试题

RDD VS DataFrame

esgd

a.基于RDD的编程，不同语言性能是不一样的，而DataFrame是一样的，因为底层会有一个优化器先将代码进行优化。

b.对于RDD，暴露给执行引擎的信息只有数据的类型，如RDD[Student]装的是Student,而对于DataFrame,对于外部可见的信息有字段类型，字段key,字段value等。

c.RDD是一个数组，DataFrame是一个列式表。

4、Spark SQL愿景

a.写更少的代码

b.读更少的数据（压缩，存储格式，列裁剪）

c.对于不同语言的应用程序让优化器自动进行优化

5、Spark SQL架构

客户端->未解析的逻辑执行计划（Schema Catalog 将schema作用在数据上）->逻辑执行计划->优化过后的逻辑执行计划->物理执行计划->Spark引擎。

#Spark SQL 要使用hive中的表，需要将hive-site.xml加入spark的配置文件目录。

6、执行计划（Hive 或Spark SQL）

explain extended +查询语句

7、SparkSession

添加依赖：

<groupId>org.spark.apache</groupId>

<artifactId>spark-sql_2.11</artifactId> ##2.11位scala版本

<version>${spark.version}</version>

</dependency>

Spark中所有功能的入口点是SparkSession类,我们可以使用SparkSession.builder()来创建一个SparkSession，具体如下（scala）:

import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().appName("Spark SQL basic example").config("spark.some.config.option", "some-value").getOrCreate()// For implicit conversions like converting RDDs to DataFrames
import spark.implicits._