SparkSQL默认存储格式入门

SparkSQL默认存储格式是Parquet,如下操作

存储为parquet格式,parquet格式可以有效节省存储空间.另外由于列式存储,读取也比较快.

存储为Parquet

import org.apache.spark.sql.{DataFrame, SparkSession}object SaveAsParquet {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()val df: DataFrame = spark.read.json("./data/emp.json")//没有设置存储格式.默认存储格式就是parquetdf.write.save("/data/dir9")df.show()}
}

如下图,默认就是parquet格式

或者也可以

def save2(): Unit = {val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()val df: DataFrame = spark.read.json("./data/emp.json")//存储df为parquet格式df.write.parquet("data/dir10")df.show()

读取Parquet文件

def read(): Unit = {val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()//用load方法就可以读取了,参数为parquet所在的文件夹val df: DataFrame = spark.read.load("data/dir9")df.show()}

或者也可以这样读

def read2(): Unit ={val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()//读取parquet文件val df: DataFrame = spark.read.parquet("data/dir9")df.show()}

总结

spark sql的默认存储格式就是parquet
parquet比较省空间,另外,访问也比较快

参考

Spark2.1.0入门：读写Parquet(DataFrame)_厦大数据库实验室博客
SPARK表存储格式在HDFS性能比较 - 简书
https://www.jianshu.com/p/e77ceb52f661

SparkSQL默认存储格式入门相关推荐

Hive 存储格式入门
存储格式 hive的存储格式分为两大类:一类纯文本文件,一类是二进制文件存储. 第一类: 纯文本文件存储 textfile: 纯文本文件存储格式,不压缩,也是hive的默认存储格式,磁盘开销大,数据解 ...
计算机默认存储格式,office2007默认保存文件格式的修改方法
在office2007编辑文档之后,我们就需要将文档保存成指定的文档格式了,比如说,一些使用office2007word文档的用户,有可能需要把word文档修改成word97-2003文档进行保存.那 ...
Hadoop SequenceFile存储格式入门
SequenceFile本质上是一种二进制文件格式,类似key-value存储,通过map/reducer的input/output format方式生成.文件内容由Header.Record/Blo ...
计算机默认存储格式,表格默认保存为et格式
首先打开备份工具窗口,接着打开自动备份路径,本文以Windows 8.1系统操作为例,在选项中可以设置自动备份时间间隔以及文件默认保存格式.智能备份是当软件崩溃或异常退出关闭时进行备份,没有发生异常就 ...
PySpark | SparkSQL入门 | DataFrame入门
文章目录一.快速入门 1. 什么是SparkSQL 2. 为什么要学习SparkSQL 3. SparkSQL特点二.SparkSQL概述 1. SparkSQL和Hive的异同 2. Spark ...
2021年大数据Spark（三十二）：SparkSQL的External DataSource
目录 External DataSource 数据源与格式 text 数据 json 数据 csv 数据 parquet 数据 jdbc 数据加载/保存数据-API ...
SparkSQL在IDEA中的使用
IDEA开发SparkSQL 上一篇博客SparkSQL核心编程所有举的例子都是在虚拟机的命令行实现的,但是实际开发中,都是使用 IDEA 进行开发的,所以下面介绍下SparkSQL在IDEA中的使用 ...
TensorFlow v1 入门教程
目录 Tensor 计算图 Eager mode Tensorboard Save and Restore 模型保存模型恢复 tensorflow v2 版本现在已经全面用keras 封装了,运行时 ...
[学习笔记]黑马程序员Spark全套视频教程，4天spark3.2快速入门到精通，基于Python语言的spark教程
文章目录视频资料: 思维导图一.Spark基础入门(环境搭建.入门概念) 第二章:Spark环境搭建-Local 2.1 课程服务器环境 2.2 Local模式基本原理 2.3 安装包下载 2.4 ...

SparkSQL默认存储格式入门

存储为Parquet

读取Parquet文件

总结

参考

SparkSQL默认存储格式入门相关推荐

最新文章

热门文章