SparkSQL默认存储格式入门
SparkSQL
默认存储格式是Parquet
,如下操作
存储为parquet
格式,parquet
格式可以有效节省存储空间.另外由于列式存储,读取也比较快.
存储为Parquet
import org.apache.spark.sql.{DataFrame, SparkSession}object SaveAsParquet {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()val df: DataFrame = spark.read.json("./data/emp.json")//没有设置存储格式.默认存储格式就是parquetdf.write.save("/data/dir9")df.show()}
}
如下图,默认就是parquet格式
或者也可以
def save2(): Unit = {val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()val df: DataFrame = spark.read.json("./data/emp.json")//存储df为parquet格式df.write.parquet("data/dir10")df.show()
读取Parquet文件
def read(): Unit = {val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()//用load方法就可以读取了,参数为parquet所在的文件夹val df: DataFrame = spark.read.load("data/dir9")df.show()}
或者也可以这样读
def read2(): Unit ={val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()//读取parquet文件val df: DataFrame = spark.read.parquet("data/dir9")df.show()}
总结
spark sql
的默认存储格式就是parquet
parquet
比较省空间,另外,访问也比较快
参考
Spark2.1.0入门:读写Parquet(DataFrame)_厦大数据库实验室博客
SPARK表存储格式在HDFS性能比较 - 简书
https://www.jianshu.com/p/e77ceb52f661
SparkSQL默认存储格式入门相关推荐
- Hive 存储格式入门
存储格式 hive的存储格式分为两大类:一类纯文本文件,一类是二进制文件存储. 第一类: 纯文本文件存储 textfile: 纯文本文件存储格式,不压缩,也是hive的默认存储格式,磁盘开销大,数据解 ...
- 计算机默认存储格式,office2007默认保存文件格式的修改方法
在office2007编辑文档之后,我们就需要将文档保存成指定的文档格式了,比如说,一些使用office2007word文档的用户,有可能需要把word文档修改成word97-2003文档进行保存.那 ...
- Hadoop SequenceFile存储格式入门
SequenceFile本质上是一种二进制文件格式,类似key-value存储,通过map/reducer的input/output format方式生成.文件内容由Header.Record/Blo ...
- 计算机默认存储格式,表格默认保存为et格式
首先打开备份工具窗口,接着打开自动备份路径,本文以Windows 8.1系统操作为例,在选项中可以设置自动备份时间间隔以及文件默认保存格式.智能备份是当软件崩溃或异常退出关闭时进行备份,没有发生异常就 ...
- PySpark | SparkSQL入门 | DataFrame入门
文章目录 一.快速入门 1. 什么是SparkSQL 2. 为什么要学习SparkSQL 3. SparkSQL特点 二.SparkSQL概述 1. SparkSQL和Hive的异同 2. Spark ...
- 2021年大数据Spark(三十二):SparkSQL的External DataSource
目录 External DataSource 数据源与格式 text 数据 json 数据 csv 数据 parquet 数据 jdbc 数据 加载/保存数据-API ...
- SparkSQL在IDEA中的使用
IDEA开发SparkSQL 上一篇博客SparkSQL核心编程所有举的例子都是在虚拟机的命令行实现的,但是实际开发中,都是使用 IDEA 进行开发的,所以下面介绍下SparkSQL在IDEA中的使用 ...
- TensorFlow v1 入门教程
目录 Tensor 计算图 Eager mode Tensorboard Save and Restore 模型保存 模型恢复 tensorflow v2 版本现在已经全面用keras 封装了,运行时 ...
- [学习笔记]黑马程序员Spark全套视频教程,4天spark3.2快速入门到精通,基于Python语言的spark教程
文章目录 视频资料: 思维导图 一.Spark基础入门(环境搭建.入门概念) 第二章:Spark环境搭建-Local 2.1 课程服务器环境 2.2 Local模式基本原理 2.3 安装包下载 2.4 ...
最新文章
- Nature新研究:酒精导致的DNA损伤能被安全修复,为降低酒精性癌症发病率开辟机会...
- js和css和img,Node.js压缩web项目中的js,css和图片
- mod php是什么意思,mod_php模式原理探析
- MySQL数据库:视图View
- 专题导读:科学数据治理
- 畅享9能更新鸿蒙吗,Mate 9也能升级!鸿蒙系统正式发布:老用户爽了
- blender 可视化编程_使用Blender可视化天体物理学数据
- Glibc 和 uClibc的区别
- 虚拟机控制数据结构 (VMCS)状态转换
- C#winform遍历控件判断控件类型
- stm32PWM输入捕获模式详解
- android MVC和MVP探讨
- java 邮件内嵌图片_(二)JavaMail创建包含内嵌图片的邮件
- coreseek笔记
- 中国AI公司会议室取名简史
- java 定时器 每天凌晨_java定时器 每天凌晨 固定执行一个方法
- 新增诊所19804家 | 私营诊所要如何主动?才能被患者选择
- 关于ELF格式文件里面的调试信息解读
- 开发板评测 | STM32 Nucleo-64评测报告
- bulk es 删除_es数据导出导入(bulk篇)
热门文章
- educoder 初始mongodb
- java打印插件_java c/s项目中有没有好用的打印插件?
- linux软连接目标不存在,Linux ln创建软连接之后无法使用,无法whereis
- linux的python2.7的paramiko_centos7 python2.7下安装paramiko模块
- 创建ServerSocket出错Permission denied
- 计算机学业水平测试网,学业水平测试
- 与计算机运算速度相关参数,计算机CPU运算速度是多少
- 华为双前置摄像头_vivo双摄像头为何前置?华为为何是后置?
- python能爬取什么_5行代码就能写个爬虫,python真是太方便了!
- bootice添加linux_如何使用老毛桃winpe的Bootice工具新建实模式启动项(Grub/Linux)?