SparkSQL默认存储格式是Parquet,如下操作

存储为parquet格式,parquet格式可以有效节省存储空间.另外由于列式存储,读取也比较快.

存储为Parquet

import org.apache.spark.sql.{DataFrame, SparkSession}object SaveAsParquet {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()val df: DataFrame = spark.read.json("./data/emp.json")//没有设置存储格式.默认存储格式就是parquetdf.write.save("/data/dir9")df.show()}
}

如下图,默认就是parquet格式

或者也可以

def save2(): Unit = {val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()val df: DataFrame = spark.read.json("./data/emp.json")//存储df为parquet格式df.write.parquet("data/dir10")df.show()

读取Parquet文件

def read(): Unit = {val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()//用load方法就可以读取了,参数为parquet所在的文件夹val df: DataFrame = spark.read.load("data/dir9")df.show()}

或者也可以这样读

def read2(): Unit ={val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()//读取parquet文件val df: DataFrame = spark.read.parquet("data/dir9")df.show()}

总结

  • spark sql的默认存储格式就是parquet
  • parquet比较省空间,另外,访问也比较快

参考

Spark2.1.0入门:读写Parquet(DataFrame)_厦大数据库实验室博客
SPARK表存储格式在HDFS性能比较 - 简书
https://www.jianshu.com/p/e77ceb52f661

SparkSQL默认存储格式入门相关推荐

  1. Hive 存储格式入门

    存储格式 hive的存储格式分为两大类:一类纯文本文件,一类是二进制文件存储. 第一类: 纯文本文件存储 textfile: 纯文本文件存储格式,不压缩,也是hive的默认存储格式,磁盘开销大,数据解 ...

  2. 计算机默认存储格式,office2007默认保存文件格式的修改方法

    在office2007编辑文档之后,我们就需要将文档保存成指定的文档格式了,比如说,一些使用office2007word文档的用户,有可能需要把word文档修改成word97-2003文档进行保存.那 ...

  3. Hadoop SequenceFile存储格式入门

    SequenceFile本质上是一种二进制文件格式,类似key-value存储,通过map/reducer的input/output format方式生成.文件内容由Header.Record/Blo ...

  4. 计算机默认存储格式,表格默认保存为et格式

    首先打开备份工具窗口,接着打开自动备份路径,本文以Windows 8.1系统操作为例,在选项中可以设置自动备份时间间隔以及文件默认保存格式.智能备份是当软件崩溃或异常退出关闭时进行备份,没有发生异常就 ...

  5. PySpark | SparkSQL入门 | DataFrame入门

    文章目录 一.快速入门 1. 什么是SparkSQL 2. 为什么要学习SparkSQL 3. SparkSQL特点 二.SparkSQL概述 1. SparkSQL和Hive的异同 2. Spark ...

  6. 2021年大数据Spark(三十二):SparkSQL的External DataSource

      目录 External DataSource 数据源与格式 text 数据 json 数据 csv 数据 parquet 数据 jdbc 数据 ​​​​​​​加载/保存数据-API ​​​​​​​ ...

  7. SparkSQL在IDEA中的使用

    IDEA开发SparkSQL 上一篇博客SparkSQL核心编程所有举的例子都是在虚拟机的命令行实现的,但是实际开发中,都是使用 IDEA 进行开发的,所以下面介绍下SparkSQL在IDEA中的使用 ...

  8. TensorFlow v1 入门教程

    目录 Tensor 计算图 Eager mode Tensorboard Save and Restore 模型保存 模型恢复 tensorflow v2 版本现在已经全面用keras 封装了,运行时 ...

  9. [学习笔记]黑马程序员Spark全套视频教程,4天spark3.2快速入门到精通,基于Python语言的spark教程

    文章目录 视频资料: 思维导图 一.Spark基础入门(环境搭建.入门概念) 第二章:Spark环境搭建-Local 2.1 课程服务器环境 2.2 Local模式基本原理 2.3 安装包下载 2.4 ...

最新文章

  1. Nature新研究:酒精导致的DNA损伤能被安全修复,为降低酒精性癌症发病率开辟机会...
  2. js和css和img,Node.js压缩web项目中的js,css和图片
  3. mod php是什么意思,mod_php模式原理探析
  4. MySQL数据库:视图View
  5. 专题导读:科学数据治理
  6. 畅享9能更新鸿蒙吗,Mate 9也能升级!鸿蒙系统正式发布:老用户爽了
  7. blender 可视化编程_使用Blender可视化天体物理学数据
  8. Glibc 和 uClibc的区别
  9. 虚拟机控制数据结构 (VMCS)状态转换
  10. C#winform遍历控件判断控件类型
  11. stm32PWM输入捕获模式详解
  12. android MVC和MVP探讨
  13. java 邮件内嵌图片_(二)JavaMail创建包含内嵌图片的邮件
  14. coreseek笔记
  15. 中国AI公司会议室取名简史
  16. java 定时器 每天凌晨_java定时器 每天凌晨 固定执行一个方法
  17. 新增诊所19804家 | 私营诊所要如何主动?才能被患者选择
  18. 关于ELF格式文件里面的调试信息解读
  19. 开发板评测 | STM32 Nucleo-64评测报告
  20. bulk es 删除_es数据导出导入(bulk篇)

热门文章

  1. educoder 初始mongodb
  2. java打印插件_java c/s项目中有没有好用的打印插件?
  3. linux软连接目标不存在,Linux ln创建软连接之后无法使用,无法whereis
  4. linux的python2.7的paramiko_centos7 python2.7下安装paramiko模块
  5. 创建ServerSocket出错Permission denied
  6. 计算机学业水平测试网,学业水平测试
  7. 与计算机运算速度相关参数,计算机CPU运算速度是多少
  8. 华为双前置摄像头_vivo双摄像头为何前置?华为为何是后置?
  9. python能爬取什么_5行代码就能写个爬虫,python真是太方便了!
  10. bootice添加linux_如何使用老毛桃winpe的Bootice工具新建实模式启动项(Grub/Linux)?