parquet
默认压缩格式:snappy
可用压缩格式:none, snappy, gzip, lzo

默认是snappy压缩parquet格式,不指定的情况下

保存为gzip压缩的parquet

gzip压缩格式的parquet

def compress(): Unit ={val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()spark.sql("set spark.sql.parquet.compression.codec=gzip")val df: DataFrame = spark.read.json("./data/emp.json")df.write.save("data/dir10")}

如下图

读取,spark会自动识别压缩格式

 def readcompress(): Unit ={val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()//spark会自动识别压缩格式val df: DataFrame = spark.read.load("data/dir10")df.show()}

保存为lzo 压缩的parquet

def compress(): Unit ={val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()spark.sql("set spark.sql.parquet.compression.codec=lzo")val df: DataFrame = spark.read.json("./data/emp.json")df.write.save("data/dir10")}

报错

 Class com.hadoop.compression.lzo.LzoCodec was not found

参数

spark.sql.parquet.compression.codec

默认值snappy

设置编写Parquet文件时使用的压缩编解码器
可接受的值包括:none,uncompressed,snappy,gzip,lzo,brotli,lz4,zstd。

总结

  • parquet是存储格式,gzip,snappy等等是压缩格式,不要混淆
  • parquet又可分压缩和非压缩

参考

SparkSQL的几种输出格式及压缩方式_lfish001的博客-CSDN博客

cloudera cdh - Class com.hadoop.compression.lzo.LzoCodec not found for Spark on CDH 5? - Stack Overflow

spark SQL压缩入门相关推荐

  1. spark SQL快速入门 1-9 慕课网

    1.hadoop安装 1.修改hadoop配置文件hadoop-env.shexport JAVA_HOME=/home/hadoop/app/jdk1.8.0_91core-site.xml< ...

  2. Spark SQL 快速入门系列(五)SparkSQL 访问 Hive

    文章目录 访问 Hive SparkSQL 整合 Hive 访问 Hive 表 idea实现SparkSQL连接hive 访问 Hive 导读 1,整合 SparkSQL 和 Hive, 使用 Hiv ...

  3. Spark SQL:从入门到精通(一)[SparkSQL初体验]

    入口-SparkSession 在spark2.0版本之前 SQLContext是创建DataFrame和执行SQL的入口 HiveContext通过hive sql语句操作hive表数据,兼容hiv ...

  4. Spark SQL:从入门到精通(五)[开窗函数]

    概述 https://www.cnblogs.com/qiuting/p/7880500.html 介绍: 开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据.即在每一行的最后一列添加聚合函数 ...

  5. spark SQL入门指南《读书笔记》

    文章目录 spark SQL入门指南 第一章 初识 spark mysql 1.1 Spark的诞生 和SparkSQL是什么? 1.2 Spark SQL能做什么? 第2章 Spark安装.编程环境 ...

  6. 2018年又传喜报!热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》 畅销书籍 出版上市!

    2018年又传喜报!热烈祝贺王家林大师大数据经典著作<Spark SQL大数据实例开发教程> 畅销书籍 出版上市! 作者: 王家林 段智华  条码书号:9787111591979 出版日期 ...

  7. pyspark sql简单入门

    采用python开发spark sql简单入门 1.编写pyspark脚本 2.在spark客户端提交spark应用程序 1.编写pyspark脚本 步骤 读取本地csv文件转换为DataFrame ...

  8. 「Spark从入门到精通系列」4.Spark SQL和DataFrames:内置数据源简介

    来源 |  Learning Spark Lightning-Fast Data Analytics,Second Edition 作者 | Damji,et al. 翻译 | 吴邪 大数据4年从业经 ...

  9. 大数据入门之分布式计算框架Spark(2) -- Spark SQL

    1.Spark SQL概述 一个运行在Spark上执行sql的处理框架,可以用来处理结构化的数据[外部数据源(访问hive.json.parquet等文件的数据)]. Spark SQL提供了SQL的 ...

最新文章

  1. android 开发清理内存_2019年 11 款最流行的安卓手机清理工具 总有一款适合你
  2. 苹果7plus电池寿命查询_iPhone真实电池寿命快速检测,比苹果官方测的还准!
  3. Spring Security --SecurityConfig的详细配置
  4. PL/SQL块结构和组成元素
  5. 3、AD使用技巧分享
  6. 现代软件工程 学生阅读和调查作业
  7. 与专门团队一起持续交付
  8. 初入java编程-面向对象
  9. 浅谈服务器使用RAID5磁盘阵列的问题
  10. NPOI 读取excel到DataTable 读取隐藏列 读取公式列
  11. js中的null VS undefined
  12. python.opencv.imread读图顺序:从上到下,从左到右
  13. EOS源码分析(5)账号
  14. ul li列表样式css,列表ul li 专用样式
  15. Float32Array基础用法
  16. 深入理解transformer源码
  17. openwrt 单独编译某个模块
  18. Google天气Xml文件
  19. VTK:体绘制裁剪——Cropping技术
  20. 【IPTV详解三部曲】运营商PIM组网篇

热门文章

  1. ai跟随路径_AI机器人掌勺 马桥豆腐干飘香,长三角文博会上的这些“马桥元素”大放异彩...
  2. plsql怎么导出几十w的数据到csv_Greenplum数据库使用总结(干货满满)初级使用
  3. python不能import当前目录下的文件_python无法导入包是什么原因
  4. mysql sql语句集合
  5. Android移动应用基础教程 【程序活动单元Activity】
  6. C语言---数字迷宫
  7. 小米手机拦截返回音设置不了_小米手机用户注意了!这几个超好用的功能你没用过就太可惜了...
  8. 小学生通用计算机在线使用,Win7电脑可以使用一起小学软件的方法
  9. 如何自动安装linux系统,Linux全自动安装操作实例
  10. java中ant是干什么的_Java_Ant详解(转载)