spark SQL压缩入门
parquet
默认压缩格式:snappy
可用压缩格式:none, snappy, gzip, lzo
默认是snappy压缩
的parquet
格式,不指定的情况下
保存为gzip压缩的parquet
gzip压缩格式的parquet
def compress(): Unit ={val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()spark.sql("set spark.sql.parquet.compression.codec=gzip")val df: DataFrame = spark.read.json("./data/emp.json")df.write.save("data/dir10")}
如下图
读取,spark会自动识别压缩格式
def readcompress(): Unit ={val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()//spark会自动识别压缩格式val df: DataFrame = spark.read.load("data/dir10")df.show()}
保存为lzo 压缩的parquet
def compress(): Unit ={val spark: SparkSession = SparkSession.builder().master("local[1]").appName("test").getOrCreate()spark.sql("set spark.sql.parquet.compression.codec=lzo")val df: DataFrame = spark.read.json("./data/emp.json")df.write.save("data/dir10")}
报错
Class com.hadoop.compression.lzo.LzoCodec was not found
参数
spark.sql.parquet.compression.codec
默认值snappy
设置编写Parquet文件时使用的
压缩编解码器
。
可接受的值包括:none,uncompressed,snappy,gzip,lzo,brotli,lz4,zstd。
总结
parquet
是存储格式,gzip
,snappy
等等是压缩格式,不要混淆parquet
又可分压缩和非压缩
参考
SparkSQL的几种输出格式及压缩方式_lfish001的博客-CSDN博客
cloudera cdh - Class com.hadoop.compression.lzo.LzoCodec not found for Spark on CDH 5? - Stack Overflow
spark SQL压缩入门相关推荐
- spark SQL快速入门 1-9 慕课网
1.hadoop安装 1.修改hadoop配置文件hadoop-env.shexport JAVA_HOME=/home/hadoop/app/jdk1.8.0_91core-site.xml< ...
- Spark SQL 快速入门系列(五)SparkSQL 访问 Hive
文章目录 访问 Hive SparkSQL 整合 Hive 访问 Hive 表 idea实现SparkSQL连接hive 访问 Hive 导读 1,整合 SparkSQL 和 Hive, 使用 Hiv ...
- Spark SQL:从入门到精通(一)[SparkSQL初体验]
入口-SparkSession 在spark2.0版本之前 SQLContext是创建DataFrame和执行SQL的入口 HiveContext通过hive sql语句操作hive表数据,兼容hiv ...
- Spark SQL:从入门到精通(五)[开窗函数]
概述 https://www.cnblogs.com/qiuting/p/7880500.html 介绍: 开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据.即在每一行的最后一列添加聚合函数 ...
- spark SQL入门指南《读书笔记》
文章目录 spark SQL入门指南 第一章 初识 spark mysql 1.1 Spark的诞生 和SparkSQL是什么? 1.2 Spark SQL能做什么? 第2章 Spark安装.编程环境 ...
- 2018年又传喜报!热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》 畅销书籍 出版上市!
2018年又传喜报!热烈祝贺王家林大师大数据经典著作<Spark SQL大数据实例开发教程> 畅销书籍 出版上市! 作者: 王家林 段智华 条码书号:9787111591979 出版日期 ...
- pyspark sql简单入门
采用python开发spark sql简单入门 1.编写pyspark脚本 2.在spark客户端提交spark应用程序 1.编写pyspark脚本 步骤 读取本地csv文件转换为DataFrame ...
- 「Spark从入门到精通系列」4.Spark SQL和DataFrames:内置数据源简介
来源 | Learning Spark Lightning-Fast Data Analytics,Second Edition 作者 | Damji,et al. 翻译 | 吴邪 大数据4年从业经 ...
- 大数据入门之分布式计算框架Spark(2) -- Spark SQL
1.Spark SQL概述 一个运行在Spark上执行sql的处理框架,可以用来处理结构化的数据[外部数据源(访问hive.json.parquet等文件的数据)]. Spark SQL提供了SQL的 ...
最新文章
- android 开发清理内存_2019年 11 款最流行的安卓手机清理工具 总有一款适合你
- 苹果7plus电池寿命查询_iPhone真实电池寿命快速检测,比苹果官方测的还准!
- Spring Security --SecurityConfig的详细配置
- PL/SQL块结构和组成元素
- 3、AD使用技巧分享
- 现代软件工程 学生阅读和调查作业
- 与专门团队一起持续交付
- 初入java编程-面向对象
- 浅谈服务器使用RAID5磁盘阵列的问题
- NPOI 读取excel到DataTable 读取隐藏列 读取公式列
- js中的null VS undefined
- python.opencv.imread读图顺序:从上到下,从左到右
- EOS源码分析(5)账号
- ul li列表样式css,列表ul li 专用样式
- Float32Array基础用法
- 深入理解transformer源码
- openwrt 单独编译某个模块
- Google天气Xml文件
- VTK:体绘制裁剪——Cropping技术
- 【IPTV详解三部曲】运营商PIM组网篇
热门文章
- ai跟随路径_AI机器人掌勺 马桥豆腐干飘香,长三角文博会上的这些“马桥元素”大放异彩...
- plsql怎么导出几十w的数据到csv_Greenplum数据库使用总结(干货满满)初级使用
- python不能import当前目录下的文件_python无法导入包是什么原因
- mysql sql语句集合
- Android移动应用基础教程 【程序活动单元Activity】
- C语言---数字迷宫
- 小米手机拦截返回音设置不了_小米手机用户注意了!这几个超好用的功能你没用过就太可惜了...
- 小学生通用计算机在线使用,Win7电脑可以使用一起小学软件的方法
- 如何自动安装linux系统,Linux全自动安装操作实例
- java中ant是干什么的_Java_Ant详解(转载)