Hive表 Parquet压缩 , Gzip,Snappy,uncompressed 效果对比
创建两张表,通过一种是parquet , 一种使用parquet snappy压缩
创建表
使用snappy
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');使用gzip
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='GZIP');使用uncompressed
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='UNCOMPRESSED');使用默认
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET;也可以在执行语句前执行 set parquet.compression=SNAPPY; 会对之后跑的数据进行压缩,之前已经存在的不会进行snappy压缩
通过 desc formatted tableName 查看表结构
使用parquet snappy
Table Type: EXTERNAL_TABLE
Table Parameters: EXTERNAL TRUE numFiles 25 numPartitions 1 numRows 0 parquet.compression SNAPPY rawDataSize 0 totalSize 4570350557 transient_lastDdlTime 1552269085 # Storage Information
SerDe Library: org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
InputFormat: org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
Compressed: No
Num Buckets: -1
Bucket Columns: []
Sort Columns: []
Storage Desc Params: field.delim \u0001 serialization.format \u0001
使用parquet默认
Table Type: EXTERNAL_TABLE
Table Parameters: EXTERNAL TRUE numFiles 25 numPartitions 1 numRows 0 rawDataSize 0 totalSize 4570650197 transient_lastDdlTime 1552269039 # Storage Information
SerDe Library: org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
InputFormat: org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
Compressed: No
Num Buckets: -1
Bucket Columns: []
Sort Columns: []
Storage Desc Params: field.delim \u0001 serialization.format \u0001
测试数据量:20208432
UNCOMPRESSED :4570325699
PARQUET 默认 :4570650197
parquet gzip :4570314033
parquet snappy :4570350557
textfile :10356207038
通过对比发现,当数据量较少时parquet各压缩方式差别不大,但相比TEXTFILE压缩减少了1倍以上,后续再做一下性能对比测试一下。
Hive表 Parquet压缩 , Gzip,Snappy,uncompressed 效果对比相关推荐
- 尺寸压缩与质量压缩的文件大小及效果对比,webp格式
尺寸压缩与质量压缩的文件大小及效果对比,webp格式 原图:test.png,91026字节, 分别进行webp格式图像质量压缩,图像质量参数从0-100. 及进行尺寸压缩,传输后再拉伸到同样的尺寸, ...
- [Hive]Hive表文件压缩介绍
目录 压缩 (1)压缩概述 (2)开启Map输出阶段压缩 (3)开启Reduce输出阶段压缩 (4)创建表时指定压缩格式 压缩 (1)压缩概述 MR支持的压缩编码 为了支持多种压缩/解压缩算法,Had ...
- Hive常见的压缩格式
压缩格式 Hive支持的压缩格式有bzip2.gzip.deflate.snappy.lzo等.Hive依赖Hadoop的压缩方法,所以Hadoop版本越高支持的压缩方法越多,可以在$HADOOP_H ...
- Hive的Parquet存储与LZO压缩
在Hive中,为我们提供了五种文件存储格式 1.Textfile 2.Sequencefile 3.Rcfile 4.Orcfile 5.Parquet 这里主要介绍一下Parquet,列式存储 一. ...
- spark sql保存hive表时的压缩设置
根据查看spark sql源码(3.1.3)的源码,找到hive表输出文件压缩格式的设定方式: 结论: 1. 如果hive输出表的属性里定义了压缩格式,则直接使用表定义的格式,具体属性为: 文件输出格 ...
- HIVE表的迁移(外部表到内部表并压缩数据)
Hive表迁移至压缩表: 1. 压缩方式选择(经测试选择snappy) 2. 创建Hive内部表(主要是后面Rename的时候可以将location改成对应的位置) CREATE **TABLE** ...
- 创建hive表,指定存储和压缩格式
一.指定存储格式是ORC,压缩格式是orc默认的ZLIB压缩 建表语句 create table log_orc_none( track_time string, url string, sessio ...
- date类型_06076.1.0如何将ORC格式且使用了DATE类型的Hive表转为Parquet表
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图. Fayson的github: https://github.com/fayson/cdhproject 提示 ...
- 利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言 在最开始学习Hudi源码 ...
最新文章
- 学Java需要下载什么软件?都有什么作用?
- 事件流--事件冒泡现象及阻止
- 「杂谈」如何写好R语言apply家族函数
- HDU 5936 Difference
- 通过链表深入理解Java的引用和对象
- 构建C1000K的服务器(1) – 基础
- 【Python笔记】列表的用法
- libevent源码分析系列
- pages与页面配置
- Spring中使用的九种设计模式
- 数据结构——一些小点
- Vue slot用法(2018.09.05 星期三)
- H5 调用摄像头进行拍照
- [技术讨论]关于前几天发布的京东bug上的问题分析
- zyf的现状 (BFS+优先队列)
- wifi共享大师,去除弹窗广告。
- “不一样的六一儿童节”——暨线上公益跳绳颁奖活动圆满结束
- PPT另存为图片分辨率太低,设置高分辨率(300dpi)
- win10系统英雄联盟老是重新连接服务器,更新win10系统后lol进不去游戏怎么回事 win10lol重新连接进不去怎么办...
- 如何在计算机中打开显卡,windows系统如何打开显卡的硬件加速呢?
热门文章
- java 图片分段上传_java 分段读取文件 并通过HTTP上传
- 在每个运行中运行多个查询_Spring Data JPA的运行原理及几种查询方式
- sqlserver 还原bak文件 查看不到_SQL server中用T-SQL语句实现(建库,分离,附加,备份,还原)...
- php 远程图片合拼,php获取远程图片的三种方式
- iptables 指定网卡_LINUX系统下的IPTABLES防火墙系统讲解(二)实战操作
- php数组转ini文件,php – 将数组转换为.ini文件
- python垃圾回收 采用方式_python-面向对象-10-__del__析构方法/垃圾回收机制
- java的super_Java中this和super的用法总结
- catia测量工具小尺子在哪_小区垃圾桶旁捡来旧茶几,老爸巧手改成沙发,邻居一个劲问哪买的...
- centos7.4安装mysql5.7_centos7.4三种方式安装mysql5.7