Hive表 Parquet压缩， Gzip，Snappy，uncompressed 效果对比

创建两张表，通过一种是parquet ，一种使用parquet snappy压缩

创建表

使用snappy
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');使用gzip
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='GZIP');使用uncompressed
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='UNCOMPRESSED');使用默认
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET;也可以在执行语句前执行 set parquet.compression=SNAPPY; 会对之后跑的数据进行压缩，之前已经存在的不会进行snappy压缩

通过 desc formatted tableName 查看表结构

使用parquet snappy

Table Type:             EXTERNAL_TABLE
Table Parameters:                EXTERNAL                TRUE                numFiles                25                  numPartitions           1                   numRows                 0                   parquet.compression     SNAPPY              rawDataSize             0                   totalSize               4570350557          transient_lastDdlTime   1552269085          # Storage Information
SerDe Library:          org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
InputFormat:            org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
OutputFormat:           org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
Compressed:             No
Num Buckets:            -1
Bucket Columns:         []
Sort Columns:           []
Storage Desc Params:             field.delim             \u0001              serialization.format    \u0001

使用parquet默认

Table Type:             EXTERNAL_TABLE
Table Parameters:                EXTERNAL                TRUE                numFiles                25                  numPartitions           1                   numRows                 0                   rawDataSize             0                   totalSize               4570650197          transient_lastDdlTime   1552269039          # Storage Information
SerDe Library:          org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
InputFormat:            org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
OutputFormat:           org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
Compressed:             No
Num Buckets:            -1
Bucket Columns:         []
Sort Columns:           []
Storage Desc Params:             field.delim             \u0001              serialization.format    \u0001

测试数据量：20208432

UNCOMPRESSED    :4570325699
PARQUET 默认    :4570650197
parquet gzip    :4570314033
parquet snappy  :4570350557
textfile        :10356207038

通过对比发现，当数据量较少时parquet各压缩方式差别不大，但相比TEXTFILE压缩减少了1倍以上，后续再做一下性能对比测试一下。

Hive表 Parquet压缩， Gzip，Snappy，uncompressed 效果对比相关推荐

尺寸压缩与质量压缩的文件大小及效果对比，webp格式
尺寸压缩与质量压缩的文件大小及效果对比,webp格式原图:test.png,91026字节, 分别进行webp格式图像质量压缩,图像质量参数从0-100. 及进行尺寸压缩,传输后再拉伸到同样的尺寸, ...
[Hive]Hive表文件压缩介绍
目录压缩 (1)压缩概述 (2)开启Map输出阶段压缩 (3)开启Reduce输出阶段压缩 (4)创建表时指定压缩格式压缩 (1)压缩概述 MR支持的压缩编码为了支持多种压缩/解压缩算法,Had ...
Hive常见的压缩格式
压缩格式 Hive支持的压缩格式有bzip2.gzip.deflate.snappy.lzo等.Hive依赖Hadoop的压缩方法,所以Hadoop版本越高支持的压缩方法越多,可以在$HADOOP_H ...
Hive的Parquet存储与LZO压缩
在Hive中,为我们提供了五种文件存储格式 1.Textfile 2.Sequencefile 3.Rcfile 4.Orcfile 5.Parquet 这里主要介绍一下Parquet,列式存储一. ...
spark sql保存hive表时的压缩设置
根据查看spark sql源码(3.1.3)的源码,找到hive表输出文件压缩格式的设定方式: 结论: 1. 如果hive输出表的属性里定义了压缩格式,则直接使用表定义的格式,具体属性为: 文件输出格 ...
HIVE表的迁移（外部表到内部表并压缩数据）
Hive表迁移至压缩表: 1. 压缩方式选择(经测试选择snappy) 2. 创建Hive内部表(主要是后面Rename的时候可以将location改成对应的位置) CREATE **TABLE** ...
创建hive表，指定存储和压缩格式
一.指定存储格式是ORC,压缩格式是orc默认的ZLIB压缩建表语句 create table log_orc_none( track_time string, url string, sessio ...
date类型_06076.1.0如何将ORC格式且使用了DATE类型的Hive表转为Parquet表
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图. Fayson的github: https://github.com/fayson/cdhproject 提示 ...
利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言在最开始学习Hudi源码 ...

Hive表 Parquet压缩， Gzip，Snappy，uncompressed 效果对比

Hive表 Parquet压缩， Gzip，Snappy，uncompressed 效果对比相关推荐

最新文章

热门文章

Hive表 Parquet压缩 ， Gzip，Snappy，uncompressed 效果对比

Hive表 Parquet压缩 ， Gzip，Snappy，uncompressed 效果对比相关推荐

最新文章

热门文章

Hive表 Parquet压缩， Gzip，Snappy，uncompressed 效果对比

Hive表 Parquet压缩， Gzip，Snappy，uncompressed 效果对比相关推荐