创建两张表,通过一种是parquet , 一种使用parquet snappy压缩

创建表

使用snappy
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');使用gzip
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='GZIP');使用uncompressed
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='UNCOMPRESSED');使用默认
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET;也可以在执行语句前执行 set parquet.compression=SNAPPY; 会对之后跑的数据进行压缩,之前已经存在的不会进行snappy压缩
通过 desc formatted tableName 查看表结构

使用parquet snappy

Table Type:             EXTERNAL_TABLE
Table Parameters:                EXTERNAL                TRUE                numFiles                25                  numPartitions           1                   numRows                 0                   parquet.compression     SNAPPY              rawDataSize             0                   totalSize               4570350557          transient_lastDdlTime   1552269085          # Storage Information
SerDe Library:          org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
InputFormat:            org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
OutputFormat:           org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
Compressed:             No
Num Buckets:            -1
Bucket Columns:         []
Sort Columns:           []
Storage Desc Params:             field.delim             \u0001              serialization.format    \u0001              

使用parquet默认

Table Type:             EXTERNAL_TABLE
Table Parameters:                EXTERNAL                TRUE                numFiles                25                  numPartitions           1                   numRows                 0                   rawDataSize             0                   totalSize               4570650197          transient_lastDdlTime   1552269039          # Storage Information
SerDe Library:          org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
InputFormat:            org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
OutputFormat:           org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
Compressed:             No
Num Buckets:            -1
Bucket Columns:         []
Sort Columns:           []
Storage Desc Params:             field.delim             \u0001              serialization.format    \u0001      

测试数据量:20208432

UNCOMPRESSED    :4570325699
PARQUET 默认    :4570650197
parquet gzip    :4570314033
parquet snappy  :4570350557
textfile        :10356207038

通过对比发现,当数据量较少时parquet各压缩方式差别不大,但相比TEXTFILE压缩减少了1倍以上,后续再做一下性能对比测试一下。

Hive表 Parquet压缩 , Gzip,Snappy,uncompressed 效果对比相关推荐

  1. 尺寸压缩与质量压缩的文件大小及效果对比,webp格式

    尺寸压缩与质量压缩的文件大小及效果对比,webp格式 原图:test.png,91026字节, 分别进行webp格式图像质量压缩,图像质量参数从0-100. 及进行尺寸压缩,传输后再拉伸到同样的尺寸, ...

  2. [Hive]Hive表文件压缩介绍

    目录 压缩 (1)压缩概述 (2)开启Map输出阶段压缩 (3)开启Reduce输出阶段压缩 (4)创建表时指定压缩格式 压缩 (1)压缩概述 MR支持的压缩编码 为了支持多种压缩/解压缩算法,Had ...

  3. Hive常见的压缩格式

    压缩格式 Hive支持的压缩格式有bzip2.gzip.deflate.snappy.lzo等.Hive依赖Hadoop的压缩方法,所以Hadoop版本越高支持的压缩方法越多,可以在$HADOOP_H ...

  4. Hive的Parquet存储与LZO压缩

    在Hive中,为我们提供了五种文件存储格式 1.Textfile 2.Sequencefile 3.Rcfile 4.Orcfile 5.Parquet 这里主要介绍一下Parquet,列式存储 一. ...

  5. spark sql保存hive表时的压缩设置

    根据查看spark sql源码(3.1.3)的源码,找到hive表输出文件压缩格式的设定方式: 结论: 1. 如果hive输出表的属性里定义了压缩格式,则直接使用表定义的格式,具体属性为: 文件输出格 ...

  6. HIVE表的迁移(外部表到内部表并压缩数据)

    Hive表迁移至压缩表: 1. 压缩方式选择(经测试选择snappy) 2. 创建Hive内部表(主要是后面Rename的时候可以将location改成对应的位置) CREATE **TABLE** ...

  7. 创建hive表,指定存储和压缩格式

    一.指定存储格式是ORC,压缩格式是orc默认的ZLIB压缩 建表语句 create table log_orc_none( track_time string, url string, sessio ...

  8. date类型_06076.1.0如何将ORC格式且使用了DATE类型的Hive表转为Parquet表

    温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图. Fayson的github: https://github.com/fayson/cdhproject 提示 ...

  9. 利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言 在最开始学习Hudi源码 ...

最新文章

  1. 学Java需要下载什么软件?都有什么作用?
  2. 事件流--事件冒泡现象及阻止
  3. 「杂谈」如何写好R语言apply家族函数
  4. HDU 5936 Difference
  5. 通过链表深入理解Java的引用和对象
  6. 构建C1000K的服务器(1) – 基础
  7. 【Python笔记】列表的用法
  8. libevent源码分析系列
  9. pages与页面配置
  10. Spring中使用的九种设计模式
  11. 数据结构——一些小点
  12. Vue slot用法(2018.09.05 星期三)
  13. H5 调用摄像头进行拍照
  14. [技术讨论]关于前几天发布的京东bug上的问题分析
  15. zyf的现状 (BFS+优先队列)
  16. wifi共享大师,去除弹窗广告。
  17. “不一样的六一儿童节”——暨线上公益跳绳颁奖活动圆满结束
  18. PPT另存为图片分辨率太低,设置高分辨率(300dpi)
  19. win10系统英雄联盟老是重新连接服务器,更新win10系统后lol进不去游戏怎么回事 win10lol重新连接进不去怎么办...
  20. 如何在计算机中打开显卡,windows系统如何打开显卡的硬件加速呢?

热门文章

  1. java 图片分段上传_java 分段读取文件 并通过HTTP上传
  2. 在每个运行中运行多个查询_Spring Data JPA的运行原理及几种查询方式
  3. sqlserver 还原bak文件 查看不到_SQL server中用T-SQL语句实现(建库,分离,附加,备份,还原)...
  4. php 远程图片合拼,php获取远程图片的三种方式
  5. iptables 指定网卡_LINUX系统下的IPTABLES防火墙系统讲解(二)实战操作
  6. php数组转ini文件,php – 将数组转换为.ini文件
  7. python垃圾回收 采用方式_python-面向对象-10-__del__析构方法/垃圾回收机制
  8. java的super_Java中this和super的用法总结
  9. catia测量工具小尺子在哪_小区垃圾桶旁捡来旧茶几,老爸巧手改成沙发,邻居一个劲问哪买的...
  10. centos7.4安装mysql5.7_centos7.4三种方式安装mysql5.7