1 gzip压缩

优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。

缺点:不支持split。

应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件,运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序,streaming程序,和java写的mapreduce程序完 全和文本处理一样,压缩之后原来的程序不需要做任何修改。

2 lzo压缩

优点:压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;支持hadoop native库;可以在linux系统下安装lzop命令,使用方便。

缺点:压缩率比gzip要低一些;hadoop本身不支持,需要安装;在应用中对lzo格式的文件需要做一些特殊处理(为了支持split需要建索引,还需要指定inputformat为lzo格式)。

应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。

3 snappy压缩

优点:高速压缩速度和合理的压缩率;支持hadoop native库。

缺点:不支持split;压缩率比gzip要低;hadoop本身不支持,需要安装;linux系统下没有对应的命令。

应用场景:当mapreduce作业的map输出的数据比较大的时候,作为map到reduce的中间数据的压缩格式;或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入。

4 bzip2压缩

优点:支持split;具有很高的压缩率,比gzip压缩率都高;hadoop本身支持,但不支持native;在linux系统下自带bzip2命令,使用方便。

缺点:压缩/解压速度慢;不支持native。

应用场景:适合对速度要求不高,但需要较高的压缩率的时候,可以作为mapreduce作业的输出格式;或者输出之后的数据比较大,处理之后的数据 需要压缩存档减少磁盘空间并且以后数据用得比较少的情况;或者对单个很大的文本文件想压缩减少存储空间,同时又需要支持split,而且兼容之前的应用程 序(即应用程序不需要修改)的情况。

最后用一个表格比较上述4种压缩格式的特征(优缺点):

4种压缩格式的特征的比较
压缩格式 split native 压缩率 速度 是否hadoop自带 linux命令 换成压缩格式后,原来的应用程序是否要修改
gzip 很高 比较快 是,直接使用 和文本处理一样,不需要修改
lzo 比较高 很快 否,需要安装 需要建索引,还需要指定输入格式
snappy 比较高 很快 否,需要安装 没有 和文本处理一样,不需要修改
bzip2 最高 是,直接使用 和文本处理一样,不需要修改

hadoop中4种压缩格式的特征的比较相关推荐

  1. hadoop中MapReduce中压缩的使用及4种压缩格式的特征的比较

    在比较四中压缩方法之前,先来点干的,说一下在MapReduce的job中怎么使用压缩. MapReduce的压缩分为map端输出内容的压缩和reduce端输出的压缩,配置很简单,只要在作业的conf中 ...

  2. Hadoop所支持的几种压缩格式

    1 gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快:hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样:有hadoop native库:大部分linux系统都自带g ...

  3. Unity中的图片压缩格式选择

    图片格式 不同格式的本质区别在于压缩算法不一样,结果图片大小,还原度也各不相同. 常用图片格式有Png,Jpg,Tga,Psd等.平时主要用Png,Jpg. Jpg是有损压缩不透明,Png是无损压缩有 ...

  4. C语言中三种大括号格式的规范

    C语言中三种大括号格式的使用规范 简介: 在C中,使用大括号的方法无所谓对还是错--只要每个开括号后都有一个闭括号,你的程序中就不再会出现与大括号有关的问题.然而,有三种著名的大括号格式:Kernig ...

  5. hadoop 四种压缩格式

    1 gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快:hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样:有hadoop native库:大部分linux系统都自带g ...

  6. 大数据里常见的几种压缩格式压缩

    离线处理流程: 为什么使用压缩 当使用MapReduce经过ETL后落到HDFS上时,若使用普通文本格式TXT ,那一般副本数为三,若一个副本为500T,500*3=1500? 显然是不现实的. 压缩 ...

  7. 安卓中两种压缩图片详解(比例压缩与质量压缩)

    在提图片压缩之前,我先总结下图片的三种常见格式:JPEG,JPG,PNG Jpeg格式   与jpg格式相似,经常在拷相片的时候看到得,但我们制作图片的时候一般是保存jpg,该种图片格式是文件相对jp ...

  8. hadoop配置支持LZO压缩格式

    撸了今年阿里.头条和美团的面试,我有一个重要发现.......>>> 简介 安装lzo lzo并不是linux系统原生支持,所以需要下载安装软件包.这里至少需要安装3个软件包:lzo ...

  9. 哪种压缩格式/软件最好?--推荐 7-zip

               压缩软件大家都用得多了,老司机们从网上下载个什么资源,很多情况下都会下载到压缩文件.压缩文件的好处有很多,一来减少体积节省流量,二来打包方便可以一次性容纳N个文件,要使用这些压缩 ...

  10. Html中几种图片格式的区别与使用--我的笔记

    在HTML中通过 img src="图片路径" 引入图片. 常见的图片格式有JPEG(JPG),PNG,GIF. GIF图片的扩展名是gif.现在所有的图形浏览器都支持GIF格式, ...

最新文章

  1. ST为飞行时间传感器增加了多目标测距
  2. 数据分析惯用的5种思维方法
  3. hive python udf_python udf方法
  4. 深入理解Java中的抽象类和接口
  5. 如何在大流量场景下云淡风轻地进行线上发布?
  6. [原]Jenkins(十二)---jenkins管理员用户无法登陆解决办法Access Denied
  7. 23期PHP基础班第四天
  8. 新窗口打开html页面,网页是选择新窗口打开还是原窗口打开?
  9. matlab dynprog,动态规划算法
  10. MemCache详细解读(转)
  11. 关于开通全国计算机技术与软件专业技术资格(水平)考试继续教育远程培训平台的通知...
  12. 【转】【JLINK下载失败,STLINK下载失败万能解决方案】JLINK和STLINK都无法下载时的解决办法,此时芯片并没有报废...
  13. el表达式跟ognl表达式的区别(用法和页面取值)
  14. 停课不停学,大型网课直播翻车现场,你别笑,哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈啊哈...
  15. ADB 操作命令详解及用法大全
  16. 摸爬滚打半年,我是如何从小白进阶到渗透测试工程师
  17. android 如何读取u盘中数据恢复,U盘数据恢复
  18. 长尾词推广系统推荐乐云seo_长尾词优化推广很好乐云seo
  19. 在苹果做了十年公关,我总结了这五条建议
  20. java bcd asc_BCD码和ASCII码的区别

热门文章

  1. web-4. 装饰页面的图像
  2. 【深度学习系列】PaddlePaddle可视化之VisualDL
  3. 第一章数据结构和算法简介
  4. 【工匠大道】博客园小技巧
  5. Splash特征描述子
  6. 'webpack-dev-server' 不是内部或外部命令,也不是可运行的程序 或批处理文件。报错...
  7. ABAP中的枚举对象
  8. leetcode 181 Employees Earning More Than Their Managers 不会分析的数据库复杂度
  9. Tomcat Linux下自启动
  10. 【有意思的BUG】未名