一、MapReduce的压缩方式的介绍

压缩compress:目的是为了压缩map输出的 结果数据,减少网络IO和磁盘IO流

常见的压缩算法:Snappy、Lz4,Lzo

配置压缩:MapReduce ,配置 map端的输出有压缩

mapreduce.map.output.compress = true

mapreduce.map.output.compress.codec="org.apache.hadoop.io.compress.Lz4Codec"

三种方式:

1.      可以通过配置mapred-site.xml文件:

mapreduce.map.output.compress = true

mapreduce.map.output.compress.codec="org.apache.hadoop.io.compress.Lz4Codec"

2.配置MapReduce程序中的configuration中设置。

3. 可以通过提交任务时,bin/hdfs jar xxx.jar sourcefile  outputfile  –D (后面跟压缩方式)

 二、Hive的压缩方式的介绍

对于Hive话,怎么配置呢?

有两种方式进行设置:

1.在命令行:

sethive.exec.compress.intermediate=true;

setmapreduce.map.output.compress=true;

setmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;

如下图所示:

执行之后的结果(这几种都可以。这里只截一个的图)在UI界面查看,主机名+端口号50070

压缩后的数据—以字节算

比较下面各种压缩方式,

压缩方式

结果

不压缩

2083838

org.apache.hadoop.io.compress.Lz4Codec

1230428

org.apache.hadoop.io.compress.SnappyCodec

1201217

org.apache.hadoop.io.compress.BZip2Codec

731133

比较以上几种压缩方式,我们一般选择lz4以及snappy、lzo这三种压缩方式,bzip2压缩太多,解压时也需要花费时间和CPU。所以选择前三种是最好的压缩刚好一半。

针对MapReduce程序 map out 数据进行压缩配置,将对应的配置写到*-site.xml文件中,对所有MapReduce程序和HiveQL都是用压缩,配置mapred-site.xml

setmapreduce.map.output.compress=true;

setmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;

以及hive-site.xml

set hive.exec.compress.intermediate=true;

如下图所示:

配置xml文件是长期有效的压缩方式,通过命令配置的话是当前会话有效。

【hive】如何设置hive以及MapReduce的压缩方式?相关推荐

  1. 大数据基础之Hive(四)—— 常用函数和压缩存储

    作者:duktig 博客:https://duktig.cn (文章首发) 优秀还努力.愿你付出甘之如饴,所得归于欢喜. 更多文章参看github知识库:https://github.com/dukt ...

  2. hive常用设置参数

    hadoop 常用参数整理 (2013-01-16 15:06:22)转载▼ 标签: 杂谈 分类: hadoop hadoop 版本1.03 hadoop.tmp.dir ---> mapred ...

  3. USDP使用笔记(五)设置Hive on Tez解决return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask问题

    前言 使用Hive的命令行或者beeline时,经常有测试HQL语法或者逻辑计算公式是否正确的需求,使用Load灌数据到Hive太过重量级了,轻度使用的场景下难免会用到insert操作. 然鹅Hive ...

  4. Hive报错:Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce

    最近在做hive练习题时使用hive查询报错 Hadoop job information for Stage-3: number of mappers: 0; number of reducers: ...

  5. [Hive基础]-- Hive table 的压缩方式和存储格式

    目录 一.了解 Hadoop 的压缩方式 1.Hadoop 的压缩方式的基本信息 2.Hadoop 压缩方式优缺点对比 二. Hive table的存储格式 1.TEXTFILE 2.Parquet ...

  6. Hive分区表count(*)不起mapreduce的真相

    问题背景: 在对Hive求count(*)时,发现有些表会启mapreduce计算.返回 结果,比较耗时,有的表1秒之内返回结果 刚开始以为刚刚执行过一次count()后会对结果进行缓存,不用再去跑m ...

  7. 设置hive的执行引擎_0506-如何将Hue4.0版本中默认执行引擎设置为Hive而非Impala

    温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图. Fayson的github: https://github.com/fayson/cdhproject 提示 ...

  8. Hive表设置支持中文注释、中文表数据导入

    问题 1.创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱 create table student_score( stu_id string comment '学生i ...

  9. hive中设置jobname

    hive中设置jobname hive> set mapred.job.name=test; 两种情况, 1,成功,end 2,失败报错,cannot modify mapred.job.nam ...

最新文章

  1. 刷题总结——魔法森林(bzoj3669)
  2. Have a tea -(极客大挑战(SMC,fork
  3. Android属性动画 PropertyValuesHolder
  4. php socket(服务端与客户端)demo
  5. Mongodb 基础 查询表达式
  6. 什么流读取MultipartFile_深入理解并运用Node中的IO模型流
  7. ReentrantLock 中的 4 个坑!
  8. Javascript——DOM编程
  9. 全志h6对比晶晨s905_一决雌雄!64位芯片晶晨S905对比瑞芯微RK3368谁胜?
  10. 减肥怎么减?最全减肥食谱(超厉害的)
  11. 用计算机弹歌曲fade,抖音短视频踢脚舞是什么歌 Faded歌曲分享
  12. RabbitMQ高可用集群搭建
  13. Pandas初体验——头歌平台答案
  14. 操作系统文件管理之FCB
  15. eclipse如何用Debug调试程序
  16. 老男孩教育-42期-冯家豪-决心书
  17. 利用confluence搭建wiki
  18. 超文本标记语言主要通过Html,11.HTML中文译为“超文本标记语言”,主要是通过HTML标记对网页中的( )等内容进行描述。...
  19. 低噪声放大器(LNA)的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  20. 【C++学习一】C++实战CMatrix类的创建

热门文章

  1. sqlalchemy filter
  2. echarts 柱状图(bar)
  3. R语言聚类算法之期望最大化聚类(Expectation Maximization Algorithm)
  4. kafka jar包_Kafka系列文章之安装测试-第2篇
  5. vSphere 5.5:使用 RVC VSAN 监控工具
  6. 富士康被黑客攻击,索要 2.3 亿元赎金:已加密约1200台服务器,窃取了100 GB的未加密文件,并删除20~30TB的备份
  7. Java基础学习总结(127)——Java方法应该返回空对象还是null
  8. ajax提示弹出dev,windows git pull或者push代码时弹出安全框解决办法
  9. centos dns服务器_CentOS-6 实战三 搭建DNS服务器
  10. 差分电荷密度 matlab,差分电荷密度