【hive】如何设置hive以及MapReduce的压缩方式?
一、MapReduce的压缩方式的介绍
压缩compress:目的是为了压缩map输出的 结果数据,减少网络IO和磁盘IO流
常见的压缩算法:Snappy、Lz4,Lzo
配置压缩:MapReduce ,配置 map端的输出有压缩
mapreduce.map.output.compress = true
mapreduce.map.output.compress.codec="org.apache.hadoop.io.compress.Lz4Codec"
三种方式:
1. 可以通过配置mapred-site.xml文件:
mapreduce.map.output.compress = true
mapreduce.map.output.compress.codec="org.apache.hadoop.io.compress.Lz4Codec"
2.配置MapReduce程序中的configuration中设置。
3. 可以通过提交任务时,bin/hdfs jar xxx.jar sourcefile outputfile –D (后面跟压缩方式)
二、Hive的压缩方式的介绍
对于Hive话,怎么配置呢?
有两种方式进行设置:
1.在命令行:
sethive.exec.compress.intermediate=true;
setmapreduce.map.output.compress=true;
setmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;
如下图所示:
执行之后的结果(这几种都可以。这里只截一个的图)在UI界面查看,主机名+端口号50070
压缩后的数据—以字节算
比较下面各种压缩方式,
压缩方式 |
结果 |
不压缩 |
2083838 |
org.apache.hadoop.io.compress.Lz4Codec |
1230428 |
org.apache.hadoop.io.compress.SnappyCodec |
1201217 |
org.apache.hadoop.io.compress.BZip2Codec |
731133 |
比较以上几种压缩方式,我们一般选择lz4以及snappy、lzo这三种压缩方式,bzip2压缩太多,解压时也需要花费时间和CPU。所以选择前三种是最好的压缩刚好一半。
针对MapReduce程序 map out 数据进行压缩配置,将对应的配置写到*-site.xml文件中,对所有MapReduce程序和HiveQL都是用压缩,配置mapred-site.xml
setmapreduce.map.output.compress=true;
setmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.BZip2Codec;
以及hive-site.xml
set hive.exec.compress.intermediate=true;
如下图所示:
配置xml文件是长期有效的压缩方式,通过命令配置的话是当前会话有效。
【hive】如何设置hive以及MapReduce的压缩方式?相关推荐
- 大数据基础之Hive(四)—— 常用函数和压缩存储
作者:duktig 博客:https://duktig.cn (文章首发) 优秀还努力.愿你付出甘之如饴,所得归于欢喜. 更多文章参看github知识库:https://github.com/dukt ...
- hive常用设置参数
hadoop 常用参数整理 (2013-01-16 15:06:22)转载▼ 标签: 杂谈 分类: hadoop hadoop 版本1.03 hadoop.tmp.dir ---> mapred ...
- USDP使用笔记(五)设置Hive on Tez解决return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask问题
前言 使用Hive的命令行或者beeline时,经常有测试HQL语法或者逻辑计算公式是否正确的需求,使用Load灌数据到Hive太过重量级了,轻度使用的场景下难免会用到insert操作. 然鹅Hive ...
- Hive报错:Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce
最近在做hive练习题时使用hive查询报错 Hadoop job information for Stage-3: number of mappers: 0; number of reducers: ...
- [Hive基础]-- Hive table 的压缩方式和存储格式
目录 一.了解 Hadoop 的压缩方式 1.Hadoop 的压缩方式的基本信息 2.Hadoop 压缩方式优缺点对比 二. Hive table的存储格式 1.TEXTFILE 2.Parquet ...
- Hive分区表count(*)不起mapreduce的真相
问题背景: 在对Hive求count(*)时,发现有些表会启mapreduce计算.返回 结果,比较耗时,有的表1秒之内返回结果 刚开始以为刚刚执行过一次count()后会对结果进行缓存,不用再去跑m ...
- 设置hive的执行引擎_0506-如何将Hue4.0版本中默认执行引擎设置为Hive而非Impala
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图. Fayson的github: https://github.com/fayson/cdhproject 提示 ...
- Hive表设置支持中文注释、中文表数据导入
问题 1.创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱 create table student_score( stu_id string comment '学生i ...
- hive中设置jobname
hive中设置jobname hive> set mapred.job.name=test; 两种情况, 1,成功,end 2,失败报错,cannot modify mapred.job.nam ...
最新文章
- 刷题总结——魔法森林(bzoj3669)
- Have a tea -(极客大挑战(SMC,fork
- Android属性动画 PropertyValuesHolder
- php socket(服务端与客户端)demo
- Mongodb 基础 查询表达式
- 什么流读取MultipartFile_深入理解并运用Node中的IO模型流
- ReentrantLock 中的 4 个坑!
- Javascript——DOM编程
- 全志h6对比晶晨s905_一决雌雄!64位芯片晶晨S905对比瑞芯微RK3368谁胜?
- 减肥怎么减?最全减肥食谱(超厉害的)
- 用计算机弹歌曲fade,抖音短视频踢脚舞是什么歌 Faded歌曲分享
- RabbitMQ高可用集群搭建
- Pandas初体验——头歌平台答案
- 操作系统文件管理之FCB
- eclipse如何用Debug调试程序
- 老男孩教育-42期-冯家豪-决心书
- 利用confluence搭建wiki
- 超文本标记语言主要通过Html,11.HTML中文译为“超文本标记语言”,主要是通过HTML标记对网页中的( )等内容进行描述。...
- 低噪声放大器(LNA)的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
- 【C++学习一】C++实战CMatrix类的创建
热门文章
- sqlalchemy filter
- echarts 柱状图(bar)
- R语言聚类算法之期望最大化聚类(Expectation Maximization Algorithm)
- kafka jar包_Kafka系列文章之安装测试-第2篇
- vSphere 5.5:使用 RVC VSAN 监控工具
- 富士康被黑客攻击,索要 2.3 亿元赎金:已加密约1200台服务器,窃取了100 GB的未加密文件,并删除20~30TB的备份
- Java基础学习总结(127)——Java方法应该返回空对象还是null
- ajax提示弹出dev,windows git pull或者push代码时弹出安全框解决办法
- centos dns服务器_CentOS-6 实战三 搭建DNS服务器
- 差分电荷密度 matlab,差分电荷密度