概述
这是mapreduce的一种优化策略:通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘IO,提高MR程序运行速度(但相应增加了cpu运算负担)
1、 Mapreduce支持将map输出的结果或者reduce输出的结果进行压缩,以减少网络IO或最终输出数据的体积
2、 压缩特性运用得当能提高性能,但运用不当也可能降低性能
3、 基本原则:
运算密集型的job,少用压缩
IO密集型的job,多用压缩

4.3.2 MR支持的压缩编码

4.3.3 Reducer输出压缩
在配置参数或在代码中都可以设置reduce的输出压缩
1、在配置参数中设置
mapreduce.output.fileoutputformat.compress=false
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.DefaultCodec
mapreduce.output.fileoutputformat.compress.type=RECORD

2、在代码中设置
Job job = Job.getInstance(conf);
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, (Class

mapreduce数据压缩相关推荐

  1. CC00046.hadoop——|HadoopMapReduce.V19|——|Hadoop.v19|MapReduce数据压缩机制|

    一.shuffle阶段数据的压缩机制 ### --- Hadoop当中支持的额压缩算法~~~ 数据压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输!! ~~~ 我们可以使用bin/hadoo ...

  2. MAPREDUCE实践篇(2)

    4.1. Mapreduce中的排序初步 4.1.1 需求 对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果 数据如下: 1363157985066 1372623050300-FD- ...

  3. 什么是MapReduce?MapReduce的运行机制是什么?MapReduce的实现过程

    1. MAPREDUCE原理篇(1) Mapreduce是一个分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析应用"的核心框架: Mapreduce核心功能是将用户 ...

  4. 04 MapReduce

    Hadoop之 MapReduce 04 MapReduce 第 1 章 MapReduce 概述 **1.1 MapReduce 定义** **1.2 MapReduce 优缺点** **1.3 M ...

  5. 大数据技术之Hadoop(MapReduce)

    大数据技术之Hadoop(MapReduce) (作者:大数据研发部) 版本:V1.4 第1章MapReduce入门 map 计算 reduce 规约 1.1 MapReduce定义 Mapreduc ...

  6. 大数据基础之Hadoop(三)—— MapReduce

    作者:duktig 博客:https://duktig.cn (文章首发) 优秀还努力.愿你付出甘之如饴,所得归于欢喜. 本篇文章源码参看:https://github.com/duktig666/b ...

  7. hadoop生态圈面试精华之Hadoop基础

    Hadoop基础 介绍下Hadoop 回答技巧:说下Hadoop核心组件,讲下HDFS原理.MapReduce过程等,也可以在介绍完组件部分后, 看看面试官会不会继续往下问(比如让你说下HDFS读写流 ...

  8. 2021年大数据Hive(九):Hive的数据压缩

    全网最详细的大数据Hive文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Hive的数据压缩 一.MR支持的压缩编码 二.压缩配置 ...

  9. Hadoop 4、Hadoop MapReduce的工作原理

    一.MapReduce的概念 MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框就是mapreduce,两者缺一不可,也就是 ...

  10. MapReduce的优化

    MapReduce的优化 MapReduce 运行慢的原因 1.计算机性能 2.I/O操作优化 MapReduce的优化方法 1.数据输入 2.Map阶段 3.Reduce阶段 4.IO传输 5.数据 ...

最新文章

  1. ios html cookies,iOS-WKWebView携带cookie发送http请求,cookie失效
  2. CMS GC:CMS 废弃了,该怎么办呢?
  3. java文件读写操作大全
  4. 学术顶会再突破!计算平台MaxCompute论文入选国际顶会VLDB 2021
  5. 面试官爱问的10大经典排序算法,20+张图来搞定
  6. 建设工程项目全寿命周期管理是指_(必过)2020年二建机电《施工管理》考前必背精华知识点整理一...
  7. itextpdf添加表格元素_itext生成pdf文件-表格
  8. 计算机网络(三)——TCP/IP协议
  9. 电商产品页多种出彩表现设计手法!
  10. Kubernetes之Pod调度
  11. 2022年身份证号码信息查询API接口分享
  12. 静态博客网站——vuepress功能进化
  13. 无惧浩瀚数据 超云XS5000集群存储为扩展而生
  14. windows xp下如何安装SQL server2000企业版
  15. spring-boot-starter-data-redis
  16. 看我如何发送匿名邮件(.NET)
  17. mysql查询语句结果导出excel_mysql 导出select语句结果到excel文件等
  18. 泰克|是德|普源|力科|RS示波器软件下载
  19. (备忘录)matplotlib安装
  20. Transformer课程:理解语言的 Transformer 模型-位置编码及掩码 (Masking)

热门文章

  1. 并发编程之美(1)并发编程基础
  2. Python基础语法-04-生成器,迭代器
  3. ajax 请求与响应,实例解读ajax发送请求与数据响应
  4. vue前台导出zip文件_在vue.js中使用JSZip实现在前端解压文件的方法
  5. AS解决在导入library之后lable/icon/theme合并出现bug
  6. 性能测试--jmeter中的察看结果树【7】
  7. 解释下列术语堆栈型计算机,第二章 计算机指令集结构
  8. html中src中的url,HTML 中的 href\src\url
  9. 同步数据太多php网页卡死_curl_multi网页假死/卡死的解决方法
  10. tcp网络示例客户端端以及代码,演示