MapReduce是什么

MapReduce是Hadoop(这种大数据处理生态环境)的编程模型。

既然称为模型,则意味着它有固定的形式。

MapReduce编程模型,就是Hadoop生态环境进行数据分析处理的固定的编程形式。

这种固定的编程形式描述如下:

MapReduce任务过程被分为两个阶段:map阶段和reduce阶段。每个阶段都以键/值对作为输入和输出,并由程序员选择他们的类型。

也就是说,程序员只需要定义两个函数:map函数和reduce函数就好了,其他的计算过程交给hadoop就好了。

通过以上描述,我们可以看出:

MapReduce所能处理的场景实际是非常具体的,非常有限的,只是“数据的统计分析”场景。

输入数据准备

天气预报官方网址:ftp://ftp.ncdc.noaa.gov/pub/data/gsod/

但是,发现这个官方网址的文件格式和《Hadoop权威指南》所用的格式不一致,不知道是时间久了,官网的格式变了,还是作者对原始格式进行过处理,亦或这个网址根本不对,所以继而又到《Hadoop权威指南》指定的地址下载了一个,地址如下:

https://github.com/tomwhite/hadoop-book/tree/master/input/ncdc/all

但是这个地址的1901.gz/1902.gz这另个文件经常比较难下载,有时也不对,

MapReduce编程实战之“初识”相关推荐

  1. MapReduce编程实战之“调试”

    本篇内容 在上一篇的"初识"环节,我们已经在本地和Hadoop集群中,成功的运行了几个MapReduce程序,对MapReduce编程,已经有了最初的理解. 在本篇文章中,我们对M ...

  2. 第七章-mapreduce编程实战实验

    实验的推进模式 先配置好eclipse for hadoop 直接借用WordCount去测试 利用WordCount的基本程序框架,编写自己的代码 要点:map/reduce的所在的类和方法的数据类 ...

  3. MapReduce编程实战之“I/O”

    本篇通过对MapReduce模型的分析,加深对MapReduce模型的了解:并介绍MapReduc编程模型的常用输入格式和输出格式,在这些常用格式之外,我们可以扩展自己的输入格式,比如:如果我们需要把 ...

  4. MapReduce 编程实战

    MapReduce 采用了「分而治之」的思想.在分布式计算中,MapReduce 框架负责处理并行编程中分布式存储.工作调度.负载均衡.容错均衡.容错处理以及网络通信等复杂问题,把处理过程高度抽象为两 ...

  5. MapReduce编程实战之“高级特性”

    本篇介绍MapReduce的一些高级特性,如计数器.数据集的排序和连接.计数器是一种收集作业统计信息的有效手段,排序是MapReduce的核心技术,MapReduce也能够执行大型数据集间的" ...

  6. MapReduce编程实战之“工作原理”

    篇简单剖析MapReduce1.0和MapReduce2.0(yarn)的工作机制. MapReduce1.0工作原理 运行整体图 作业执行过程 关于作业的执行过程,大致分为:提交.初始化.分配任务. ...

  7. 《MapReduce 2.0源码分析与编程实战》一第1章 HBase介绍

    本节书摘来异步社区<MapReduce 2.0源码分析与编程实战>一书中的第1章,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区"异步社区"公众号查看. ...

  8. 《MapReduce 2.0源码分析与编程实战》一1.5 看,大象也会跳舞

    本节书摘来异步社区<MapReduce 2.0源码分析与编程实战>一书中的第1章,第1.5节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区"异步社区"公 ...

  9. 大数据之Hadoop学习——动手实战学习MapReduce编程实例

    文章目录 一.MapReduce理论基础 二.Hadoop.Spark学习路线及资源收纳 三.MapReduce编程实例 1.自定义对象序列化 需求分析 报错:Exception in thread ...

最新文章

  1. 安装python3.7和PyCharm专业版
  2. 跟我学XSL(二) -XSL的运算符
  3. 2011年最后一篇博客—就医感慨!
  4. docker设置http_proxy https_proxy解决gcr.io/kaniko-project/executor:v1.7.0之类的镜像拉取问题
  5. 【机器视觉】 set_fuzzy_measure算子
  6. Java连接数据库所遇到的坑,连接数据库,遇到一个很奇怪的问题……
  7. 【LeetCode】剑指 Offer 30. 包含min函数的栈
  8. J2SE:Java环境搭建探究环境变量
  9. vs2017 html安装,解决vs2017无法安装问题
  10. 乐理:十二平均律与大小调
  11. 【猿说理财】《一》理财需要理由吗
  12. filevault(电子仓库)自动切换文件夹以及文档最大值设置
  13. stm32笔记02——ST-Link下载器使用说明
  14. Arduino框架下STM32F1/F4系列HID模式程序烧录教程
  15. 含有js的英文单词_js-组成-dom-常见单词
  16. 自控第三章matlab,刘金锟 先进PID控制及MATLAB仿真第3章专家PID学习心得及疑问
  17. streamsets 链接mysql_StreamSets:MySQL Binary Log
  18. 关于虚拟串口驱动专业版 Eltima Virtual Serial Port Driver Pro 注册原理
  19. linux下查看tomcat宕机并自动重启
  20. html的评论功能,我的评论功能开发(含评论删除功能)

热门文章

  1. MySQL存储过程之代码块、条件控制、迭代
  2. RHEL5系列之三:GNOME桌面的简单管理应用(1)
  3. 算法提高课-数学知识-矩阵乘法-AcWing 1303. 斐波那契前 n 项和:矩阵乘法,快速幂,线性代数
  4. PAT甲级1008 Elevator:[C++题解]模拟
  5. tcp/ip 协议栈Linux源码分析三 IPv4分片报文重组分析三
  6. Linux开发环境搭建一 ubuntu安装ssh
  7. python程序设计与科学计算pdf_用Python做科学计算 pdf版
  8. oracle12c分页,ArcSDE10.2.1使用Oracle12c新特性分页
  9. pytest allure测试报告_Appium+pytest+allure+jenkins如何实现多台手机连接
  10. gridcontrol 验证错误_值得品读的人生感悟句子,生气,是拿别人的错误惩罚自己...