如何做番茄炖牛腩——hadoop学习

1.背景

作为一个白的不能再白的数据分析师,在给各业务方按需求捞数据的时候,在提取数据的时候总会出现一些map、reduce巴拉巴拉一些奇怪的东西,索性大概系统粗浅的学习下。由于本人浑身带着一种文科安静祥和的气质,又爱好做饭,可能这样瞎B类比有助于自己理解(对错就不知道了)。

2.初识MapReduce

可以想象自己目标是做一份番茄牛腩,先去偌大的菜市场购买原材料(牛腩、番茄、葱姜蒜、料酒生抽老抽调味品)。几斤牛腩、几个番茄、多少调料,这些都是map阶段,也就是数据准备阶段。该洗菜洗菜、该切肉切肉。洗剥干净就开始炖,也就是reduce作为数据处理的阶段。最后出锅。接下来详细介绍如何买菜(map阶段)、如何炖(reduce阶段)

2.1 map阶段

首先copy书上的一些术语,hadoop将输入数据划分等长小数据块,每个分片构造一个map任务,并由运行用户自定义的map函数处理分片的每条记录;这也就是去菜市场肉蛋区买肉、蔬菜区买蔬菜、调料区买调料。
买菜的时候问题来了。买牛腩的时候,这家店的牛腩都被其他大佬定了,没你的份怎么办?换一家呗,实在不行换个菜市场看看。用术语来说,就是对于一个map任务的输入分片拉上,储存该分片的HDFS数据块复本的所有节点可能正在运行其他map任务,此时作业调度需要从某一数据块所在机架中的一个节点上寻找一个空闲的map槽来运行该map任务。买好菜,然后就是洗菜切肉的数据准备工作了。

2.2 reduce阶段

map任务和reduce任务之间的阶段叫做shuffle(混洗),一个reduce任务的输入可能来自于多个map任务。牛腩肯定是要凉水入锅,加料酒、姜来去腥味的。八角、桂皮、香叶需要放在一起做成香料包备用。番茄切小块备用。shuffle(混洗)之后就可以进行reduce任务了。
起炒锅放油,葱姜蒜干辣椒爆香。放番茄块煸炒,再放牛肉上色,加生抽和冰糖。加开水和香料包开始炖一个小时。出锅输出~

3.Hadoop分布式文件系统

HDFS集群里有两类节点以管理节点-工作节点模式运行,即一个namenode(管理节点)和datanode(工作节点)。(待整理)

如何做番茄炖牛腩——hadoop理解相关推荐

  1. 番茄炖牛腩做法,味美汤浓开胃爽口,牛腩入口即化,太下饭!

    番茄炖牛腩,主材是番茄和牛腩,主要烹饪工艺是炖.番茄去了皮,切的细细的,慢慢的炖成酱,再加了牛肉一起炖,让牛肉充分吸收的番茄的味道.番茄酱也在慢慢熬煮的过程中与牛肉相互融合. 肉类当中牛肉含有非常优质 ...

  2. 大锅菜机器人_天津农学院现“炒菜机器人” 做番茄炒蛋堪比大师傅

    黄莺是农学院大三的学生,平常不会做饭的她却要为全校同学做一道番茄炒蛋.没想到,仅仅过了六分钟.一道色香味俱全的番茄炒蛋就出锅了,黄莺尝了一口发现,不仅味道酸甜可口,鸡蛋炒成了蛋皮,松软弹口,一点也不结 ...

  3. fwoa中做excel导入时page理解

    1.问题描述 做excel导入时发现有如下代码 疑问:<jsp:useBean/>标记和直接new一个bean对象有什么区别? useBean会先判断要生成的对象是否在相应的生命周期内已经 ...

  4. 业务分析系列主题:做设计时,怎样理解和构建业务场景闭环?

    在很长一段时期,产品经理和设计师在谈产品体验时,更多的是关注于用户本身,如今开始更加深入地探究用户和产品所处的业务场景,这样视野更大. 将业务场景纳入整个产品设计体系中,其实是将以往设计过程中被忽略的 ...

  5. CODING 敏捷实战系列加餐课:CODING 做敏捷这一年 - 理解一站式 DevOps 产品思想

    在数字化协同的大背景下,过去一年 CODING 以老牌代码托管工具为基础,华丽转型为一站式 DevOps 研发管理工具.本次课程 <CODING 做敏捷这一年:理解一站式 DevOps 产品思想 ...

  6. Hadoop是做什么的,hadoop集群搭建作用

    目的 本文描述了如何安装.配置和管理有实际意义的Hadoop集群,其规模可从几个节点的小集群到几千个节点的超大集群. 如果你希望在单机上安装Hadoop玩玩,从这里能找到相关细节. 更多精彩内容 精彩 ...

  7. 外贸多语种视频营销是怎么做的?原理如何理解?

    无论哪种营销方式,本质上都是从一个流量池中引流.这个流量池越巨大,同等情况下引流的效果就越好.谷歌SEO的流量池是Google搜索引擎,多语种视频营销的流量池就是各大视频平台,通过在这些平台上发布视频 ...

  8. ODBC和JDBC是做什么的?为初学者理解概念问题

    什么是JDBC? JDBC, 全称为Java DataBase Connectivity standard, 它是一个面向对象的应用程序接口(API), 通过它可访问各类关系数据库.JDBC也是jav ...

  9. 阅读书《电子电路原理》截取的一些最核心的思想,找了个课程上海交通大学 郑益慧主讲做辅助(保证基本的理解是对的)。电路要以基本特性为基础从设计角度理解

    一.戴维南 和 诺顿 物理量 过程 戴维南等效 诺顿等效 步骤 l 将负载电阻开路 将负载电阻短路 步骤 2 计算或测量开路电 压, 即戴维南电压 计算或测量短路电流,即诺顿电流 步骤 3 将电压源短 ...

最新文章

  1. 神经网络的可解释性综述
  2. FPGA之道(62)时空变换之空间换时间
  3. Phantom.js维护者退出,项目的未来成疑
  4. C语言的补码表示和unsigned及signed的转换
  5. (转载)adb模拟按键事件KeyCode
  6. 高亮屏幕一条条线_惠普Z24N G2显示器评测 设计师都想要的好屏幕
  7. 如是院长说:买不起房就多买两套,大家怎么看
  8. 分享10 比较非常实用的 Docker技巧,欢迎收藏!
  9. 询问HTG:白噪声屏幕保护程序,有效的文件命名以及从密码泄露中恢复
  10. 使用Servlet上传多张图片——Dao层(ProductInfoDao.java)
  11. c2010页面闪现_vue使用v-if v-show页面闪烁,div闪现的解决方法
  12. 类似jquery的一个demo
  13. C#正则表达式Regex类的用法
  14. Linux卸载JDK的方法
  15. 嵌入式程序和FW的区别
  16. html怎么做成gif,(图解)如何制作gif动态图片
  17. 客户流失预测——相关论文学习笔记
  18. 计算机重做系统有什么好处,电脑卡重装系统有用吗|电脑太卡可以重装系统解决吗...
  19. Java - Eclipse: Error notifying a preference change listener
  20. Windows7 64bit下配置Apache+PHP+MySQL

热门文章

  1. 分布式学习(6)etcd@3@ API v3 gRPC_range,put,deleterange
  2. 快排的三种优化方式。
  3. termux安装以及基本配置
  4. OpenHarmony 3.1Release 电话功能演示—基于润和DAYU200开发套件
  5. 为你的个人博客添加访客地图
  6. 常用的PDF分割压缩软件有哪些?
  7. Xshell6官网个人免费版下载
  8. 基本模型计算机框架原理设计 题目分析,计算机销售论文大纲模板 计算机销售论文框架怎么写...
  9. WMS系统的功能,业务和定义
  10. 存储过程,查询结果赋值给定义变量