在大数据处理的诸多技术框架当中,Hadoop始终是不可忽视的一项,即使有了后来的诸多技术框架,诸如Spark、Storm等,但是Hadoop的核心基础架构,依然在实际开发当中得到重用。今天的大数据培训hadoop内容分享,我们主要来讲Hadoop核心架构。

Hadoop的核心,说白了,就是HDFS和MapReduce。HDFS为海量数据提供了存储,而MapReduce为海量数据提供了计算框架。

Hadoop核心架构

首先看看HDFS,典型的主从架构,用TCP/IP通信。

整个HDFS有三个重要角色:NameNode(名称节点)、DataNode(数据节点)和Client(客户机)。

NameNode:是Master节点(主节点),可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

DataNode:是Slave节点(从节点),是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。

Client:切分文件;访问HDFS;与NameNode交互,获得文件位置信息;与DataNode交互,读取和写入数据。 

还有一个Block(块)的概念:Block是HDFS中的基本读写单元;HDFS中的文件都是被切割为block(块)进行存储的;这些块被复制到多个DataNode中;块的大小(通常为64MB)和复制的块数量在创建文件时由Client决定。

再来看MapReduce。

MapReduce其实是一种编程模型。这个模型的核心步骤主要分两部分:Map(映射)和Reduce(归约)。

当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。

关于大数据Hadoop核心架构,以上就是今天的讲解内容了。Hadoop在大数据当中,始终有着重大的影响力,所以学习大数据,仍然必学Hadoop。

hadoop api 复制文件_Hadoop核心架构是怎样的?相关推荐

  1. hadoop api 复制文件_Hadoop发布新组件:分布式对象存储系统Ozone

    大数据 / 人工智能 / 区块链 / 数据库 / 分布式存储 2020年9月,Ozone 1.0.0分布式对象存储系统在Apache Hadoop社区正式发布.据了解,经过2年多的社区持续开发和内部1 ...

  2. hadoop重命名文件_hadoop HDFS常用文件操作命令

    命令基本格式: hadoop fs -cmd < args > 1.ls hadoop fs -ls / 列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls -R / 列 ...

  3. hadoop重命名文件_Hadoop -- 3. 从Flume到HDFS

    提起Flume, 就先讲一下它的基本作用, 它可以从不同的数据源导入到一个集中的地方存放起来,基本架构如下图所示 *上图为Flume Data Flow Model, Ref: Flume 1.9.0 ...

  4. hadoop API之:文件操作

    hadoop API之:文件操作 @(HADOOP)[hadoop, hadoop2] hadoop API之文件操作 1读取文件 2文件复制 3获取文件属性 4列出某个目录下的文件 5读取seque ...

  5. Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

    编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase.Hive这两个核心工具也随着Hadoop发展变得越来越重要.本文作者张震的博文<Thinking in BigD ...

  6. Hadoop核心架构(1)

    在大数据的发展过程中,出现了一批专门应用与大数据的处理分析工具,如Hadoop,Hbase,Hive,Spark等,我们先从最基础的Hadoop开始进行介绍 Hadoop是apache基金会下所开发的 ...

  7. Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

          纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.H ...

  8. 大数据时代|核心架构Hadoop入门学习之HDFS,循序渐进求真知

    前言 当今世界,科学技术飞速发展,人们不知不觉的进入了大数据时代.而什么是大数据时代,大数据的发展是什么?这一系列的问题其实很抽象,很难一言半语的概括.但是,在这大数据时代,必须掌握相应的技术作为支撑 ...

  9. 易语言复制C指针,易语言教程API模块制作cmd复制文件

    使用cmd命令封装易语言复制文件. cmd_复制文件 1. 使用cmd命令复制文件 COPY [/D] [/V] [/N] [/Y | /-Y] [/Z] [/L] [/A | /B ] source ...

  10. 技术小白成长之路 - 谷歌云端 GCP Cloud Engineering - 第一篇 - 核心架构 Core Infrastructure

    谷歌云端 GCP Cloud Engineering Certificate - 第一篇 - 核心架构 Core Infrastructure 谷歌云端平台GCP简介 1. 谷歌云端平台GCP资源层次 ...

最新文章

  1. 区块链BaaS云服务(31) 吉利 Concordium区块链
  2. Angular使用中的编码tips(持续更)
  3. pandas 更改单元格的值_懂Excel轻松入门Python数据分析包pandas(二十四):连续区域...
  4. devstack mysql_DevStack部署OpenStack开发环境 - 问题总结
  5. SharePoint 2013 配置InfoPath 列表表单
  6. spring与mybatis
  7. Pytorch基本变量类型FloatTensor与Variable
  8. VS C++ 从字符串中查找字符最后一次出现的位置 strrchr
  9. VSCode中使用CodeRunner运行Python乱码
  10. win7安装oracle 黑屏,苹果电脑装Windows7黑屏的原因和解决方案
  11. php表单设置出生日期,纯JS实现出生日期[年月日]下拉菜单效果_茜茜_前端开发者...
  12. Column 'id' in where clause is ambiguous
  13. Mysql报错Table ‘blog.user‘ doesn‘t exist
  14. 雅思系列学习——词汇(持续更新)
  15. qiime1安装教程 for mac
  16. 实验吧(逆向):分道扬镳
  17. 搭建本地AOSP Gerrit Server完全指南 (二)
  18. MySQL查询出的时间与实际时间相差八小时
  19. 怎么恢复苹果回收站删除的文件呢?
  20. android闪退黑屏,艾诺迪亚4闪退黑屏原因及解决方法

热门文章

  1. 阿里云高级技术专家彦林:云原生架构下的微服务演进
  2. 35+大龄程序员被清退?
  3. 【车牌识别】基于matlab APP模板匹配车牌识别(桂贵京粤苏渝)【含Matlab源码 217期】
  4. 【目标定位】基于matlab去偏卡尔曼滤波目标定位仿真【含Matlab源码 140期】
  5. 2021年全国研究生数学建模指导
  6. 【优化调度】基于matlab粒子群算法求解水火电调度优化问题【含Matlab源码 1181期】
  7. 【语音识别】基于matlab带动量项的BP神经网络语音识别【含Matlab源码 430期】
  8. 【图像增强】基于matlab局部对比度增强的CLAHE算法直方图增强【含Matlab源码 1341期】
  9. php如何判断一个类是否存在,PHP利用判断类是否存在函数class_exists用法的简单示例...
  10. java 的strip_javastript