Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。

HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。

NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
  1. 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
  2. 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
  3. 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  4. 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
  5. 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop 学习之Docker 参考:http://www.cnblogs.com/frankliu/p/8303225.html

转载于:https://www.cnblogs.com/frankliu/p/8278566.html

我的hadoop学习之路相关推荐

  1. 3台云腾讯云开始hadoop学习之路笔记二

    3台云腾讯云开始hadoop学习之路笔记二(接上) 大三党开始学习hadoop之路了,菜鸟学习hadoop,有啥错误请大佬指教.由于自己电脑配置不够,只能买3台腾讯云服务器来学习了.以下笔记都是记录我 ...

  2. Hadoop学习之路一 Single Node Setup

    从研究生入学到现在,快一年的时间了.和很多人一样,我迷茫着,一直没想明白自己想要干什么.年轻的时候真的想和所有人不一样,直到最后选择了大数据方向,更多的也是感觉.青春的魅力在于可能性.没有过多的犹豫纠 ...

  3. hadoop学习之路(3)

    重新系统化学习hadoop 虽然官方对centos6已经停止维护,但还是硬着头皮沿用之前的centos6,并解决了一点小疑惑. 1.修改ip地址的文件 /etc/sysconfig/network-s ...

  4. Hadoop学习之路(二)Hadoop发展背景

    Hadoop产生的背景 1. HADOOP最早起源于Nutch.Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取.索引.查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题-- ...

  5. Hadoop学习之路(三)Hadoop-2.7.5在CentOS-6.7上的编译

    下载Hadoop源码 1.登录官网 2.确定你要安装的软件的版本 一个选取原则: 不新不旧的稳定版本 几个标准: 1)一般来说,刚刚发布的大版本都是有很多问题 2)应该选择某个大版本中的最后一个小版本 ...

  6. Hadoop学习之路(九)HDFS深入理解

    HDFS的优点和缺点 HDFS的优点 1.可构建在廉价机器上 通过多副本提高可靠性,提供了容错和恢复机制 服务器节点的宕机是常态   必须理性对象 2.高容错性 数据自动保存多个副本,副本丢失后,自动 ...

  7. Hadoop学习之路(十三)MapReduce的初识

    MapReduce是什么 首先让我们来重温一下 hadoop 的四大组件: HDFS:分布式存储系统 MapReduce:分布式计算系统 YARN:hadoop 的资源调度系统 Common:以上三大 ...

  8. hadoop学习之路(5)

    HadoopHA 1.zookeeper配置 zoo.cfg # The number of milliseconds of each tick tickTime=2000 # The number ...

  9. hadoop学习之路(2)

    1.本地安装hadoop(不安装本地hadoop会报错,虽然并不影响远程的环境,但会报错:Failed to locate the winutils binary in the hadoop bina ...

最新文章

  1. 在Win7下利用VirtualBox和Vagrant安装Docker
  2. cmd html 查找汉子字,字符串查找 cmd find命令
  3. jackson 反序列化string_Java 中使用Jackson反序列化
  4. HBase底层存储原理——我靠,和cassandra本质上没有区别啊!都是kv 列存储,只是一个是p2p另一个是集中式而已!...
  5. Ubuntu16.04 安装R与RStudio
  6. git遇到的问题-- Another git process seems to be running in this repository
  7. django 创建mysql失败_创建表时出现Django MySQL错误
  8. 智能手环功能模块设计_手环也可全面屏,荣耀手环6亮点都在这儿
  9. STM32F407过程记录
  10. Logistic回归公式推导和代码实现和Python中的sklearn.linear_model.LogisticRegression 的参数
  11. Idea中 webservice 的调用
  12. 基于汽车后市场应用 汽车VIN码识别 车架号识别数据SDK
  13. 非洲Affrike单词
  14. Kali工具库之cadaver
  15. Visual Studio System.Diagnostics.Debug卡顿问题
  16. python动态爱心曲线_【Python】五分钟画一条动态心形曲线~
  17. 众安保险首推数据安全险 专治黑客盗取数据隐患
  18. mysql递归查询CTE
  19. 如何从用户态进入内核态
  20. 2022-2028年全球与中国剪板机行业发展趋势及竞争策略研究

热门文章

  1. UVA 10714 - Ants
  2. java调用系统时间函数_JAVA自学笔记:不使用系统函数来计算日期处于当年的第多少天...
  3. usaco Telecowmunication(网络流)
  4. 数组对称_对称性应用在物理中的几个小例子
  5. android手机播放pc音乐播放器,最强手机音乐播放器?Foobar2K安卓版体验
  6. 算法代码中的循环矩阵在哪体现_循环移位可视化理解
  7. labview简易计算机实验报告,labview实验报告..doc
  8. php yii2支付宝开发,yii2 支付宝支付教程 [ 2.0 版本 ]
  9. animation动画不生效_关于CSS3的animation使用的一些坑,需要注意下!
  10. Java学习路线图,如何学习Java事半功倍?