我的hadoop学习之路
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。
HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。
NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。
NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。
- 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
- 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
- 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
- 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
- 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop 学习之Docker 参考:http://www.cnblogs.com/frankliu/p/8303225.html
转载于:https://www.cnblogs.com/frankliu/p/8278566.html
我的hadoop学习之路相关推荐
- 3台云腾讯云开始hadoop学习之路笔记二
3台云腾讯云开始hadoop学习之路笔记二(接上) 大三党开始学习hadoop之路了,菜鸟学习hadoop,有啥错误请大佬指教.由于自己电脑配置不够,只能买3台腾讯云服务器来学习了.以下笔记都是记录我 ...
- Hadoop学习之路一 Single Node Setup
从研究生入学到现在,快一年的时间了.和很多人一样,我迷茫着,一直没想明白自己想要干什么.年轻的时候真的想和所有人不一样,直到最后选择了大数据方向,更多的也是感觉.青春的魅力在于可能性.没有过多的犹豫纠 ...
- hadoop学习之路(3)
重新系统化学习hadoop 虽然官方对centos6已经停止维护,但还是硬着头皮沿用之前的centos6,并解决了一点小疑惑. 1.修改ip地址的文件 /etc/sysconfig/network-s ...
- Hadoop学习之路(二)Hadoop发展背景
Hadoop产生的背景 1. HADOOP最早起源于Nutch.Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取.索引.查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题-- ...
- Hadoop学习之路(三)Hadoop-2.7.5在CentOS-6.7上的编译
下载Hadoop源码 1.登录官网 2.确定你要安装的软件的版本 一个选取原则: 不新不旧的稳定版本 几个标准: 1)一般来说,刚刚发布的大版本都是有很多问题 2)应该选择某个大版本中的最后一个小版本 ...
- Hadoop学习之路(九)HDFS深入理解
HDFS的优点和缺点 HDFS的优点 1.可构建在廉价机器上 通过多副本提高可靠性,提供了容错和恢复机制 服务器节点的宕机是常态 必须理性对象 2.高容错性 数据自动保存多个副本,副本丢失后,自动 ...
- Hadoop学习之路(十三)MapReduce的初识
MapReduce是什么 首先让我们来重温一下 hadoop 的四大组件: HDFS:分布式存储系统 MapReduce:分布式计算系统 YARN:hadoop 的资源调度系统 Common:以上三大 ...
- hadoop学习之路(5)
HadoopHA 1.zookeeper配置 zoo.cfg # The number of milliseconds of each tick tickTime=2000 # The number ...
- hadoop学习之路(2)
1.本地安装hadoop(不安装本地hadoop会报错,虽然并不影响远程的环境,但会报错:Failed to locate the winutils binary in the hadoop bina ...
最新文章
- 在Win7下利用VirtualBox和Vagrant安装Docker
- cmd html 查找汉子字,字符串查找 cmd find命令
- jackson 反序列化string_Java 中使用Jackson反序列化
- HBase底层存储原理——我靠,和cassandra本质上没有区别啊!都是kv 列存储,只是一个是p2p另一个是集中式而已!...
- Ubuntu16.04 安装R与RStudio
- git遇到的问题-- Another git process seems to be running in this repository
- django 创建mysql失败_创建表时出现Django MySQL错误
- 智能手环功能模块设计_手环也可全面屏,荣耀手环6亮点都在这儿
- STM32F407过程记录
- Logistic回归公式推导和代码实现和Python中的sklearn.linear_model.LogisticRegression 的参数
- Idea中 webservice 的调用
- 基于汽车后市场应用 汽车VIN码识别 车架号识别数据SDK
- 非洲Affrike单词
- Kali工具库之cadaver
- Visual Studio System.Diagnostics.Debug卡顿问题
- python动态爱心曲线_【Python】五分钟画一条动态心形曲线~
- 众安保险首推数据安全险 专治黑客盗取数据隐患
- mysql递归查询CTE
- 如何从用户态进入内核态
- 2022-2028年全球与中国剪板机行业发展趋势及竞争策略研究
热门文章
- UVA 10714 - Ants
- java调用系统时间函数_JAVA自学笔记:不使用系统函数来计算日期处于当年的第多少天...
- usaco Telecowmunication(网络流)
- 数组对称_对称性应用在物理中的几个小例子
- android手机播放pc音乐播放器,最强手机音乐播放器?Foobar2K安卓版体验
- 算法代码中的循环矩阵在哪体现_循环移位可视化理解
- labview简易计算机实验报告,labview实验报告..doc
- php yii2支付宝开发,yii2 支付宝支付教程 [ 2.0 版本 ]
- animation动画不生效_关于CSS3的animation使用的一些坑,需要注意下!
- Java学习路线图,如何学习Java事半功倍?