一、Apache Hadoop 历史发展

Apache Hadoop 的雏形开始于2002年的 Apache 的 Nutch。Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和 Web 爬虫。

随后在 2003 年 Google 发表了一篇技术学术论文关于 Google 文件系统(GFS)。GFS 也就是 Google File System,是 Google 公司为了存储海量搜索数据而设计的专用文件系统。

2004年 Nutch 创始人 Doug Cutting(同时也是 Apache Lucene 的创始人) 基于 Google 的 GFS 论文实现了分布式文件存储系统名为 NDFS。

2004年 Google 又发表了一篇技术学术论文,向全世界介绍了 MapReduce。2005年 Doug Cutting 又基于 MapReduce,在 Nutch 搜索引擎实现了该功能。

2006年,Yahoo! 雇用了 Doug Cutting,Doug Cutting 将 NDFS 和MapReduce 升级命名为 Hadoop。Yahoo! 开建了一个独立的团队给 Goug Cutting 专门研究发展 Hadoop。

2008年1月,Hadoop 成为了 Apache 顶级项目。之后 Hadoop 被成功的应用在了其他公司,其中包括 Last.fm、Facebook、《纽约时报》等。

2008年2月,Yahoo! 宣布其搜索引擎产品部署在一个拥有1万个内核的 Hadoop 集群上。

2008年4月,Hadoop 打破世界记录,称为最快排序1TB数据的系统。

二、分布式与集群区别简介

分布式:一个业务分拆多个子业务,部署在不同的服务器上
集群:同一个业务,部署在多个服务器上
集群是个物理形态,分布式是个工作方式
分布式是分任务并发处理;集群是同一个任务一起处理。
举个例子:
小饭店原来只有一个厨师,切菜洗菜备料炒菜全干。后来客人多了,厨房一个厨师忙不过来,又请了个厨师,两个厨师都能炒一样的菜,这两个厨师的关系是集群。为了让厨师专心炒菜,把菜做到极致,又请了个配菜师负责切菜,备菜,备料,厨师和配菜师的关系是分布式,一个配菜师也忙不过来了,又请了个配菜师,两个配菜师关系是集群

三、Hadoop家族产品图

四、Hadoop基本介绍与了解

Hadoop 的框架最核心的设计就是:HDFS 和 MapReduce。HDFS 为海量的数据提供了存储,而 MapReduce 则为海量的数据提供了计算。
目的是支持从单一服务器到上千台机器的扩展,充分利用了每台机器所提供本地计算和存储,而不是依靠硬件来提供高可用性。

Hadoop三种安装模式:单机模式,伪分布式,真正分布式

  1. 单机模式standalone
    单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。

  2. 伪分布模式安装
    tar xzvf hadoop-0.20.2.tar.gz
    Hadoop的配置文件:
    conf/hadoop-env.sh 配置JAVA_HOME
    core-site.xml 配置HDFS节点名称和地址
    hdfs-site.xml 配置HDFS存储目录,复制数量
    mapred-site.xml 配置mapreduce的jobtracker地址
    配置ssh,生成密匙,使到ssh可以免密码连接
    cd /root
    ssh -keygen -t rsa
    cd .ssh
    cp id_rsa.pub authorized_keys覆盖公钥,就能免密码连接
    启动Hadoop bin/start-all.sh
    停止Hadoop bin/stop-all.sh

  3. 完全分布式模式
    完全分布式模式就是所要介绍的重点内容了,点击下一篇随笔:http://www.cnblogs.com/jichui/p/7137804.html

转载于:https://www.cnblogs.com/jichui/p/7137797.html

Hadoop基础学习相关推荐

  1. 大数据入门之Hadoop基础学习

    前言 目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求.因此对大数据知识也有必要进行一些学习理解 基础概念 大数据的本质 一.数据的存储:分布式 ...

  2. Hadoop基础学习0

    20161209 10:43--12:00 Hadoop,The Apache™ Hadoop® project develops open-source software for reliable, ...

  3. Hadoop基础学习总结

    申明: 仅用于学习记录,参考资料在文末,若侵权,请联系我. 接下来我将从以下几个方面对Hadoop进行学习记录: 是什么? 如何使用? 与其他的区别? 是什么? Hadoop就是存储海量数据和分析海量 ...

  4. 零基础学习hadoop到上手工作线路指导(中级篇)

    2019独角兽企业重金招聘Python工程师标准>>> 此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结. 五一假期:在写点内容,也算是总结.上面我们会 ...

  5. 第11期:Hadoop零基础学习路线

    大家好,我是你们的老朋友老王随聊,今天和大家讨论的话题--Hadoop零基础应该怎么学? 通过这段时间和群里同学们交流,发现很多大学生甚至职场小白对Hadoop学习路线不是很清晰,所以我花了一些时间给 ...

  6. 零基础学习Hadoop

    零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易.在刚接触云计算,曾经想过培训,但是培训机构的选择就让我很纠结.所以索性就自己学习了.整个过程整理一下,给大家参考,欢迎讨论,共同学习. ...

  7. 大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】

    视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码: ...

  8. 零基础学习 Hadoop 该如何下手?

    作者:Han Hsiao 链接:https://www.zhihu.com/question/19795366/answer/24524910 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权 ...

  9. [转]Hadoop家族学习路线图

    Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, ...

最新文章

  1. 旷视张祥雨:高效轻量级深度模型的研究和实践 | AI ProCon 2019
  2. 仓鼠体重年龄对照表_一文带你走进仓鼠世界:仓鼠种类之叙利亚仓鼠(上)
  3. SQL2008如何创建定时任务作业
  4. 可以学习的国外课件链接地址(自己收集)
  5. 反转?MIT女博士遭质疑:代码贡献太少,黑洞照片功臣另有其人
  6. Java基础,不需要复杂语句,使用for循环实现求出1~100之间的奇数和以及偶数和,超级简单
  7. 求1-2+3-4+5 ... 99的所有数的和
  8. 直播软件视频流怎样测试,手把手教你,如何用视频号直播推流!
  9. win10远程控制+Android,win10实现手机远程控制电脑步骤分享
  10. 图层蒙版和图层剪贴路径_四种PS蒙版的运用:快速蒙版、图层蒙版、矢量蒙版、剪切蒙版...
  11. usb接口和计算机通信,USB接口是如何进行通信的?
  12. Python SMTP发送邮件
  13. 程序员外包到底怎么了?
  14. 区块链第一个落地场景,居然是“发票”?
  15. python起笔落笔_书法讲究的是起笔和落笔落是什么意思
  16. 智能纪元,简述NVIDIA的伟大航路
  17. 统计学基础之:均值-中位数-众数-极差-中程数-方差-标准差-变异系数
  18. c++虚函数详解(你肯定懂了)
  19. github+hexo搭建自己的博客网站(五)进阶配置(畅言实现博客的评论)
  20. 自动驾驶汽车?法律:伦理

热门文章

  1. 【Gitlab】GIT回滚master分支到指定tag版本 并提交远程仓库
  2. android tab pageview,Android Fragment在ViewPager中到底经历了什么?
  3. floatmap 二维数组_Golang学习笔记(四):array、slice、map
  4. matlab 调整灰度,matlab灰度图像调整及imadjust函数的用法详解
  5. Macbook Pro笔记本双系统MacOS和Windows切换默认启动
  6. GDC2017分享:移动VR开发者的赚钱之道
  7. JS Date格式化为yyyy-MM-dd类字符串
  8. Linux——安装之磁盘分区
  9. opencv 简单、常用的图像处理函数(2)
  10. 面向对象编程(OOP)特性 类和对象