一、Apache Hadoop 历史发展

Apache Hadoop 的雏形开始于2002年的 Apache 的 Nutch。Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和 Web 爬虫。

随后在 2003 年 Google 发表了一篇技术学术论文关于 Google 文件系统（GFS）。GFS 也就是 Google File System，是 Google 公司为了存储海量搜索数据而设计的专用文件系统。

2004年 Nutch 创始人 Doug Cutting（同时也是 Apache Lucene 的创始人）基于 Google 的 GFS 论文实现了分布式文件存储系统名为 NDFS。

2004年 Google 又发表了一篇技术学术论文，向全世界介绍了 MapReduce。2005年 Doug Cutting 又基于 MapReduce，在 Nutch 搜索引擎实现了该功能。

2006年，Yahoo! 雇用了 Doug Cutting，Doug Cutting 将 NDFS 和MapReduce 升级命名为 Hadoop。Yahoo! 开建了一个独立的团队给 Goug Cutting 专门研究发展 Hadoop。

2008年1月，Hadoop 成为了 Apache 顶级项目。之后 Hadoop 被成功的应用在了其他公司，其中包括 Last.fm、Facebook、《纽约时报》等。

2008年2月，Yahoo! 宣布其搜索引擎产品部署在一个拥有1万个内核的 Hadoop 集群上。

2008年4月，Hadoop 打破世界记录，称为最快排序1TB数据的系统。

二、分布式与集群区别简介

分布式：一个业务分拆多个子业务，部署在不同的服务器上
集群：同一个业务，部署在多个服务器上
集群是个物理形态，分布式是个工作方式
分布式是分任务并发处理；集群是同一个任务一起处理。
举个例子：
小饭店原来只有一个厨师，切菜洗菜备料炒菜全干。后来客人多了，厨房一个厨师忙不过来，又请了个厨师，两个厨师都能炒一样的菜，这两个厨师的关系是集群。为了让厨师专心炒菜，把菜做到极致，又请了个配菜师负责切菜，备菜，备料，厨师和配菜师的关系是分布式，一个配菜师也忙不过来了，又请了个配菜师，两个配菜师关系是集群

三、Hadoop家族产品图

四、Hadoop基本介绍与了解

Hadoop 的框架最核心的设计就是：HDFS 和 MapReduce。HDFS 为海量的数据提供了存储，而 MapReduce 则为海量的数据提供了计算。
目的是支持从单一服务器到上千台机器的扩展，充分利用了每台机器所提供本地计算和存储，而不是依靠硬件来提供高可用性。

Hadoop三种安装模式：单机模式，伪分布式，真正分布式

单机模式standalone
单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时，Hadoop无法了解硬件安装环境，便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时，Hadoop会完全运行在本地。因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。
伪分布模式安装
tar xzvf hadoop-0.20.2.tar.gz
Hadoop的配置文件：
conf/hadoop-env.sh 配置JAVA_HOME
core-site.xml 配置HDFS节点名称和地址
hdfs-site.xml 配置HDFS存储目录，复制数量
mapred-site.xml 配置mapreduce的jobtracker地址
配置ssh，生成密匙，使到ssh可以免密码连接
cd /root
ssh -keygen -t rsa
cd .ssh
cp id_rsa.pub authorized_keys覆盖公钥，就能免密码连接
启动Hadoop bin/start-all.sh
停止Hadoop bin/stop-all.sh
完全分布式模式
完全分布式模式就是所要介绍的重点内容了，点击下一篇随笔：http://www.cnblogs.com/jichui/p/7137804.html

转载于:https://www.cnblogs.com/jichui/p/7137797.html

Hadoop基础学习相关推荐

大数据入门之Hadoop基础学习
前言目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求.因此对大数据知识也有必要进行一些学习理解基础概念大数据的本质一.数据的存储:分布式 ...
Hadoop基础学习0
20161209 10:43--12:00 Hadoop,The Apache™ Hadoop® project develops open-source software for reliable, ...
Hadoop基础学习总结
申明: 仅用于学习记录,参考资料在文末,若侵权,请联系我. 接下来我将从以下几个方面对Hadoop进行学习记录: 是什么? 如何使用? 与其他的区别? 是什么? Hadoop就是存储海量数据和分析海量 ...
零基础学习hadoop到上手工作线路指导（中级篇）
2019独角兽企业重金招聘Python工程师标准>>> 此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结. 五一假期:在写点内容,也算是总结.上面我们会 ...
第11期：Hadoop零基础学习路线
大家好,我是你们的老朋友老王随聊,今天和大家讨论的话题--Hadoop零基础应该怎么学? 通过这段时间和群里同学们交流,发现很多大学生甚至职场小白对Hadoop学习路线不是很清晰,所以我花了一些时间给 ...
零基础学习Hadoop
零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易.在刚接触云计算,曾经想过培训,但是培训机构的选择就让我很纠结.所以索性就自己学习了.整个过程整理一下,给大家参考,欢迎讨论,共同学习. ...
大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】
视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码: ...
零基础学习 Hadoop 该如何下手？
作者:Han Hsiao 链接:https://www.zhihu.com/question/19795366/answer/24524910 来源:知乎著作权归作者所有.商业转载请联系作者获得授权 ...
[转]Hadoop家族学习路线图
Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, ...

Hadoop基础学习