Hadoop基础学习
一、Apache Hadoop 历史发展
Apache Hadoop 的雏形开始于2002年的 Apache 的 Nutch。Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和 Web 爬虫。
随后在 2003 年 Google 发表了一篇技术学术论文关于 Google 文件系统(GFS)。GFS 也就是 Google File System,是 Google 公司为了存储海量搜索数据而设计的专用文件系统。
2004年 Nutch 创始人 Doug Cutting(同时也是 Apache Lucene 的创始人) 基于 Google 的 GFS 论文实现了分布式文件存储系统名为 NDFS。
2004年 Google 又发表了一篇技术学术论文,向全世界介绍了 MapReduce。2005年 Doug Cutting 又基于 MapReduce,在 Nutch 搜索引擎实现了该功能。
2006年,Yahoo! 雇用了 Doug Cutting,Doug Cutting 将 NDFS 和MapReduce 升级命名为 Hadoop。Yahoo! 开建了一个独立的团队给 Goug Cutting 专门研究发展 Hadoop。
2008年1月,Hadoop 成为了 Apache 顶级项目。之后 Hadoop 被成功的应用在了其他公司,其中包括 Last.fm、Facebook、《纽约时报》等。
2008年2月,Yahoo! 宣布其搜索引擎产品部署在一个拥有1万个内核的 Hadoop 集群上。
2008年4月,Hadoop 打破世界记录,称为最快排序1TB数据的系统。
二、分布式与集群区别简介
分布式:一个业务分拆多个子业务,部署在不同的服务器上
集群:同一个业务,部署在多个服务器上
集群是个物理形态,分布式是个工作方式
分布式是分任务并发处理;集群是同一个任务一起处理。
举个例子:
小饭店原来只有一个厨师,切菜洗菜备料炒菜全干。后来客人多了,厨房一个厨师忙不过来,又请了个厨师,两个厨师都能炒一样的菜,这两个厨师的关系是集群。为了让厨师专心炒菜,把菜做到极致,又请了个配菜师负责切菜,备菜,备料,厨师和配菜师的关系是分布式,一个配菜师也忙不过来了,又请了个配菜师,两个配菜师关系是集群
三、Hadoop家族产品图
四、Hadoop基本介绍与了解
Hadoop 的框架最核心的设计就是:HDFS 和 MapReduce。HDFS 为海量的数据提供了存储,而 MapReduce 则为海量的数据提供了计算。
目的是支持从单一服务器到上千台机器的扩展,充分利用了每台机器所提供本地计算和存储,而不是依靠硬件来提供高可用性。
Hadoop三种安装模式:单机模式,伪分布式,真正分布式
单机模式standalone
单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。伪分布模式安装
tar xzvf hadoop-0.20.2.tar.gz
Hadoop的配置文件:
conf/hadoop-env.sh 配置JAVA_HOME
core-site.xml 配置HDFS节点名称和地址
hdfs-site.xml 配置HDFS存储目录,复制数量
mapred-site.xml 配置mapreduce的jobtracker地址
配置ssh,生成密匙,使到ssh可以免密码连接
cd /root
ssh -keygen -t rsa
cd .ssh
cp id_rsa.pub authorized_keys覆盖公钥,就能免密码连接
启动Hadoop bin/start-all.sh
停止Hadoop bin/stop-all.sh完全分布式模式
完全分布式模式就是所要介绍的重点内容了,点击下一篇随笔:http://www.cnblogs.com/jichui/p/7137804.html
转载于:https://www.cnblogs.com/jichui/p/7137797.html
Hadoop基础学习相关推荐
- 大数据入门之Hadoop基础学习
前言 目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求.因此对大数据知识也有必要进行一些学习理解 基础概念 大数据的本质 一.数据的存储:分布式 ...
- Hadoop基础学习0
20161209 10:43--12:00 Hadoop,The Apache™ Hadoop® project develops open-source software for reliable, ...
- Hadoop基础学习总结
申明: 仅用于学习记录,参考资料在文末,若侵权,请联系我. 接下来我将从以下几个方面对Hadoop进行学习记录: 是什么? 如何使用? 与其他的区别? 是什么? Hadoop就是存储海量数据和分析海量 ...
- 零基础学习hadoop到上手工作线路指导(中级篇)
2019独角兽企业重金招聘Python工程师标准>>> 此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结. 五一假期:在写点内容,也算是总结.上面我们会 ...
- 第11期:Hadoop零基础学习路线
大家好,我是你们的老朋友老王随聊,今天和大家讨论的话题--Hadoop零基础应该怎么学? 通过这段时间和群里同学们交流,发现很多大学生甚至职场小白对Hadoop学习路线不是很清晰,所以我花了一些时间给 ...
- 零基础学习Hadoop
零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易.在刚接触云计算,曾经想过培训,但是培训机构的选择就让我很纠结.所以索性就自己学习了.整个过程整理一下,给大家参考,欢迎讨论,共同学习. ...
- 大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】
视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码: ...
- 零基础学习 Hadoop 该如何下手?
作者:Han Hsiao 链接:https://www.zhihu.com/question/19795366/answer/24524910 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权 ...
- [转]Hadoop家族学习路线图
Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, ...
最新文章
- 旷视张祥雨:高效轻量级深度模型的研究和实践 | AI ProCon 2019
- 仓鼠体重年龄对照表_一文带你走进仓鼠世界:仓鼠种类之叙利亚仓鼠(上)
- SQL2008如何创建定时任务作业
- 可以学习的国外课件链接地址(自己收集)
- 反转?MIT女博士遭质疑:代码贡献太少,黑洞照片功臣另有其人
- Java基础,不需要复杂语句,使用for循环实现求出1~100之间的奇数和以及偶数和,超级简单
- 求1-2+3-4+5 ... 99的所有数的和
- 直播软件视频流怎样测试,手把手教你,如何用视频号直播推流!
- win10远程控制+Android,win10实现手机远程控制电脑步骤分享
- 图层蒙版和图层剪贴路径_四种PS蒙版的运用:快速蒙版、图层蒙版、矢量蒙版、剪切蒙版...
- usb接口和计算机通信,USB接口是如何进行通信的?
- Python SMTP发送邮件
- 程序员外包到底怎么了?
- 区块链第一个落地场景,居然是“发票”?
- python起笔落笔_书法讲究的是起笔和落笔落是什么意思
- 智能纪元,简述NVIDIA的伟大航路
- 统计学基础之:均值-中位数-众数-极差-中程数-方差-标准差-变异系数
- c++虚函数详解(你肯定懂了)
- github+hexo搭建自己的博客网站(五)进阶配置(畅言实现博客的评论)
- 自动驾驶汽车?法律:伦理
热门文章
- 【Gitlab】GIT回滚master分支到指定tag版本 并提交远程仓库
- android tab pageview,Android Fragment在ViewPager中到底经历了什么?
- floatmap 二维数组_Golang学习笔记(四):array、slice、map
- matlab 调整灰度,matlab灰度图像调整及imadjust函数的用法详解
- Macbook Pro笔记本双系统MacOS和Windows切换默认启动
- GDC2017分享:移动VR开发者的赚钱之道
- JS Date格式化为yyyy-MM-dd类字符串
- Linux——安装之磁盘分区
- opencv 简单、常用的图像处理函数(2)
- 面向对象编程(OOP)特性 类和对象