Hadoop是什么?

  Hadoop是一个处理海量数据的开源框架。2002年Nutch项目面世,这是一个爬取网页工具和搜索引擎系统,和其他众多的工具一样,都遇到了在处理海量数据时效率低下,无法存储爬取网页和搜索网页时产生的海量数据的问题。2003年谷歌发布了一篇论文,专门介绍他们的分布式文件存储系统GFS。鉴于GFS在存储超大文件方面的优势,Nutch按照GFS的思想在2004年实现了Nutch的开源分布式文件系统,即NDFS。2004年谷歌发布了另一篇论文,专门介绍他们处理大数据的计算框架MapReduce,2005年初Nutch开发人员在Nutch上实现了开源的MapReduce,这就是Hadoop的雏形。2006年Nutch将NDFS和MapReduce迁出Nutch,并命名为Hadoop,同时雅虎公司专门为Hadoop建立一个团队,将其发展成为能够处理海量数据的Web框架,2008年Hadoop成为Apache的顶级项目。

2007年9月发布hadoop 0.14.1,第一个稳定版本。

2009年4月发布hadoop 0.20.0版本。

2011年12月发布hadoop 1.0.0版本,这是经过将近6年的酝酿后发布的一个版本,该版本基于0.20安全代码线,增加如下的功能:

安全,

Hbase(append/hsynch/hflush和security)

webhdfs(完全支持安全)

增加HBase访问本地文件系统的性能

2.12年5月发布hadoop 2.0.0-alpha,则是hadoop-2.X系列的第一个版本,增加很多重要的特性:

1、NameNode HA(High Availability高可靠性),当主NameNode挂掉时,备用NameNode可以快速启动,成为主NameNode节点,向外提供服务。

2、HDFS Federation。

3、YARN aka NextGen MapReduce。

2017年9月份发布Hadoop 3.0.0 generally版本,这是hadoop 3.x系列的第一个版本。

目前市面上还是以Hadoop2.x系列为主,Hadoop3.x还没正式的运用到生产系统中。

一句话总结:Hadoop是开源的大数据处理框架,分为处理数据的MapReduce和存储数据的HDFS。

Hadoop能做什么?

  Hadoop可以用来处理海量数据,对数据进行分析。现在互联网企业每天都产生大量的日志数据,有的甚至达到PB级别,像国外的facebook,twitter,国内的阿里、腾讯、京东、百度等企业。在Haddop没出现之前,都是用小型机处理数据,价格昂贵不说,还耗费时间,Hadoop面世之后,可以使用廉价机器搭建Hadoop集群,一台小型机的价格就可以搭建起一个20个节点的Hadoop集群。2007年雅虎在900个节点的hadoop集群上对1T的数据进行排序只需要209秒,引起业界的关注,从此Haddoop逐渐成为大数据处理的标准,众多厂商纷纷向其靠拢。目前国内的互联网企业对Hadoop的使用都比较成熟,在2015年的时候百度的Hadoop集群就达到4000个节点。

Hadoop的缺点

  Hadoop适合处理海量的离线数据,对于处理实时数据却不合适,例如实时股票交易分析。实时海量数据处理目前有比较好的框架,分别是Spark Streaming,Storm,Flink。他们也都是基于Hadoop的基础上实现的,数据Hadoop生态系统中的一员。

Hadoop生态框架

  现在我们讲Hadoop,泛指Hadoop生态系统中的各种组件,包括用于构架数据仓库和分析数据的Hive,基于HDFS的列式数据库HBase,实时数据处理框架Flink、Storm、Spark Streaming等。下图是Hadoop的生态系统图。

转载于:https://www.cnblogs.com/airnew/p/9511101.html

一起学Hadoop——Hadoop的前世今生相关推荐

  1. Hadoop -- hadoop介绍

    Hadoop hadoop介绍 hadoop核心组件 hadoop特性优点 hadoop发展 hadoop介绍 hadoop底层是Java语言实现 是Apache软件基金会的一款开源软件 允许用户使用 ...

  2. linux如何授权HADOOP,hadoop用户权限管理

    在上一篇博文我描述了在单机linux上安装hadoop,网址:http://my.oschina.net/hetiangui/blog/142897,这里我主要描述下hadoop的用户权限管理. 上篇 ...

  3. 跟我一起学【Hadoop】之——经典场景分析

    1.hive 切片表和历史分区表 查询效率的测试 hive分区表陷阱(不load数据到hive,而是put数据到hdfs分区目录下,hive查不到数据) 解决方法(msck repair table ...

  4. EDW on Hadoop(Hadoop上的数据仓库)技术选型和实践思考

    在这篇文章中, 将讨论EDW on Hadoop 有哪些备选方案, 以及我个人的倾向性, 最后是建构方法.  欢迎转载, 但必须注明原贴(刘忠武,  http://www.cnblogs.com/ha ...

  5. [Hadoop] Hadoop学习历程 [持续更新中…]

    1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...

  6. oracle数据如何导入hadoop,hadoop hive 与 Oracle 互相导入数据

    #1.在Oracle上建立要处理的表 create table SOURCE_TABLE_NAME as SELECT t.*,rownum as row_num FROM SOURCE_TABLE_ ...

  7. [Hadoop]Hadoop Archives

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/SunnyYoona/article/details/53889284 1. 什么是Hadoop ar ...

  8. hadoop(hadoop是什么)

    Hadoop是什么 Hadoop是Apache基金会开发的分布式系统基础架构 Hadoop主要被用来解决海量数据的存储和海量数据的分析计算 广义上来说,Hadoop通常是指一个更广泛的概念----Ha ...

  9. Hadoop学习篇(一)——初识Hadoop Hadoop单机配置

    Hadoop学习篇(一) 本文档适用于Hadoop开发学习者使用 说明:如涉及到侵权,请及时联系我,并在第一时间删除文章. Hadoop简介:Hadoop是一个由Apache基金会所开发的分布式系统基 ...

最新文章

  1. 关于USART接收中断的BUG和注意事项
  2. 密码6-12位数字和字母组成
  3. 并发工具类(一)等待多线程完成的CountDownLatch
  4. RocketMQ消息存储原理
  5. Android学习笔记(四)——EditText简单登录页面设计
  6. ICLR2019 | 模型训练会发生了大量的、反复的样本遗忘现象,如何解决?
  7. NYOJ题目325-zb的生日
  8. iOS之摇一摇功能实现
  9. php网站渗透实战_PHP网站安全-漏洞渗透及解决方式—概述
  10. “一个优秀程序员可抵五个普通程序员!”
  11. 读书百客:《游终南山》赏析
  12. DMP文件的导入,导出
  13. css版权备案等居于页面底部与超出不换行可滑动
  14. 镜头的MTF曲线分析和原理
  15. 带武器的格斗游戏,武器带回血
  16. JAVA远程session访问,访问独立SESSION服务器
  17. Win10隐藏状态栏图标的方法
  18. 安卓应用安全指南 5.4.3 通过 HTTPS 的通信 高级话题
  19. 编写一个C 程序,并使用系统调用fork()创建一个子进程
  20. 自学java多久可以工作_自学java,学多久可以自己找到工作?

热门文章

  1. netty 对 protobuf 协议的解码与包装探究(2)
  2. echo打印彩色的用法
  3. Android中使用httpclient访问服务器,需要session功能
  4. silverlight 入门教程(六)
  5. javascript设计模式漫谈之使用委托
  6. PCL1.8.1安装和一些小错误
  7. php网站如何静态化链接,建站教程之网站URL静态化处理
  8. 学生用计算机2ndf,手机计算器2ndf键在哪 等同于INV键
  9. python自定义函数和类并调用
  10. Flask搭建二进制音频传送接口