文章目录

  • 1.Hadoop概述
    • 1.1Hadoop简介
    • 1.2Hadoop发展简史
    • 1.3Hadoop的特性
    • 1.4Hadoop的应用现状
    • 1.5 Apache Hadoop版本演变
    • 1.6 Hadoop各种版本(企业开发产品)
  • 2.Hadoop项目结构

1.Hadoop概述

1.1Hadoop简介

  • Hadoop是Apache [ә’pætʃi]软件基金会旗下的一个开源分布式计算平台,
    为用户提供了系统底层细节透明的分布式基础架构。
  • Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
  • Hadoop可以支持多种编程语言,如C、C++、Java、Python
  • Hadoop = HDFS(存)+MapReduce(算)

1.2Hadoop发展简史

  • 创始人Doug Cutting
  • Nutch 是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
  • 2003年,谷歌发布了分布式文件系统GFS(Google File System)
  • 在2004年,Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS(Nutch Distributed File System),也就是HDFS的前身
  • 2004年,谷歌发布了分布式并行编程框架MapReduce
  • 到了2006年2月,Nutch中的NDFS和MapReduce开始独立出
    来,成为Lucene项目的一个子项目,称为Hadoop。
  • 2008年1月,Hadoop正式成为Apache顶级项目。
  • Hadoop成名史:2008年4月,Hadoop打破世界纪录,成为最快排序
    1TB数据的系统,它采用一个由910个节点构成的集群进行运算,排序时
    间只用了209秒。
  • 在2009年5月,Hadoop更是把1TB数据排序时间缩短到62秒。Hadoop
    从此名声大震,迅速发展成为大数据时代最具影响力的开源分布式开发平
    台,并成为事实上的大数据处理标准。

1.3Hadoop的特性

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:

  • 高可靠性
    多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务。
  • 高效性
    成百上千台机器一起计算
  • 高可扩展性
    可以不断往集群中增加机器
  • 高容错性
    当数据被发送到一个单独的节点,该数据也被复制到集群的其他节点上,这意味着故障发生时,存在另一个副本可供使用。
  • 成本低
    Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
  • 运行在Linux平台上
  • 支持多种编程语言

1.4Hadoop的应用现状

  • Hadoop凭借其突出的优势,已经在各个领域得到了广泛的应用,而互联网领域是其应用的主阵地.
  • Facebook作为全球知名的社交网站,Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面.
  • 国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中,淘宝的Hadoop集群比较大

  • Hadoop相关应用支撑上层的3种应用
  • 不同的Hadoop组件实现不同的企业分析
  • 最底层HDFS满足企业中大量数据存储的需求
  • 存储后进行分析:
  • 离线分析对数据进行批量处理,如MR(MapReduce)也可以用数据仓库产品Hive和Pig
  • 实时查询用Hbase数据库
  • 数据挖掘用Mahout

1.5 Apache Hadoop版本演变

  • Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0

    • 第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则增加了NameNode HA等新的重大特性
    • 第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构
  • Hadoop 1.0两大核心
  • 包括两部分工作=数据处理+集群的资源管理(集群CPU、内存分配)
  • 从Hadoop 1.0到Hadoop 2.0的变化
  • 流计算的资源调度也是YARN负责
  • 批处理计算搭建在YARN之上,由YARN进行资源调度

1.6 Hadoop各种版本(企业开发产品)

2.Hadoop项目结构


大数据技术与架构——(二)大数据处理架构Hadoop(上)相关推荐

  1. 笔记:分布式大数据技术原理(二)构建在 Hadoop 框架之上的 Hive 与 Impala

    """ 有了 MapReduce,Tez 和 Spark 之后,程序员发现,MapReduce 的程序写起来真麻烦.他们希望简化这个过程.这就好比你有了汇编语言,虽然你几 ...

  2. 大数据技术的回顾与展望 ——写在Hadoop十周年纪念

    今天是Hadoop十岁生日.于2006年1月28日诞生的它改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用.InfoQ策划了一系列文 ...

  3. 从大数据技术参考模型角度梳理大数据标准

    大数据标准化背景 面对目前数量.速度和多样性日益增长的信息资产,大数据技术通过各种解决方案.体系.结构.工具和平台集合,能有效应对大数据场景. 因为数据是大数据的基础,对于大数据标准化,除了继承数据标 ...

  4. 大数据技术介绍:01大数据概述

    大数据技术介绍:01大数据概述 大数据技术框架: Hadoop生态系统(1) Hadoop生态系统(2) Hadoop构成:Flume(非结构化数据收集): Cloudera开源的日志收集系统 用于非 ...

  5. 大数据技术原理与应用——大数据存储与管理

    大数据技术原理与应用--大数据存储与管理 1.分布式文件系统 (1)计算机集群结构 集群的概念 集群是指将多台服务器整合在一起,每台服务器都实现相同的业务,做相同的事情. 每台服务器并不是缺一不可,它 ...

  6. 大数据技术与应用 百度大数据显威力

    大数据技术与应用 百度大数据显威力 "大数据时代,如此清晰地让人们感觉到大数据的存在与威力." 在刚过去不久的清明节假期中,百度预测因为连续多天得到CCTV13<新闻直播间& ...

  7. 大数据技术原理与应用----大数据处理架构Hadoop

    一.Hadoop简介及其应用现状 1.Hadoop简介 Hadoop(是大数据技术的集合体,一整套解决方案的统称)是由Java开发的,支持多种编程语言. 2.Hadoop的理论基础 (1)Hadoop ...

  8. 关于大数据技术的演讲_大数据核心技术介绍:大数据处理技术

    大数据之所以能够从概念走向落地,说到底还是因为大数据处理技术的成熟,面对海量的数据,在有限的硬件条件下,以低成本满足大数据处理的各种实际需求.那么具体处理大数据需要哪些技术,今天我们来简单介绍一下大数 ...

  9. 大数据技术_ 基础理论 之 大数据概念与应用

    1.1 大数据的概念与意义 1.从"数据"到"大数据" 时至今日,"数据"变身"大数据","开启了一次重大的时 ...

  10. 大数据技术基础笔记1 大数据概述

    文章目录 1.1 大数据时代 1.2 大数据概念 1.3 大数据的影响 1.4 大数据的应用 1.5 大数据关键技术 1.6 大数据计算模式 1.7 大数据产业 1.8 大数据与云计算.物联网的关系 ...

最新文章

  1. 【机器视觉案例】(5) AI视觉,远程手势控制虚拟计算器,附python完整代码
  2. javascript函数全解
  3. Python常用函数与技巧总结(二)
  4. [分享] 关于App Store下载到一半发生错误的问题 [复制链接]
  5. SQL Server数据库管理常用SQL和T-SQL语句
  6. FreeMarker快速上手
  7. EA与Rose UML建模工具比较
  8. UVA - 11181 数学
  9. 关于网页导航栏制作的几种方法与常见问题解决(新人向)
  10. [转载] Python基础之类型转换与算术运算符
  11. mvc模式 mysql做网页_SpringMVC + Hibernate + MySQL 的简易网页搭建(Control实现篇)
  12. Filecoin Gas基础费率涨至4.78 nanoFIL
  13. Visual Studio中C++工程的环境配置方法
  14. [STL源码剖析]RB-tree的插入操作
  15. gg修改器怎么能让服务器检测不到,gg修改器怎么绕过检测 | 手游网游页游攻略大全...
  16. MTK Android 修改权限读取IMEI
  17. cad快速选择命令快捷键_CAD人必知的6大CAD操作命令及快捷键
  18. 13天Java进阶笔记-day11-网络编程和NIO
  19. python、anaconda、jupyetr notebook的安装与配置
  20. 1.两数之和(python)

热门文章

  1. 汉江师范数学与计算机科学院宿舍,汉江师范学院宿舍条件,宿舍环境图片(10篇)...
  2. HAPPY -1 打死我也不说 (未完成)
  3. bim建筑绘图计算机要求,BIM软件对电脑硬件配置的要求
  4. chkdsk命令的使用
  5. 多功能电子时钟(带时区划分,闹钟,区分上午和下午)
  6. Keepass2Android病毒吗,带有OTP的Keepass2Android无法正常工作
  7. Tomcat服务部署及优化
  8. docker.dmg 破坏的映像
  9. CSS层叠样式表——元素背景和文本样式
  10. android播放器1004,Android媒体播放器在从外部网站播放流时出错(1,-1004)