Hadoop是Apache软件基金会下的顶级开源项目,用以提供:

• 分布式数据存储
• 分布式数据计算
• 分布式资源调度

为一体的整体解决方案。

Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。

个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。

近10年来,大数据技术体系一词一直和Hadoop是划上等号的,提起大数据技术基本就是在提及Hadoop。

随着近些年的发展,越来越多的新技术框架的出现,给大数据技术体系带来了丰富的生态,但是拥有元老地位的Hadoop依旧非常重要。

为什么学习Hadoop有如下几个至关重要的原因:

• Hadoop 是最早的一批大数据技术框架,在市面上拥有极高的占有率和庞大的用户群体。
• Hadoop 在大数据体系内,技术难度相对较低,非常适合作为大数据学习的入门技术栈。

通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:

HDFS:

HDFS是Hadoop内的分布式存储组件

可以构建分布式文件系统用于数据存储

MAPReduce 组件:

MapReduce是Hadoop内分布式计算组件。提供编程接口供用户开发分布式计算程序

YARN组件:

YARN是Hadoop内分布式资源调度组件。

可供用户整体调度大规模集群的资源使用。

Hadoop创始人:Doug Cutting

Hadoop起源于Apache Lucene子项目:Nutch

Nutch的设计目标是构建一个大型的全网搜索引擎。

遇到瓶颈:如何解决数十亿网页的存储和索引问题

Google三篇论文

《The Google file system》:谷歌分布式文件系统GFS

《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统

MapReduce组件

HDFS组件

Hadoop发行版本:

Apache开源社区版本

Apache Hadoop

商业发行版本

• CDH (Cloudera's Distribution, including Apache Hadoop) Cloudera 公司出品,目前使用最多的商业版
• HDP (Hortonworks Data Platform), Hortonworks 公司出品,目前被 Cloudera 收购
• 星环,国产商业版,星环公司出品,在国内政企使用较多

本课程中使用的是当前最新的Apache Hadoop(即开源版本),版本号为:3.3.4

同时,在课程后期,会带来CDH的内容讲解。

HDF

组件

大数据2 Hadoop相关推荐

  1. 细细品味大数据--初识hadoop

    初识hadoop 前言 之前在学校的时候一直就想学习大数据方面的技术,包括hadoop和机器学习啊什么的,但是归根结底就是因为自己太懒了,导致没有坚持多长时间,加上一直为offer做准备,所以当时重心 ...

  2. GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景

    目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...

  3. Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

    一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...

  4. hadoop 传感器数据_大数据时代Hadoop的本质,你有过认真了解吗?

    ​ ​除非你过去几年一直隐居,远离这个计算机的世界,否则你不可能没有听过Hadoop,全名Apache Hadoop,是一个在通用低成本的硬件上处理存储和大规模并行计算的一个开源框架,Hadoop本质 ...

  5. 大数据与Hadoop有什么关系?大数据Hadoop入门简介

    学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...

  6. 【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce

    文章目录 导学 大数据概述 初识Hadoop 概述 核心组件 HDFS分布式文件系统 资源调度系统YARN MapReduce 优势 发展史 生态系统 发行版本选择 企业应用案例 第3章 分布式文件系 ...

  7. 大数据之Hadoop学习——动手实战学习MapReduce编程实例

    文章目录 一.MapReduce理论基础 二.Hadoop.Spark学习路线及资源收纳 三.MapReduce编程实例 1.自定义对象序列化 需求分析 报错:Exception in thread ...

  8. 大数据和Hadoop什么关系?为什么大数据要学习Hadoop?

    大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集.整理.传输.存储.安全.分析.呈现和应用等一系列环节,这些环节涉及到诸多大数据工作岗位,这些工作岗位与物联网.云计算也都有密切的联 ...

  9. 大数据和Hadoop平台介绍

    大数据和Hadoop平台介绍 定义 大数据是指其大小和复杂性无法通过现有常用的工具软件,以合理的成本,在可接受的时限内对其进行捕获.管理和处理的数据集.这些困难包括数据的收入.存储.搜索.共享.分析和 ...

  10. 大数据与Hadoop之间是什么关系

    广义上讲 大数据是时代发展和技术进步的产物.Hadoop只是一种处理大数据的技术手段. "大数据"概念在1980年由维克托·迈尔-舍恩伯格及肯尼斯·库克耶 在<第三次浪潮&g ...

最新文章

  1. [导入][转]跨越域的Cookie
  2. 多天线技术是LTE的重要演进方向已成为产业共识
  3. MySQL触发器简介
  4. C#中的DataSet添加DataTable问题
  5. How does model reference pass from app view to master view
  6. python查漏补缺--抽象类和接口以及Overrides、函数重载
  7. JS实现将所有超链接指向同一个页面地址
  8. maven spring hibernate shiro
  9. 《通用规范汉字表》背景知识词条
  10. 第四章: 元语言抽象
  11. RabbitMQ消息队列(九):Publisher的消息确认机制
  12. 计划的主体部分应有哪些内容_知道智慧树应用写作技能与规范网课答案
  13. 关于请设置注册表项Framewoke.....初始化错误的解决办法
  14. 零基础学习Hadoop
  15. 计算机教室突发事件处理,课堂突发事件处理
  16. 电机控制基础知识储备
  17. google相机android10,三星S10+/S10/S10e谷歌相机移植版下载:支持夜视,体验强大算法...
  18. MD5绕过(强弱类型比较)
  19. DCS是分布式控制系统的英文缩写(Distributed Control System)
  20. Spring Boot idel 实现热部署

热门文章

  1. 设计一个莫尔斯电码电报机
  2. mavens使用阿里云国内私服下载
  3. Django使用新浪邮箱发送邮件
  4. 最长连续子序列偏移_在新的模压成型工艺中结合热塑性连续带材与D-LFT(第一部分)...
  5. 利用计算机进行数值模拟计算,数值模拟法
  6. html中常见表达颜色的三种方式
  7. IIS5、IIS6、IIS7的ASP.net 请求处理过程比较转
  8. 菜鸟弟弟从零开始的爬取Bilibili弹幕的Python爬虫教程-哔哩哔哩 - ( ゜- ゜)つロ 干杯~
  9. netty案例,netty4.1中级拓展篇五《基于Netty搭建WebSocket,模仿微信聊天页面》
  10. 家庭监控如何赢取用户信赖?