1.1 什么是HADOOP

Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:

Hadoop Common:支持其他Hadoop模块的常用工具。

Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。

Hadoop YARN:作业调度和集群资源管理的框架。

Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统。

上述每个模块有自己独立的功能,而模块之间又有相互的关联。

广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈

1.2 HADOOP生态圈以及各组成部分的简介

hadoop体系介绍

HADOOP是apache旗下的一套开源软件平台

HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

HADOOP的核心组件有

HDFS(分布式文件系统)

YARN(运算资源调度系统)

MAPREDUCE(分布式运算编程框架)

hadoop生态圈中  各个组件的作用描述:

(1)hdfs:就是一个文件系统,可以存储海量的数据。

(2)mapreduce:从海量的数据中,通过一定的算法,计算出有用信息。

(3)hive:就是sql语句解释器,接收用户输入的sql语句,然后将该sql语句翻译成复杂的mapreduce程序,并发布到mr集群中进行运算,也是计算出有用的信息。

(4)hbase:mysql是基于linux/window的文件系统的数据库,而hbase就是基于hdfs文件系统的数据库。

(5)flume:就是一个水泵,将水从一个源水坑,抽到到另一个目的水坑中。当然flume抽的是 “数据”。将数据从一个文件中抽取到另一个文件中。

(6)sqoop:将hdfs文件系统的文件,导出到linux文件系统的文件中。就像“豌豆荚”应用程序,实现 android系统与window系统之间文件的导入导出。

(7)ooize/azkaban:一个完整的业务(work)是由多个任务(task)相互配合完成的。该组件就是负责协调各个task的执行顺序。

重点组件:

HDFS:分布式文件系统

MAPREDUCE:分布式运算程序开发框架

HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库

ZOOKEEPER:分布式协调服务基础组件

Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架

Hadoop是什么?基本概念相关推荐

  1. Hadoop系列——大数据概念day1-1

    Hadoop系列--大数据概念day1-1 Hadoop系列--大数据概念day1-1 数据 数据的单位 大数据 大数据的特点(5V) Volume数据体量大 Variety种类.来源多样化 Valu ...

  2. Hadoop:HDFS的概念理解和体系架构-成都加米谷大数据分享

    HDFS是什么? HDFS 全称 Hadoop Distributed File System ,简称HDFS,是一个分布式文件系统.它是谷歌的GFS提出之后出现的另外一种文件系统.它有一定高度的容错 ...

  3. hadoop基本思想与概念

    一:基本概念 思考:假设有1000副扑克牌混在一起,里面只少了一张,你如何找出缺少这一张是什么呢? 1,我们可以一个人把1000副牌,一张一张的分类放置,所有的黑桃A,红心A,方块A...都进行分类放 ...

  4. hadoop 1.0 基本概念了解

    hadoop 基本概念了解 common :hadoop组件公共常用工具类 Avro:Avro是用于数据序列化的系统.不同机器之间数据交流的保障. MapReduce:MapReduce是一种编程模型 ...

  5. 关于大数据系统及Hadoop系统中的概念

    什么是大数据 大数据(Big Data)姑且定义为无法被符合服务等级协议(service level agreement,SLA)的单台计算机处理或存储的任何数据集.理论上讲,单台计算机可以处理任意规 ...

  6. 通俗易懂讲解RPC、SpringCloud、Dubbo、Zookeeper、Hadoop、hive等概念的区别

    文章目录 1. RPC 2. Hadoop 3. hive 4. SpringCloud和Dubbo 5. Zookeeper 6. 总结 1. RPC RPC是一个远程调用的技术方式,其可以通过HT ...

  7. Hadoop的资源调度器

    Hadoop的资源调度器 概念 资源调度器分类 FIFO(先进先出调度器) Capacity Scheduler(容量调度器) Fair Scheduler(公平调度器) 概念 目前,Hadoop作业 ...

  8. Hadoop详解(十):Hadoop 作业调度机制

    Hadoop 作为一个分布式计算平台,从集群计算的角度分析,Hadoop可以将底层的计算资源整合后统一分配到集群中的计算节点,从而达到分布式和并行计算的目的,最终完成任务的高效执行.在调度机制中涉及的 ...

  9. Hadoop HDFS分布式文件系统 常用命令汇总

    引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理 ...

  10. 用 Linux 和 Apache Hadoop 进行云计算

    http://www.ibm.com/developerworks/cn/aix/library/au-cloud_apache/ 云计算简介 近来云计算越来越热门了,云计算已经被看作 IT 业的新趋 ...

最新文章

  1. 风寒感冒和 风热感冒
  2. 使用Rancher搭建K8S测试环境
  3. ggplot2实现分半小提琴图绘制基因表达谱和免疫得分
  4. 初创企业融资应量力而行
  5. 郑大远程计算机组成在线测试,《郑大远程电路在线测试答案》.doc
  6. 不同类型特征变量之间相关性分析
  7. d3d 渲染遇到的几个问题
  8. uva11549Calculator Conundrum
  9. Julia: 用Julia操作Redis数据库及一些用法
  10. 汉字编码之GBK编码(附完整码表)
  11. cad打开卡死_CAD一打开就卡死,重装也不管用怎么办?
  12. 新装MySql后登录出现root帐号提示mysql ERROR 1045 (28000): Access denied for use的解决办法
  13. 民办教育未来10年的发展趋势
  14. 4K屏配置keil分辨率和图标大小
  15. 1024分论坛:人工智能创新应用的优化实践和多产业落地
  16. 通过Dialer拨号盘输暗码启动某个apk
  17. 柠檬被虐待了 · 404设计#1
  18. 关于wince4.2 2k 页面 nand flash 驱动的问题
  19. 大型电商平台设计实例:电商平台项目工程、数据库选型、代码库
  20. matlab实指数序列,matlab入门篇正弦信号实指数信号和复指数信号的仿真

热门文章

  1. learning and evaluating representations for deep one-class classification
  2. JSON.prase()和 eval()区别
  3. Linux安装redis及使用
  4. jQuery实现 手风琴图片切换效果( 超简单)
  5. opencv-python 实现颜色检测
  6. 语音合成(TTS)论文优选:Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cr
  7. 《红楼梦》诗词鉴赏(精选)
  8. 模仿6ecc 主页 主体部分(查看附件点击6eccHTML 就会看到如下页面效果)
  9. VBS对Excel导入bas宏文件
  10. 计算机基础——计算机基础知识