Hadoop是什么?基本概念
1.1 什么是HADOOP
Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:
Hadoop Common:支持其他Hadoop模块的常用工具。
Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
Hadoop YARN:作业调度和集群资源管理的框架。
Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统。
上述每个模块有自己独立的功能,而模块之间又有相互的关联。
广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈
1.2 HADOOP生态圈以及各组成部分的简介
hadoop体系介绍
HADOOP是apache旗下的一套开源软件平台
HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
HADOOP的核心组件有
HDFS(分布式文件系统)
YARN(运算资源调度系统)
MAPREDUCE(分布式运算编程框架)
hadoop生态圈中 各个组件的作用描述:
(1)hdfs:就是一个文件系统,可以存储海量的数据。
(2)mapreduce:从海量的数据中,通过一定的算法,计算出有用信息。
(3)hive:就是sql语句解释器,接收用户输入的sql语句,然后将该sql语句翻译成复杂的mapreduce程序,并发布到mr集群中进行运算,也是计算出有用的信息。
(4)hbase:mysql是基于linux/window的文件系统的数据库,而hbase就是基于hdfs文件系统的数据库。
(5)flume:就是一个水泵,将水从一个源水坑,抽到到另一个目的水坑中。当然flume抽的是 “数据”。将数据从一个文件中抽取到另一个文件中。
(6)sqoop:将hdfs文件系统的文件,导出到linux文件系统的文件中。就像“豌豆荚”应用程序,实现 android系统与window系统之间文件的导入导出。
(7)ooize/azkaban:一个完整的业务(work)是由多个任务(task)相互配合完成的。该组件就是负责协调各个task的执行顺序。
重点组件:
HDFS:分布式文件系统
MAPREDUCE:分布式运算程序开发框架
HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具
HBASE:基于HADOOP的分布式海量数据库
ZOOKEEPER:分布式协调服务基础组件
Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
Oozie:工作流调度框架
Sqoop:数据导入导出工具
Flume:日志数据采集框架
Hadoop是什么?基本概念相关推荐
- Hadoop系列——大数据概念day1-1
Hadoop系列--大数据概念day1-1 Hadoop系列--大数据概念day1-1 数据 数据的单位 大数据 大数据的特点(5V) Volume数据体量大 Variety种类.来源多样化 Valu ...
- Hadoop:HDFS的概念理解和体系架构-成都加米谷大数据分享
HDFS是什么? HDFS 全称 Hadoop Distributed File System ,简称HDFS,是一个分布式文件系统.它是谷歌的GFS提出之后出现的另外一种文件系统.它有一定高度的容错 ...
- hadoop基本思想与概念
一:基本概念 思考:假设有1000副扑克牌混在一起,里面只少了一张,你如何找出缺少这一张是什么呢? 1,我们可以一个人把1000副牌,一张一张的分类放置,所有的黑桃A,红心A,方块A...都进行分类放 ...
- hadoop 1.0 基本概念了解
hadoop 基本概念了解 common :hadoop组件公共常用工具类 Avro:Avro是用于数据序列化的系统.不同机器之间数据交流的保障. MapReduce:MapReduce是一种编程模型 ...
- 关于大数据系统及Hadoop系统中的概念
什么是大数据 大数据(Big Data)姑且定义为无法被符合服务等级协议(service level agreement,SLA)的单台计算机处理或存储的任何数据集.理论上讲,单台计算机可以处理任意规 ...
- 通俗易懂讲解RPC、SpringCloud、Dubbo、Zookeeper、Hadoop、hive等概念的区别
文章目录 1. RPC 2. Hadoop 3. hive 4. SpringCloud和Dubbo 5. Zookeeper 6. 总结 1. RPC RPC是一个远程调用的技术方式,其可以通过HT ...
- Hadoop的资源调度器
Hadoop的资源调度器 概念 资源调度器分类 FIFO(先进先出调度器) Capacity Scheduler(容量调度器) Fair Scheduler(公平调度器) 概念 目前,Hadoop作业 ...
- Hadoop详解(十):Hadoop 作业调度机制
Hadoop 作为一个分布式计算平台,从集群计算的角度分析,Hadoop可以将底层的计算资源整合后统一分配到集群中的计算节点,从而达到分布式和并行计算的目的,最终完成任务的高效执行.在调度机制中涉及的 ...
- Hadoop HDFS分布式文件系统 常用命令汇总
引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理 ...
- 用 Linux 和 Apache Hadoop 进行云计算
http://www.ibm.com/developerworks/cn/aix/library/au-cloud_apache/ 云计算简介 近来云计算越来越热门了,云计算已经被看作 IT 业的新趋 ...
最新文章
- 风寒感冒和 风热感冒
- 使用Rancher搭建K8S测试环境
- ggplot2实现分半小提琴图绘制基因表达谱和免疫得分
- 初创企业融资应量力而行
- 郑大远程计算机组成在线测试,《郑大远程电路在线测试答案》.doc
- 不同类型特征变量之间相关性分析
- d3d 渲染遇到的几个问题
- uva11549Calculator Conundrum
- Julia: 用Julia操作Redis数据库及一些用法
- 汉字编码之GBK编码(附完整码表)
- cad打开卡死_CAD一打开就卡死,重装也不管用怎么办?
- 新装MySql后登录出现root帐号提示mysql ERROR 1045 (28000): Access denied for use的解决办法
- 民办教育未来10年的发展趋势
- 4K屏配置keil分辨率和图标大小
- 1024分论坛:人工智能创新应用的优化实践和多产业落地
- 通过Dialer拨号盘输暗码启动某个apk
- 柠檬被虐待了 · 404设计#1
- 关于wince4.2 2k 页面 nand flash 驱动的问题
- 大型电商平台设计实例:电商平台项目工程、数据库选型、代码库
- matlab实指数序列,matlab入门篇正弦信号实指数信号和复指数信号的仿真
热门文章
- learning and evaluating representations for deep one-class classification
- JSON.prase()和 eval()区别
- Linux安装redis及使用
- jQuery实现 手风琴图片切换效果( 超简单)
- opencv-python 实现颜色检测
- 语音合成(TTS)论文优选:Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cr
- 《红楼梦》诗词鉴赏(精选)
- 模仿6ecc 主页 主体部分(查看附件点击6eccHTML 就会看到如下页面效果)
- VBS对Excel导入bas宏文件
- 计算机基础——计算机基础知识