目前学习的框架都是围绕Hadoop进行的,可以称之为Hadoop生态圈,目前学习了

Hadoop框架

hive框架

zookeeper框架

Kafka框架

HBase框架

Flume框架

Hadoop框架简介: Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。

它最新的版本是3.0版本,它与2.0相比主要是有部分优化。2.0与1.0相比就是一个框架的改动。

1.0只有HDFS和MapReduce,其中HDFS负责存储。MapReduce负责资源调度和计算。但是在2.0版本中,MapReduce只负责计算,资源调度则由yarn负责。

Hive框架简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,其本质就是将HQL(hive的自己的语言)转化成MapReduce程序,它处理的程序存储在HDFS上,其分析数据底层实现的是MapReduce,其执行程序运行在yarn上。
所以它只有SQLparser解析式、physicalPlan编译器、QueryOpatimizer优化器、Execution执行器。

解析器:将SQL字符串转换成抽象语法树AST

编译器:将AST编译生成逻辑执行计划

优化器:对逻辑执行计划进行优化

执行器:把逻辑执行计划转化成可以运行的物理计划。对于Hive来说就是MR/Spark

zookeeper:zooKeeper是一个分布式的开源协调服务,用于分布式应用程序。它公开了一组简单的原子操作,分布式应用程序可以构建这些原子操作,以实现更高级别的服务,以实现同步,配置维护以及组和命名。
kafka基础框架简介:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。(传统使用)
Kafka是一个开源的分布式事件流平台(event streaming platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。(最新定位)
HBase:HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库(也即非关系型数据库),它利用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。
Flume框架简介:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。

hadoop生态圈之各种框架简介相关推荐

  1. Hadoop生态圈-Ambari控制台功能简介

    Hadoop生态圈-Ambari控制台功能简介 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在经历一系列安装过程之后(部署过HDP后我终于发现为什么大家喜欢用它了,部署比CDH简 ...

  2. 2.Hadoop 生态圈及核心组件简介

    1.Hadoop 生态圈 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠.高效.可伸缩等特点. Hadoop的核心组件是HDFS.MapReduce.随着处理任务不同,各种组件相继出 ...

  3. 【Hadoop生态圈简介】

    第一节 集群规划 大数据集群规划(以CDH集群为例),参考链接: Recommended Cluster Hosts and Role Distribution | 6.3.x | Cloudera ...

  4. 什么是HADOOP以及HADOOP生态圈以及各组成部分的简介

    什么是HADOOP 1.        HADOOP是apache旗下的一套开源软件平台 2.        HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 ...

  5. Hadoop 生态圈及核心组件简介Hadoop|MapRedece|Yarn

    文章目录 大数据时代 Hadoop Hadoop概述 Hadoop特性优点 Hadoop国内外应用 Hadoop发行版本 Hadoop集群整体概述 HDFS分布式文件系统 传统常见的文件系统 数据和元 ...

  6. Hadoop生态圈以及各组成部分的简介

    1.Hadoop是什么? 适合大数据的分布式存储与计算平台 HDFS: Hadoop Distributed File System分布式文件系统 MapReduce:并行计算框架 2.Hadoop生 ...

  7. Hadoop(一)——hadoop框架简介

    摘要(参考资料来源网络) hadoop的网络上有很多相关的资料,这里简单介绍一下 一.什么是hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构 主要解决,海量数据的__存储 ...

  8. Hadoop生态圈一览

    根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个Hadoop生态圈的了解. 这是Hadoop生态从Google的三篇论文开始的发展历程,现已 ...

  9. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

最新文章

  1. 数位屏如何去光标_iPad还是数位板屏?我该选哪个?
  2. 信号量 读者写者问题
  3. GitHub上创建组织
  4. Lambda表达式Java教程
  5. javaweb功能模块如何合理设计_如何合理设计恒温恒湿实验室
  6. [GCN] Modification of Graph Convolutional Networks in PyTorch
  7. LSH︱python实现局部敏感哈希——LSHash(二)
  8. Using mysqldump for Backups(备份还原数据库实例及参数详细说明)
  9. 【BERT】小学生级上手教程,从原理到上手全有图示,还能直接在线运行
  10. 图片版坦克大战其他相关的 类(三)
  11. 经典神经网络 -- DenseNet : 设计原理与pytorch实现
  12. JAVA学习:坦克大战(怀旧版)游戏开发代码
  13. Javascript 编程风格
  14. oracle11g数据库登录01017,【数据库管理】ORA-01017错误及部分的常见典型案例-Go语言中文社区...
  15. ai python视频教程_2017AI人工智能时代基础实战python机器学习深度学习算法全套视频教程...
  16. 5分钟学完《梁宁产品思维30讲》
  17. docker容器不阻塞的进入
  18. TaintDroid 剖析之 DVM 变量级污点跟踪(下篇)
  19. APPCAN学习笔记001---app高速开发AppCan.cn平台概述
  20. 系统备用服务器连接配置异常,网络配置的DNS服务老是异常网络连接老是异常...._网络编辑_帮考网...

热门文章

  1. 怎样设计宝藏游戏_宝藏! 免费的移动设计资源
  2. python个人所得税税率表_2020年你会算个人所得税吗?没关系,python脚本帮助你!...
  3. Hadoop大数据系统架构(深入浅出)
  4. 会声会影,premiere,Edius区别是什么?2023年视频编辑软件,哪个比较好呢?
  5. 终于知道为什么要freeze BN层,以及如何freeze(这个trick真的可以加快收敛)
  6. Windows API一日一练(41)FindWindowEx函数
  7. 将KEIL中memory window 数据保存到文本,然后改造成十进制数组,方便导入excel进行分析
  8. 无线鼠标很费电池,用有线比较好
  9. /usr/local/bin和/usr/bin的区别
  10. Jackson解析JSON数据教程