文章目录

  • 假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?
    • 第一个神奇宝贝 Hadoop
    • 第二个神奇宝贝 Hive
    • 第三个神奇宝贝 Hbase
    • 第四个神奇宝贝的管理员 Zookeeper
    • 第五个昆虫 Kafka
    • 第六个灌木 Flume
    • 第七个神奇宝贝 Impala
    • 第八个怪蜀黍 哈利波特与Azkaban
    • 第九个神奇宝贝Sqoop
    • 第十个神奇宝贝Hue
    • 第十一个神奇宝贝 Spark
    • 第十二个神奇宝贝 Flink
    • 第十三个神奇宝贝 Kudu
    • 第十四个神奇宝贝 SurperSet
    • 第十五个神奇宝贝 Mysql Oracle

假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?

第一个神奇宝贝 Hadoop



Hadoop

Hadoop 是采用了 Map Reduce 的一种分布式的计算框架,它是根据 GFS去开发了 HDFS 分布式文件系统,还有根据 Big
Table 开发了 HBase数据存储系统。可以了解到的是,Hadoop 的开源特性成为了分布式计算系统事实上的国际标准。

Hadoop又分为两个模块,分别是HDFS和MapReduce

HDFS

它是由Google File System而来,全称是Hadoop Distributed File
System,是Hadoop的分布式文件系统,有许多机器组成的,可以存储大型数据文件。

它是由NameNode和DataNode组成,NameNode可以配置成HA(高可用),避免单点故障。一般用Zookeeper来处理。两个NameNode是同步的。

MapReduce

主要由Google Reduce而来,它简化了大型数据的处理,是一个并行的,分布式处理的编程模型。

hadoop2.0它是基于YARN框架构建的。YARN的全称是Yet-Another-Resource-Negotiator。Yarn可以运用在S3|Spark等上。

第二个神奇宝贝 Hive



Hive

它是Hadoop的数据仓库(DW),它可以用类似SQL的语言HSQL来操作数据,很是方便,主要用来联机分析处理OLAP(On-Line Analytical Processing),进行数据汇总|查询|分析。

第三个神奇宝贝 Hbase


第四个神奇宝贝的管理员 Zookeeper


Zookeeper

它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

上面的解释有点抽象,简单来说zookeeper=文件系统+监听通知机制。

第五个昆虫 Kafka


Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。

第六个灌木 Flume

apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。

第七个神奇宝贝 Impala


Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

第八个怪蜀黍 哈利波特与Azkaban

Azkaban是一套简单的任务调度服务,整体包括三部分webserver、dbserver、executorserver。
是linkin的开源项目,开发语言为Java。
Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。
Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

第九个神奇宝贝Sqoop

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

第十个神奇宝贝Hue

HUE(Hadoop User Experience)是一个与Hadoop生态系统紧密结合的Web UI应用程序,可以通过Hue来查看管理HDFS上的文件、通过Hue从界面编写sql语句对Hive进行查询,并使用图表直观的展示查询结果、可以与Oozie集成,用于创建和监控工作流程等等。

第十一个神奇宝贝 Spark


Apache Spark是一个开源集群运算框架,相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算

第十二个神奇宝贝 Flink


Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。

第十三个神奇宝贝 Kudu

第十四个神奇宝贝 SurperSet

第十五个神奇宝贝 Mysql Oracle

假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?(大数据的组件动漫化)相关推荐

  1. python处理nc数据_python中的.nc文件处理 | 04 利用矢量边界提取NC数据

    利用矢量边界提取.nc数据 import os import numpy as np import pandas as pd import matplotlib.pyplot as plt impor ...

  2. 大商创去后门eval-stdin.php,大商创的开源代码都有哪些后门,如何去除大商创后门...

    大商创的开源代码中有很多后门,以方便官方监控系统的使用,官方做的真是无孔不入啊,我找到了下面几种. 1.数据库表dsc_shop_config 中,code值为certi的记录.我们发现这就是大商创的 ...

  3. 大数据场景中语言虚拟机的应用和挑战

    点击上方蓝字关注我们 大数据场景中语言虚拟机的应用和挑战 吴明瑜1,2, 陈海波1,2, 臧斌宇1,2 1 领域操作系统教育部工程研究中心,上海 200240 2 上海交通大学软件学院并行与分布式系统 ...

  4. 大数据的中的数据是从哪里来的?

    大数据应用中的关键点有三个,首要的就是大数据的数据来源,我们在分析大数据的时候需要重视大数据中的数据来源,只有这样我们才能够做好大数据的具体分析内容.那么大家知不知道大数据的数据来源都是通过什么渠道获 ...

  5. “数据星河”系列活动—大数据产业中的商业模式创新沙龙共话新未来

    11● July ● 2019 北京 ▲ 沙龙现场 7月11日,数据星河系列活动--大数据产业中的商业模式创新沙龙顺利举行.在大数据强势赋能下,来自不同行业与领域的嘉宾就如何以模式创新迎接未来机遇与挑 ...

  6. 数据查询和业务流分开_一文带你了解大数据管道

    介绍 如果您从大数据开始,通常会被众多工具,框架和选项所困扰. 在本文中,我将尝试总结其成分和基本配方,以帮助您开始大数据之旅. 我的目标是对不同的工具进行分类,并试图解释每个工具的目的以及它如何适应 ...

  7. 单片机c语言存数据,单片机中C语言的数据存储与程序编写

    一.五大内存分区 内存分成5个区,它们分别是堆.栈.自由存储区.全局/静态存储区和常量存储区. 1.栈区(stack):FIFO就是那些由编译器在需要的时候分配,在不需要的时候自动清除的变量的存储区. ...

  8. android中怎么保存checkbox中的checked属性_Vue 精粹:v-model指令在组件中怎么玩

    最近在写组件的时候,遇到了 v-model 的使用问题,在 Vue 官方文档中,有两小端内容是关于 v-model 指令在组件中的使用,查阅文档后,依然不得要领,最后几番折腾,理论结合实践,终于领悟其 ...

  9. 数据质量在数据资产评估中有着怎样的作用?

    文章摘自6月11日,华矩科技数据治理系列讲座活动第四期谭海华先生带来的分享. 今天我想跟各位交流一下这个话题,来讲一讲我的理解.主要分为以下几个部分: 首先,谈谈数据资产的理解,我想这个问题还是有不同 ...

最新文章

  1. MongoDB sharding迁移那些事(一)
  2. python整数池_【Python】Python中神奇的小整数对象池和大整数对象池
  3. Linux 进程间通信:管道、共享内存、消息队列、信号量
  4. 从request中获取上一个请求的url
  5. AjaxPro实现方法
  6. GridView控件RowDataBound事件中获取列字段途径
  7. boost升压斩波电路 分析
  8. wps——ppt中的视频提取
  9. linux界面程序崩溃,Linux 下安装anjuta程序运行崩溃 只能用glade做界面
  10. ADO.Net 之手机通讯录
  11. 全程软件测试:非功能性需求
  12. coreldraw x8重新安装失败解决办法
  13. RNA m6A修饰问题汇总(第二期)
  14. PhotoShop使用 之 图层文字编辑
  15. 浅谈即时通讯开发之实时视频直播平台如何开发
  16. 国税发票查验API接口说明
  17. Linux 模拟基于进程的隐蔽通道(修改文件名)
  18. 深度学习——fastai第四课 04_minist_basics
  19. Firebug Lite:在IE上体验Firebug
  20. antd form方法

热门文章

  1. Opencv中,imag=cv2.cvtColor(imag,cv2.COLOR_BGR2GRAY) 报错:error:!_src.empty() in function ‘cv::cvtColor‘
  2. C# 利用AEC算法加密解密实现前台后台安全校验,附前端后台代码示例
  3. android qq悬浮窗口,qq悬浮窗口在哪里打开?怎么设置QQ悬浮窗?qq悬浮窗口设置方法分享...
  4. QQ另存为出现“你没有权限在此位置中保存文件,请与管理员联系以获得相应权限”
  5. 月模拟题3 201609-3 炉石传说
  6. alios things开发板_AliOS Things这个操作系统怎么样?
  7. python小乌龟绘制迷宫_python小乌龟turtle数学作图
  8. spark(scala) shell 里面输入多行代码
  9. 电脑怎么修改html5,详细教你怎么设置电脑默认浏览器
  10. wps大纲栏显示在右边_5分钟帮你搞定PPT!金山偷偷上线WPS智能PPT完全免费