Hadoop简介和家族成员介绍
本文为博主原创,允许转载,但请声明原文地址:http://www.coselding.cn/article/2016/05/31/Hadoop简介和家族成员介绍/
1、 HDFS:分布式文件系统实现,来源GFS(Google File System)
2、 MapReduce:云计算框架,来源Google的MapReduce
3、 一个Master和多个Slave:
Master:NameNode、JobTracker,SecondaryNameNode
Slaves:DataNode、TaskTracker
4、 Pig:Hadoop客户端,类似于SQL的面向数据流的Pig Latin语言;
作用:将Pig Latin语言翻译成MapReduce程序上传到集群进行运行,方便非Java程序员使用Hadoop
功能:排序,过滤,求和,聚组,关联等,支持自定义函数
运行方式:GruntShell,脚本方式,嵌入式
5、 HBase:Google的BigTable的开源实现
列式数据库
可集群化
可以使用shell、web、api等方式访问
适合高读写(Insert)的场景
HQL查询语言(HBase Query Language)(和Hibernate的不是同一个)
NoSQL的典型代表产品
6、 Hive:数据仓库工具,可以把Hadoop下的原始结构化的数据变成Hive中的表
支持一种几乎和SQL(92标准)一样的语言HiveQL。除了不支持更新、索引和事务,几乎SQL的其他特征都能支持
可以看成是从SQL到Map-Reduce的映射器
提供Shell、JDBC/ODBC、Thrift、Web等接口
7、 ZooKeeper:Google Chubby的开源实现
用于协调分布式系统上的各种服务,例如确认消息是否准确到达,防止单点失效,处理负载均衡等
应用场景:HBase,实现NameNode自动切换
工作原理:领导者,跟随者和选举过程
8、 Sqoop:用于Hadoop和关系型数据库之间交换数据
通过JDBC接口连入关系型数据库
9、 Avro:数据序列化工具
用于支持大批量数据交换的应用。支持二进制序列化的方式,可以便捷,快速地处理大量数据
动态语言友好,Avro提供的机制使动态语言可以很方便地处理Avro数据
Thrift接口
10、 Chukwa:架构在Hadoop之上的数据采集和分析框架
主要进行日志采集和分析
通过安装在收集节点的"代理"采集最原始的日志数据
代理将数据发送给收集器
收集器定时将数据写入Hadoop集群
指定定时启动的MapReduce作业对数据进行加工处理和分析
Hadoop基础管理中心(HICC)最终展示数据
11、 Cassandra:NoSQL,分布式的Key-Value型数据库,由FaceBook贡献
与HBase类似,与HBase类似,也是借鉴Google BigTable的思想体系
只有顺序写,没有随机写的设计,满足高负荷情形的性能需求
本文为博主原创,允许转载,但请声明原文地址:http://www.coselding.cn/article/2016/05/31/Hadoop简介和家族成员介绍/
Hadoop简介和家族成员介绍相关推荐
- Hadoop详解(一):Hadoop简介
1. Hadoop 起源 1.1 Hadoop的身世 首先我们介绍一下Nutch的发展情况,Nutch是一个以Lucene为基础实现的搜索引擎系统,Lucene为Nutch提供了文本检索和索引的API ...
- 强制生成32位arm程序_ARM版本系列及家族成员梳理
作者: QLinux 原文: https://www.cnblogs.com/QLinux/articles/2498084.html 本文对ARM处理器家族成员做了个梳理归纳,小编能力有限,不当之处 ...
- Hadoop简介与分布式安装
Hadoop的基本概念和分布式安装: Hadoop 简介 Hadoop 是Apache Lucene创始人道格·卡丁(Doug Cutting)创建的,Lucene是一个应用广泛的文本搜索库,Hado ...
- 什么是dB?为什么要用dB?dB家族成员有哪些?
dB-分贝是从事通信.射频的同学经常会用到的一个词汇,它的英文全称是Decibel简写为dB.我们常说"回波损耗是多少dB?","插入损耗是多少dB?",&qu ...
- MongoDB 复制集 (一) 成员介绍
一 MongoDB 复制集简介 MongoDB复制集机制主要分为两种: Master-Slave (主从复制) 这个已经不建议使用 ...
- Hadoop的概念及架构介绍
Hadoop的概念及架构介绍 Hadoop是大数据开发所使用的一个核心框架.使用Hadoop可以方便的管理分布式集群,将海量数据分布式的存储在集群中(hdfs),并使用分布式程序来处理这些数据.(Ma ...
- hadoop基础一:Hadoop简介、安装
你的点赞与评论是我最大的创作动力! hadoop简介: hadoop平台是一个可靠的.可扩展的.可分布式计算的开源软件. Apache Hadoop平台是一个框架,允许使用简单的编程模型.该平台被设计 ...
- 大班认识计算机教案,认识电脑家族成员——鼠标教案
认识电脑家族成员--鼠标教案 电脑活动: 认识电脑家族成员--鼠标 活动设计意图: 大人学电脑的时候,都要看一本本砖头一样又硬又枯燥的电脑书,可是让孩子看这些书学电脑是不可能的,除非他是个电脑天才.所 ...
- Hadoop简介和体系架构
目录 2.1 Hadoop简介 2.1.1 Hadoop由来 2.1.2 Hadoop发展历程 2.1.3 Hadoop生态系统 2.2 Hadoop的体系架构 2.2.1 分布式文件系统HDFS 2 ...
最新文章
- 用c语言编一个贪吃蛇,刚学C语言,想写一个贪吃蛇的代码
- 大赛归来的你们,仍是那个少年--少了游移、多了自信,少了软弱、多了坚强...
- mysql ---- innodb-3-锁、事务
- JAVA的字节码技术
- 从Airbnb的发展历程和网易云的大起大落看IT行业创新(第5周课后作业)
- java bean对象属性复制,将一个对象的属性值赋值给另一个对象,对象之间的复制方法
- 系统结构图 数据结构_数据结构图简介
- 案例二:动态页面模拟点击
- 修改MySQL自动递增值
- 第23天:js-数据类型转换
- 05章项目: QuickHit快速击键
- 安卓7.0海信定制版新增功能
- 360优化开机速度后慢了_提高电脑开机速度的优化技巧
- 【Codeforces 467C】George and Job
- 【七日阅书】1.注重实效《程序员修炼之道—从小工到专家》
- 【51单片机】基于51单片机的时钟电子锁设计
- 网页设计html5留言板代码,网页制作:( 留言板 ), 我想改变留言字体的颜色( 单项选择:红/黄/蓝 )代码改如何编啊?, 十分感谢!...
- Hortonworks的开源框架SHC的使用(一)
- 面试题:看数字找规律
- Python numpy.abs和abs函数别再傻傻分不清了