大数据(2)---Hadoop由哪几部分组成?
Hadoop由哪几部分组成?
Hadoop是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理,其有许多元素构成,以下是其组成元素:
1.Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。
2.HDFS:分布式文件系统,提供高吞吐量的应用程序数据访问,对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是HDFS 的架构是基于一组特定的节点构建的(参见图 1),这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这是 HDFS 的一个缺点(单点失败)。
存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。
3.MapReduce:一个分布式海量数据处理的软件框架集计算集群。
4.Avro :doug cutting主持的RPC项目,主要负责数据的序列化。有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。
5.Hive :类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。
6.HBase :基于HadoopDistributed File System,是一个开源的,基于列存储模型的可扩展的分布式数据库,支持大型表的存储结构化数据。
7.Pig :是一个并行计算的高级的数据流语言和执行框架 ,SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。
8.ZooKeeper:Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
9.Chukwa :一个管理大型分布式系统的数据采集系统 由yahoo贡献。
10.Cassandra:无单点故障的可扩展的多主数据库
11.Mahout :一个可扩展的机器学习和数据挖掘库
大数据(2)---Hadoop由哪几部分组成?相关推荐
- 细细品味大数据--初识hadoop
初识hadoop 前言 之前在学校的时候一直就想学习大数据方面的技术,包括hadoop和机器学习啊什么的,但是归根结底就是因为自己太懒了,导致没有坚持多长时间,加上一直为offer做准备,所以当时重心 ...
- GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景
目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...
- Hadoop专业解决方案-第1章 大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...
- hadoop 传感器数据_大数据时代Hadoop的本质,你有过认真了解吗?
除非你过去几年一直隐居,远离这个计算机的世界,否则你不可能没有听过Hadoop,全名Apache Hadoop,是一个在通用低成本的硬件上处理存储和大规模并行计算的一个开源框架,Hadoop本质 ...
- 大数据与Hadoop有什么关系?大数据Hadoop入门简介
学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...
- 【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce
文章目录 导学 大数据概述 初识Hadoop 概述 核心组件 HDFS分布式文件系统 资源调度系统YARN MapReduce 优势 发展史 生态系统 发行版本选择 企业应用案例 第3章 分布式文件系 ...
- 大数据之Hadoop学习——动手实战学习MapReduce编程实例
文章目录 一.MapReduce理论基础 二.Hadoop.Spark学习路线及资源收纳 三.MapReduce编程实例 1.自定义对象序列化 需求分析 报错:Exception in thread ...
- 大数据和Hadoop什么关系?为什么大数据要学习Hadoop?
大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集.整理.传输.存储.安全.分析.呈现和应用等一系列环节,这些环节涉及到诸多大数据工作岗位,这些工作岗位与物联网.云计算也都有密切的联 ...
- 大数据和Hadoop平台介绍
大数据和Hadoop平台介绍 定义 大数据是指其大小和复杂性无法通过现有常用的工具软件,以合理的成本,在可接受的时限内对其进行捕获.管理和处理的数据集.这些困难包括数据的收入.存储.搜索.共享.分析和 ...
- 大数据与Hadoop之间是什么关系
广义上讲 大数据是时代发展和技术进步的产物.Hadoop只是一种处理大数据的技术手段. "大数据"概念在1980年由维克托·迈尔-舍恩伯格及肯尼斯·库克耶 在<第三次浪潮&g ...
最新文章
- 万能系统卸载器免root_Linux umount命令:卸载文件系统
- 0212互联网新闻 | 华为将发布5G折叠屏手机;谷歌在小范围内推出AR实景导航
- windows笔记-内核对象
- unity之中级工程师
- 银行招聘网计算机类笔试,中国人民银行计算机类笔试模拟题
- 第4篇:Flowable快速工作流脚手架Jsite_启动项目
- CYQ.Data 轻量数据层之路 自定义MDataTable绑定续章(七)
- SpringCloud feign、hystrix、zuul超时配置
- 如何在Java中将毫秒转换为“ X分钟,x秒”?
- 史上最全最详细的APP运营推广策划方案
- 视频直播app源码,保存和提取图片
- 7-49 打印学生选课清单 (25 分)
- 常见的list转化map 实现
- 商务与经济统计阅读笔记2
- [Spark中移动平均法的实现]
- 为知笔记登录提示“打开数据库失败”解决方法
- wifi 框架流程分析
- Teambition是什么软件?优缺点是什么?
- WEB电商项目广告管理与缓存解决方案
- 我们来了!多云架构时代,欢迎加入中国开源网络新势力
热门文章
- Linux-kernel 网桥代码分析(一)
- [计算机网络] - IP基础知识
- [读书笔记] - 《深度探索C++对象模型》第3章 Data语意学
- 一文简单理解Java反射及使用
- QT5开发及实例学习之十九图形视图体系结构
- 嵌入式Linux系统编程学习之二十五信号量
- python中集合变量_详解python的变量缓存机制
- 《深入理解 Spring Cloud 与微服务构建》第一章 微服务简介
- 扩展中国剩余定理 exCRT 学习笔记
- (转)Java 调用 C++ (Java 调用 dll)