大数据系列文章汇总链接 - 更新到15篇

HDFS:分布式存储系统(Hadoop Distributed File System):提供了高可靠性、高扩展性和高吞吐率的数据存储服务
HDFS源自于Google的GFS论文 (发表于2003年10月 ),是GFS克隆版
YARN:资源管理系统(Yet Another Resource Negotiator):负责集群资源的统一管理和调度,Hadoop 2.0新增系统,使得多种计算框架可以运行在一个集群中

MapReduce:分布式计算框架:具有易于编程、高容错性和高扩展性等优点

MapReduce源自于Google的MapReduce论文 (发表于2004年12月),是Google MapReduce克隆版
Hive:由facebook开源,基于MR的数据仓库,数据计算使用MR,数据存储使用HDFS,Hive 定义了一种类 SQL 查询语言——HQL:类似SQL,但不完全相同
日志分析:统计网站一个时间段内的pv、uv
Pig:由yahoo!开源,构建在Hadoop之上的数据仓库
Mahout:数据挖掘库,基于Hadoop的机器学习和数据挖掘的分布式计算框架,实现了三大类算法 :推荐(Recommendation) 、聚类(Clustering) 、分类(Classification)
HBase:分布式数据库,源自Google的Bigtable论文 ,发表于2006年11月 ,是Google Bigtable克隆版
Zookeeper:分布式协作服务,源自Google的Chubby论文 ,发表于2006年11月 ,是Chubby克隆版
解决分布式环境下数据管理问题 :统一命名 、状态同步 、集群管理 、配置同步
Sqoop:数据同步工具,连接Hadoop与传统数据库之间的桥梁 ,支持多种数据库,包括MySQL、DB2等 ,插拔式,用户可根据需要支持新的数据库 ;本质上是一个MapReduce程序
Flume:日志收集工具,Cloudera开源的日志收集系统
Oozie:作业流调度系统
目前计算框架和作业类型繁多: MapReduce Java、Streaming、HQL、Pig等 
如何对这些框架和作业进行统一管理和调度:
不同作业之间存在依赖关系(DAG);
周期性作业
定时执行的作业
作业执行状态监控与报警(发邮件、短信等)
Hadoop发行版本
apache hadoop版本
CDH:Cloudera DistributedHadoop
http://archive.cloudera.com/cdh5/cdh/
HDP:Hortonworks Data Platform
http://zh.hortonworks.com/hdp/downloads/
建议选择公司发行版(不必面临版本某一个框架的选择问题),比如CDH或HDP ,推荐使用CDH(国内主流版本)
更易维护和升级
经过集成测试,不会面临版本兼容问题

--------------------------
微信公众号:IT人成长关注
大数据技术QQ群:485681776

大数据(一) - hadoop生态系统及版本演化相关推荐

  1. GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景

    目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...

  2. 【大数据】Hadoop生态系统及其组件

    Hadoop 生态系统及其组件 1.Hadoop 生态系统的组成 本篇文章将向大家介绍 Hadoop 生态系统的不同组件.也正是因为这些组件,使得 Hadoop 如此强大.通过学习 HDFS 和 HD ...

  3. 大数据之-Hadoop三大发行版本---大数据之hadoop工作笔记0010

    可以看到,hadoop可以说是有3个版本,Apache这个是基础的,原始的,免费的. cloudera这个公司的,是付费的,可能免费给用,但是出了问题,按给你解决的时间收费.所以可以看到他虽然开源,但 ...

  4. Hadoop生态系统:用于处理大数据的Hadoop工具

    HADOOP生态系统 在上一个Hadoop Tutorial上的博客中,我们讨论了Hadoop,其功能和核心组件.现在,下一步是了解Hadoop生态系统.在开始使用Hadoop之前,这是一个必不可少的 ...

  5. hadoop 传感器数据_大数据时代Hadoop的本质,你有过认真了解吗?

    ​ ​除非你过去几年一直隐居,远离这个计算机的世界,否则你不可能没有听过Hadoop,全名Apache Hadoop,是一个在通用低成本的硬件上处理存储和大规模并行计算的一个开源框架,Hadoop本质 ...

  6. 【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce

    文章目录 导学 大数据概述 初识Hadoop 概述 核心组件 HDFS分布式文件系统 资源调度系统YARN MapReduce 优势 发展史 生态系统 发行版本选择 企业应用案例 第3章 分布式文件系 ...

  7. 大数据技术Hadoop的介绍

    大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:由于大数据要处理大量.非结构化的数据,所以在各处理环节中都可以采用并行处理.目前,Hadoop.MapReduce和Spark等分布式 ...

  8. 大数据和Hadoop时代的维度建模和Kimball数据集市

    维度建模已死? 在回答这个问题之前,让我们回头来看看什么是所谓的维度数据建模. 为什么需要为数据建模? 有一个常见的误区,数据建模的目的是用 ER 图来设计物理数据库,实际上远不仅如此.数据建模代表了 ...

  9. Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

    一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...

最新文章

  1. Broadcast源码分析
  2. 手机格斗网游该如何避免延迟?
  3. 安装docker遇到的坑 Could not resolve host: download.docker.com;
  4. python模糊匹配忽略大小写_在python中忽略大小写的简单方法?
  5. io.jsonwebtoken.SignatureException: JWT signature does not match locally computed signature.
  6. python import os.path_Python常用模块os.path——文件及路径操作
  7. 好奇:WayOs破解、OEM、修复、打包等工具大全,满足大家的好奇心发下截图
  8. 7个顶级静态代码分析工具
  9. 根据用户IP精确定位推送消息
  10. 输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个。例如输入数组{3,32,321},则打印出这三个数字能排成的最小数字为321323
  11. Cisco交换机IOS升级
  12. python tif转jpg_怎样把TIF转化为JPG图片格式
  13. 小米路由器4C从0到自编译以及刷固件
  14. C# 生成word文件 小学一年级口算题生成器(代码)
  15. regeneratorRuntime is not defined
  16. Adobe After Effects 2021 for Mac v18.4.1 视频合成及特效制作软件
  17. 2004-2020中小企业板上市公司财务报表股票交易董事高管等面板数据
  18. 构造启发式算法:最邻近插入法
  19. 自己拥有一台服务器可以做哪些很酷的事情?
  20. python利器app插件_python利器app

热门文章

  1. lamp兄弟连linux学习笔记-linux常用命令大全(思维导图)
  2. 那些年,我用过的Java线上故障排查工具和方法整理
  3. 程序员的奋斗史(三十八)——大学断代史(二)——我与数据库的故事
  4. 华氏摄氏转换 java_用JAVA编写程序,将摄氏度转换为华氏度
  5. 百度语音api的文字转语音,语音转文字-yellowcong
  6. 转载:中国电子工程师的悲哀
  7. 小程序引导关注公众号
  8. 卫剑钒:《大教堂与集市》被过誉了吗?
  9. java按照图片尺寸插入excel,使图片不失真
  10. 怎么有效锻炼自己的记忆力?