2021年大数据Hadoop(一):Hadoop介绍
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习。
有对大数据感兴趣的可以关注微信公众号:三帮大数据
Hadoop介绍
Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。
狭义上说,Hadoop指Apache这款开源框架,它的核心组件有:
HDFS(分布式文件系统):解决海量数据存储
MAPREDUCE(分布式运算编程框架):解决海量数据计算
YARN(作业调度和集群资源管理的框架):解决资源任务调度
广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
当下的Hadoop已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非Apache主管的项目,这些项目对HADOOP是很好的补充或者更高层的抽象。比如:
框架 |
用途 |
HDFS |
分布式文件系统 |
MapReduce |
分布式运算程序开发框架 |
ZooKeeper |
分布式协调服务基础组件 |
HIVE |
基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作 |
FLUME |
日志数据采集框架 |
oozie |
工作流调度框架 |
Sqoop |
数据导入导出工具(比如用于mysql和HDFS之间) |
Impala |
基于hive的实时sql查询分析 |
Mahout |
基于mapreduce/spark/flink等分布式运算框架的机器学习算法库 |
-
2021年大数据Hadoop(一):Hadoop介绍相关推荐
- 2021年大数据Hadoop(三十):Hadoop3.x的介绍
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Hadoop3.x的介绍 介绍 Hadoop 3.0新特性 ...
- 2021年大数据Hadoop(二十六):YARN三大组件介绍
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn三大组件介绍 ResourceManager No ...
- 2021年大数据Hadoop(二十五):YARN通俗介绍和基本架构
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 YARN通俗介绍和基本架构 Yarn通俗介绍 Yarn基本 ...
- 2021年大数据Hadoop(二十九):关于YARN常用参数设置
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 关于yarn常用参数设置 设置container分配最小内 ...
- 2021年大数据Hadoop(二十七):YARN运行流程
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn运行流程 本系列历史文章 2021年大数据Hado ...
- 2021年大数据Hadoop(二十二):MapReduce的自定义分组
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 MapReduce的自定义分组 需求 分析 实现 第一步: ...
- 2021年大数据Hadoop(十五):Hadoop的联邦机制 Federation
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Hadoop的联邦机制 Federation 背景概述 F ...
- 2021年大数据Hadoop(十四):HDFS的高可用机制
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 HDFS的高可用机制 HDFS高可用介绍 组件介绍 Nam ...
- 2021年大数据Hadoop(三):Hadoop国内外应用
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 Hadoop国内外应用 ...
- 【大数据笔记】hadoop基础——各组件介绍
目录 故事背景 Hadoop 与大数据之间到底是什么关系? 1.数据存储:HDFS,一个分布式文件系统 2. 数据分析:MapReduce 计算引擎 HDFS(Hadoop 分布式文件系统) MapR ...
最新文章
- 详解linux系统的启动过程及系统初始化
- 局域网语音通话demo
- 基于jquery的ajax聊天室系统,基于jQuery的Ajax聊天室应用毕业设计(含外文翻译)...
- 数据结构与算法之选择排序图文详解及代码 (C++实现)
- VS2008如何自动添加消息映射
- springboot文档笔记
- 酷派手机android版本,系统版本迎来升级
- 数据获取之网络爬虫专栏简介
- 解决django运行中连接mysql数据库超时报错pymysql.err.InterfaceError
- AcWing 853. 有边数限制的最短路(bellman的k边限制最短路)
- IDEA最全手把手安装教程 安装+字体大小类型,主题颜色设置+常用快捷键设置优化|详细
- 【工具】(九):Mac工具整理
- 海森(hessian)矩阵
- 基于Zynq的光流法软硬件协同实现
- idea使用Protobuf插件
- 软考 - 软件设计师 - 下午-案例分析 做题技巧与考点整理
- 数据结构—邻接矩阵存储法代码实现
- C++习题:野人与修道士过河问题
- 2020年焊工(技师)考试资料及焊工(技师)考试申请表
- DNSPOD动态域名解析
热门文章
- libACE-6.3.3.so: cannot open shared object file: No such file or directory
- DateGridView列的输出顺序反了
- linux C++打包程序总结
- Tengine MLOps概述
- 使用NVIDIA A100 TF32获得即时加速
- CUDA C 纹理提取Texture Fetching
- CVPR2020最新论文扫描盘点(上)
- 客快物流大数据项目(六十二):主题及指标开发
- Python数据挖掘1:创建一位数组和二维数组,取最大最小值,切片
- AHOI2008 聚会
- 2021年大数据Hadoop(三十):Hadoop3.x的介绍