一分钟让你知道Hadoop是什么
hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。
在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.
大数据在Hadoop处理的流程可以参照下面简单的图来进行理解:数据是通过了Hadoop的集群处理后得到的结果。
HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.
大文件被分成默认64M一块的数据块分布存储在集群机器中.如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.
MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value 的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.
Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.如下图所示:
NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.NameNode同时保存了文件系统运行的状态信息. DataNode中存储的是被拆分的blocks.Secondary NameNode帮助NameNode收集文件系统运行的状态信息.JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.TaskTracker负责某一个map或者reduce任务.
一分钟让你知道Hadoop是什么相关推荐
- Hadoop + Amazon EC2 –更新的教程
在Hadoop的Wiki页面上放置了一个旧教程: http : //wiki.apache.org/hadoop/AmazonEC2 ,但是最近我不得不遵循本教程,并且我注意到它没有涵盖某些Amazo ...
- 在Ubuntu X64上编译Hadoop
在之前的文章中介绍了如何直接在Ubuntu中安装Hadoop.但是对于64位的Ubuntu来说,官方给出的Hadoop包是32位的,运行时会得到警告: WARN util.NativeCodeLoad ...
- hadoop+Spark实战基于大数据技术之电视收视率企业项目实战
课程简介 本课程将通过一个电视收视率项目实战驱动讲解,项目案例是国内的一家广电企业作为非洲国家的一个运营商,以用户收视行为数据作为基础数据,通过对频道和节目的分析,采用多维度统计分析的方法挖掘用户的收 ...
- 赛思信安携手太极 助力《甘肃省公安厅大数据警务云》项目
项目背景 近年来,随着信息化技术的不断发展,现有的公安警务业务应用无论是规模还是架构都很难适应在海量数据场景下的数据管理和分析,直接影响了公安形势预判和重大决策.因此,建立"用数据说话.用数 ...
- hdfs user 连接_Python入门操作HDFS
点击上方蓝色字体,关注我们 读完需 7 分钟 速读需 3 分钟 在了解了Hadoop的基本使用后,需要通过编程语言进一步操作.对于没有Java基础的运维人,Python如何操作hdfs也就成了我们优先 ...
- Spark学习之概念了解
Spark简介: Spark是一个快速且通用的集群计算模型: 1.Spark是快速的: 快速是指处理几T到几批数据量的时候,他的处理时间是几秒钟或几分钟,相对于hadoop的几分钟到几小时是非常快速的 ...
- 案例分析 | 由Decimal操作计算引发的Spark数据丢失问题
转载自 案例分析 | 由Decimal操作计算引发的Spark数据丢失问题 供稿 | Hadoop Team 编辑 | 顾欣怡 本文3058字,预计阅读时间10分钟 导读 eBay的Hadoop集群 ...
- hadoop3 禁用ec_Hadoop + Amazon EC2 –更新的教程
hadoop3 禁用ec 在Hadoop的Wiki页面上放置了一个旧教程: http : //wiki.apache.org/hadoop/AmazonEC2 ,但是最近我不得不遵循本教程,并且我注意 ...
- 鲜枣课堂-文章分类目录(2019.7.28更新)
5G专题 有史以来最强的5G入门科普! 通信界的头牌花旦,就是她- 第一个倒在5G枪口下的,究竟会是谁? C-RAN的故事 关于5G的前生今世,这篇算是说得比较清楚了 5G承载网,究竟玩出了哪些新花样 ...
- 【大数据处理技术】期末复习整理
所用教材:<大数据技术原理与应用--概念.存储.处理.分析与应用(第2版)>,由厦门大学计算机科学系林子雨编著. 教材官网:http://dblab.xmu.edu.cn/post/big ...
最新文章
- Windows Server 2008网络基础结构的实现与管理
- CVPR 2022|重新思考对齐Prototype的域自适应:基于Graph Matching的新范式
- Sphinx的介绍和原理探索
- 梭子鱼智能安全透视平台揭穿精密伪装威胁
- wide-dhcpv6的dhcp6c配置
- 《假设的世界-一切不能想当然》笔记
- Retrofit结合RxJava使用指南
- postman tests脚本
- 好员工为什么离你而去
- iPhone突然黑屏开不了机怎么办?3种解决方法分享
- JAVAweb开发(一)javaweb概述
- 最窄770px最宽1024px的经典布局研究
- Tushare所有版块数据获取(python)
- AndroidStudio连接第三方模拟器的简易方法
- 网页Javascript潜入HTML页面方法
- 【AD封装】VGA视频座子,RJ11座子(带3D)
- java基础—分支结构
- 我的ubuntu之shell下载音乐
- 中南大学计算机学院雷文太,面向探地雷达 B-scan图像的目标检测算法综述
- 网络分流器|网络分流器大数据采集方案