hadoop是什么?新手自学hadoop教程(一)
百科释义:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
Hadoop是一个专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。
Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。
用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。
hadoop使用java编写,版本较为混乱,初学者可从1.2.1开始学习
1.成百上千台服务器组成集群,需要时刻检测服务器是否故障
2.用流读取数据更加高效快速
3.存储节点具有运算功能,省略了服务器之间来回传数据的网络带宽限制
4.一次写入,多次访问,不修改数据
5.多平台
namenode:master,负责总体调度,处理协调请求等
(一个集群只能有一个namenode,但是可以多个集群组成一个更大的集群,这时就有多个namenode,这时的namenode有两种状态,一种叫active并且一个大集群只能有一个namenode处于该状态,一种为standby)
namenode两大功能:接受客户端读写服务,存放元数据(DataNode存储的位置等基本信息,fsimage和edits文件)
fsimage是namenode格式化时产生的,edits是用户操作增删改查的时候生成的日志
datanode:slave,存储节点,会备份,一般本地2分,其他服务器一份
机架:多个DataNod节点组成,master通过机架感知技术得知所需数据的位置
数据块:存储单元,一般64M(hadoop2中是128M)
时刻保持心跳通讯,保证每个数据都备份于3个节点上
5的read为第一个数据块读完后,读下一个数据块,如果在读取过程中某一个数据块出问题,则会记录下来并且找其他的备份,并且以后不再读取错误数据块
map负责分批运算,如果要统计1TB数据中my的出线次数,则可以启用100个map,每个map统计0.01TB数据,最终由reduce汇总
作业(Job):运行一个MapReduce所需要用到的所有jar组件
任务(Task):mapTask和ReduceTask
Key相同的结果进行reduce统计合并
作业提交一般提交jar包和配置文件
调度一般来说默认采取FIFO调度,即先考虑优先级,然后先进先出
TaskTracker会不断想JobTracker传达任务信息,如果空闲会主动申请作业
一般的生产环境都是完全分布式模式。
hadoop是什么?新手自学hadoop教程(一)相关推荐
- 新手安装hadoop教程和个人遇到的错误及解决办法(错误:./hadoop-daemon.sh start journalnode用不了和WARNING: HADOOP_SECURE_DN_USER)
首先Hadoop的安装分为三大步(视频教程移步https://www.bilibili.com/video/BV1mL4y1T7em?spm_id_from=333.337.search-card.a ...
- Hadoop下载安装及HDFS配置教程
Hadoop下载安装及HDFS配置教程 前言 Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和 ...
- 自学hadoop(三)
1) 关于hadoop在eclipse插件.经过自己的摸爬滚打.总结一下三条. a) 2.0或者0.23.0吧 google比较方便.其他的可以自己编译.(这个我不敢保证.我本地环境事2.1.0.就是 ...
- 零基础新手自学Python编程教程入门精通学习资料网站大全
零基础新手自学Python编程教程入门精通学习资料网站大全 今天说下关于Python的一些普及知识,以及学习资料,这一节我来跟大家分享下. 1 为什么要学习Python? 1 Python是一个脚本语 ...
- Ubuntu下的Java和Hadoop安装及配置伪分布式教程
Hadoop安装及配置伪分布式教程 1.创建hadoop用户 更新apt 2.安装SSH.配置SSH无密码登陆 安装SSH 配置SSH无密码登录 3.安装Java环境 4.安装Hadoop3.1.3 ...
- Hadoop分布式集群搭建完全教程
Hadoop分布式集群环境搭建步骤如下 实验环境: 系统:win7 内存:8G(因要开虚拟机,内存建议不低于8G) 硬盘:建议固态 虚拟机:VMware 12 Linux:Centos 7 jdk1. ...
- 搭建Hadoop分布式集群的详细教程
目录 写在前面 一.创建虚拟机,安装Centos 二.VMware VMnet8模式共享主机网络配置 三.克隆集群节点HadoopSlave1与HadoopSlave2 四.Linux系统配置 五.H ...
- layuiadmin上手好难_新手自学板绘先学SAI还是PS好?零基础绘画入门需知!
原标题:新手自学板绘先学SAI还是PS好?零基础绘画入门需知! 新手自学板绘先学SAI还是PS好?初学者如何入门绘画?学习板画难吗?怎样才能学习好绘画?想必这些都是绘画初学者们经常在想的问题吧,就是不 ...
- 【Hadoop学起来】分布式Hadoop的搭建(Ubuntu 17.04)
正文之前 作为一个以后肯定要做大数据的人,至今还没玩过Java 和 Hadoop 会不会被老师打死?所以就想着,在我的国外的云主机上搭建个Hadoop ,以后在 dell 电脑的ubuntu系统下也搭 ...
最新文章
- python官网下载步骤2019-2019年python入门到精通(19天全)
- codeblock 带mingw的版本_云顶之弈10.22新版本最强阵容排名 10.22版本吃鸡阵容推荐...
- 关于一些blog优化
- 分布式文件系统HDFS解析
- Sbo通用数据选择功能的实现
- 窗口背景颜色修改 备忘
- Educational Codeforces Round 94 (Rated for Div. 2)
- 文字溢出时,实现在末尾显示三个点省略效果
- java:通过Calendar类正确计算两日期之间的间隔
- 计算机专业基础 -- 网络相关AJAX基础知识
- Hive学习之六 《Hive进阶— —hive jdbc》 详解
- 阿里巴巴Java开发手册(黄山版)正式亮相,新增11条规约
- 网站联系表单,honeypot蜜罐理论及操作技术,诱饵机器人
- 三星刷完机后一直停留在Samsung页面
- 世界上第一台电子计算机的研制目的,最初研制电子计算机的目的
- Hbuilder开发APP(一)——底部导航条简单实现
- 刚装新系统环境mscorsvw.exe进程占用CPU资料50%以上的原因
- Sending build context to Docker daemon 解决办法
- nginx本地代理调试微信登录(window版本)
- 教育直播APP开发,在线教育系统开发(功能)
热门文章
- Unknown integral data type for ids : java.lang.String; nested exception is org.hibernate.id.Identifi
- Android 自定义View之咖啡杯动画
- 【教程】百度地图AK申请指南(PM2.5指导版)
- java实验报告6:异常处理程序设计
- java责任链模式审批请假_14-学生生病请假:责任链模式
- BZOJ 小约翰的游戏John 反尼姆博弈
- hgoi#20190821
- javascript正则迷你书-笔记
- 红米S2解BL锁教程申请BootLoader解锁教程
- Android 软件开发时用到的一些有用软件列表