安装教程:/home/yu/develop/hadoop-2.7.1/bin:/home/yu/develop/hadoop-2.7.1/sbin

hadoop组成

  hadoop主要包括HDFS系统和MapReduce两个部分。

HDFS文件系统

  hdfs文件系统特点:1.数据冗余,硬件容错

            2.流式数据访问。不允许修改,写一次读多次,想修改只能删除再写

            3.适合大容量文件,不适合大量小文件,因为文件每次读取都需要访问NameNode,NameNode会产生过大的负载

            4.不适合交互式,延迟较大

            5.不支持多个用户同时写一个文件

  hdfs文件被分成块进行存储,hdfs系统块默认大小为64MB块是文件存储的逻辑单元

  NameNode是管理节点,存放元数据。

    元数据主要存储两种表:1.文件与数据块的映射表   2.数据块与数据节点的映射表

    还存在二级NameNode定期元同步数据映像文件、修改日志,NameNode发生故障时二级NameNode转正

  DataNode是HDFS的工作节点,存放数据块

    1.HDFS中每个数块存三份,分布在两个机架的三个节点

    2.心跳检测:DataNode定期向NameNode放心跳消息

MapReduce并行计算模型

  1.MapReduce概念

    

    Map:将一个大的任务分解成许多小任务,进行并行处理

    Reduce:将结果合并

  2..job和task

    一个作业成为job,一个job完成过程要拆分成多个task,task又分为JobTask和MapTask两类

  3..hadoop Mapreduce体系结构

    

    (1)Jobtracker

      a.作业调度

      b.分配任务、监控任务执行进度

      c.监控Tasktracker运行情况

    (2)TaskTracker

      a.执行任务

      b.汇报任务状态

    4.MapReduce作业执行过程

  

  

    4.容错机制

      a.重复执行

      b.推测执行

        当一个节点执行过慢时会使用另一个节点与其共同计算相同的任务,当有一个节点完成时,另一个节点不在进行计算。

    

转载于:https://www.cnblogs.com/2017Crown/p/7339853.html

hadoop安装和基本知识相关推荐

  1. 学习hadoop需要具备基础知识

    学习hadoop需要具备基础知识 首先整体上了解Hadoop,包括hadoop是什么,能够做什么,使用场景等,不需要考虑细节问题.在有了整体上的了解后,就开始准备系统地学习hadoop.建议:勿一味学 ...

  2. Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

    给力星 追逐内心的平和 首页 笔记 搜藏 代码 音乐 关于 Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 2014-08-09 (updated: 2016 ...

  3. Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0

    Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0 当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛.尽管安装其实很简单,书上有写到 ...

  4. 最详细的Hadoop安装教程

    最详细的Hadoop安装教程 前言 Hadoop 在大数据技术体系中的地位至关重要,Hadoop 是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远. 这是一篇 ...

  5. Hadoop安装及eclipse配置

    Hadoop安装 彻底关闭防火墙 chkconfig iptables off 查看主机名 hostname 修改主机名 vim /etc/sysconfig/network 修改之后不会立即执行需要 ...

  6. Hadoop安装与配置问题说明

    说明:本博客对Hadoop安装与配置过程中可能存在的问题做简单记录 启动Hadoop hadoop@ubuntu16:/usr/local/java/hadoop/hadoop-2.7.1$ ./sb ...

  7. Hadoop 安装详解--新手必备

    准备: 这次学习,我使用的是虚拟机vmware,安装了3台虚拟机,系统为centos 5(其它版本亦可),主机名依次命名为hdfs1.hdfs2.hdfs3,ip地址一次为:172.16.16.1.1 ...

  8. Hadoop之Yarn面试知识复习

    Hadoop之Yarn面试知识复习 目录 简述hadoop1与hadoop2 的架构异同 为什么会产生 yarn,它解决了什么问题,有什么优势? Hadoop之Yarn工作机制详解 HDFS的数据压缩 ...

  9. Hadoop之MapReduce面试知识复习

    Hadoop之MapReduce面试知识复习 目录 谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? FileInputFormat切片机制 在一个运行的Hadoop 任务中,什么是I ...

  10. Hadoop之HDFS面试知识复习

    Hadoop之HDFS面试知识复习 目录 HDFS的存储机制 secondary namenode工作机制 NameNode与SecondaryNameNode 的区别与联系? hdfs整体架构介绍 ...

最新文章

  1. 【CSS3】好玩的动画线框
  2. python封装方法有几种_Python打包exe文件方法汇总【4种】
  3. sql:无法解决 equal to 操作中 Chinese_PRC_CI_AS 和 Chinese_Taiwan_Stroke_CI_AS 之间的排序规则冲突。...
  4. 用计算机弹可惜不是你,可惜不是你 还是幸亏不是你
  5. Code-First Development with Entity Framework 4
  6. MATLAB三维散点图的绘制(scatter3、plot3)
  7. 2020年信工所考研经验分享
  8. 教学信息管理系统+SQL
  9. 职业综合英语 章节答案考试答案 深圳职业技术学院[渝粤教育]
  10. linux查找不到kde桌面,观点|KDE Plasma 5 —— 给尚未确定桌面环境的 Linux 用户指明道路...
  11. VTK(The Visualization Toolkit)加载stl模型
  12. 移动客户端与服务器通信方式一
  13. Android Studio中layout_gravity与gravity
  14. 免费的crm系统部署在自己的服务器,CRM软件的三种部署方式
  15. 小程序开发页面跳转传参问题
  16. python爬虫获取代理免费ip并检测
  17. 网页中嵌入电视直播代码
  18. 网络通信过程-非常详细
  19. 私有化部署,为企业知识管理保驾护航
  20. mt5_MetaTrader5_模块下载备忘。

热门文章

  1. 17 行为型模式-----迭代器模式
  2. MATLAB——zeros
  3. C# 启动与停止进程
  4. 选择SEO服务时要注意的问题
  5. OpenSSL 介绍和使用
  6. DPDP ACL 1 -- DPDK ACL算法介绍
  7. OpenCV之模板匹配案例
  8. Linux内核多线程(五)
  9. D - 迷宫游戏 (最短路径)
  10. 线性插值 多项式插值 样条插值 牛顿插值总结