1、Hadoop基础知识

第1章 初识Hadoop

  • Hadoop代替配有大量硬盘的数据库来进行大规模数据分析的原因是:

    1. 传输速率(取决于硬盘的带宽)的提升远大于寻址时间(将磁头移动到特定硬盘位置进行读/写操作的过程)的提升,而数据库采用的是硬盘寻址数据访问模式,其相较于流数据读取模式(主要取决于传输速率)会花费更多时间;
    2. 关系型数据库使用的数据结构是B树(受限于寻址的速率),当其只更新一小部分数据时更有优势;但遇到大规模数据时,因为需要使用**”排序/合并“来重建数据库,所以B树**的效率会明显落后于MapReduce;
  • MapReduce是一个批处理系统,更适合没有用户在现场等待查询结果的离线使用场景,并不适合交互式分析;
  • MapReduce适合一次写入、多次读取数据的应用,关系型数据库则更适合持续更新的数据集以及索引后数据集的点查询和更新(建立索引的数据库系统能够提供对小规模数据的低延迟数据检索快速更新);
  • Hadoop采用的是读时模式(在处理数据时才对数据进行解释,使得数据加载成为一个文件拷贝操作),因此更适合半结构化数据(例如电子表格在结构上由单元格组成,但每个单元格内可以保存任何形式数据)和非结构化数据(例如纯文本或图像等没有特别的内部结构);RDBMS适合结构化数据(例如XML文档),但会在数据加载阶段带来大量时间开销;
  • RDBMS为保持数据的完整性且不含冗余,其数据通常是规范的,但这并不适合Hadoop,因为这会使读取记录成为非本地操作(为什么???),其适合如日志文件(当每次都需要记录客户端主机全名时,会导致同一客户端的全名可能多次出现)的非规范化数据
  • 对数据进行分区后,函数原语(如map和reduce)能够在各分区上并行工作,因此处理模型可以随着数据规模线性收缩,即若输入数据量增加一倍,但集群规模也扩展一倍,仍能使得作业的运行速度与原来一样快;

第2章 关于MapReduce

  • MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段。每个阶段都以键-值对作为输入和输出,其中map的键是某一行起始位置相对于文件起始位置的偏移量,但两个阶段的键和值的类型由程序员来选择;
  • map函数的输出经由MapReduce框架处理后,最后发送到reduce函数,这个处理过程基于来对键-值对进行排序分组(中间有个shuffle过程,将相同键的合并);
  • 在设置形参类型的时候,Hadoop不直接使用Java内嵌的类型,而是使用在org.apache.hadoop.io包中一套可优化网络序列化传输的基本类型,如LongWritableTextIntWritable类型相当于JavaLongStringInterger类型;
  • map和reduce提供Context实例用于输出内容的写入;
  • reduce函数的输入类型必须匹配map函数的输出类型

第3章 Hadoop分布式文件系统

第4章 关于YARN

第5章 Hadoop的I/O操作

2、关于MapReduce应用开发

第6章 MapReduce应用开发

第7章 MapReduce的工作机制

第8章 MapReduce的类型与格式

第9章 MapReduce的特性

3、Hadoop的操作

第10章 构建Hadoop集群

第11章 管理Hadoop

Hadoop权威指南相关推荐

  1. Hadoop权威指南:HDFS-目录,查询文件系统,删除文件

    目录 Hadoop权威指南:HDFS-目录,查询文件系统,删除文件 目录 查询文件系统 文件元数据:FileStatus 列出文件 文件模式 PathFilter对象 删除数据 Hadoop权威指南: ...

  2. Hadoop权威指南学习笔记三

    HDFS简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考.有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my ...

  3. 《Hadoop权威指南》第三章 Hadoop分布式文件系统

    <Hadoop权威指南>第三章 Hadoop分布式文件系统 目录 前言 HDFS的设计 HDFS的概念 命令行接口 Hadoop文件系统 Java接口 数据流 通过distcp并行复制 注 ...

  4. 《Hadoop权威指南》第二章 关于MapReduce

    <Hadoop权威指南>第二章 关于MapReduce 目录 使用Hadoop来数据分析 横向扩展 注:<Hadoop权威指南>重点学习摘要笔记 1. 使用Hadoop来数据分 ...

  5. Hadoop权威指南 _01前言感悟

    Hadoop权威指南 大数据的存储与分析-第4版-修订版-升级版 前言感悟: 或许有人会说前言,我看书一般都不看前言的,但是或许是对于技术书籍的敬畏,也或者是作者对Hadoop的诸多感受,让我也有种代 ...

  6. 《Hadoop权威指南》读书笔记1

    <Hadoop权威指南>读书笔记 Day1 第一章 1.MapReduce适合一次写入.多次读取数据的应用,关系型数据库则更适合持续更新的数据集. 2.MapReduce是一种线性的可伸缩 ...

  7. 基于python的气象数据分析_基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其......

    文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理 关键词:<Hadoop权威指南> ...

  8. Hadoop权威指南(中文版,第2版)【分享】

    下载地址 Hadoop权威指南(中文版,第2版) http://download.csdn.net/download/u011000529/5726789 (友情提示:请点击右下的"联通下载 ...

  9. Hadoop权威指南学习笔记一

    Hadoop简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出.一起学习一起进步. 转载请注明:http://blog.csdn.net/ ...

  10. 《Hadoop 权威指南》读书笔记之七 — chapter7

    <Hadoop 权威指南>读书笔记之七 - chapter7[updating-] The whole process of MapReduce at the highes level,t ...

最新文章

  1. 架构篇:Tomcat 高层组件构建一个商业帝国
  2. 独家 | 用pandas-profiling做出更好的探索性数据分析(附代码)
  3. 获得MFC窗口其它类指针的方法
  4. PHPRPC for PHP
  5. 关于jquery调用webservice的一些感想
  6. dns服务 很多问题,后续再研究
  7. 微信js-sdk使用
  8. 奔图龙芯计算机认证报告,龙芯3A 1500 3U VPX加固计算机
  9. Oracle数据库时间戳转date类型进行判断操作
  10. python报表自动化系列 - 译码:与Excel单元格索引对应的十进制数坐标
  11. 一次排查服务器端接口报500错误的经历
  12. JavaBean、bean 、POJO、PO、DTO、VO、BO 、EJB、EntityBean
  13. php 大excel,如何用php生成一个大的Excel文件?
  14. Turbo码,接近完美的编码
  15. 高数__已知2个平面方程, 求这2个平面的夹角
  16. html感应手机陀螺仪,详解手机上的光线感应器、三轴陀螺仪等各传感器
  17. 诚风老师-直销立法十年 直销企业迎来新机遇
  18. AVFoundation之语音合成器
  19. Python Gstreamer播放rtsp视频流(海康IPCAM)
  20. 基于Spring的微服架构实战之问题记录

热门文章

  1. MapStruct 代码生成器
  2. 第二届ATI获奖自动化测试工具介绍
  3. 用什么录屏软件能录制高清视频
  4. bp神经网络数据预测实例,bp神经网络预测数据
  5. flask 接收文件
  6. 一阶自相关系数 matlab,Eviews求一阶自相关系数
  7. 2018年注册测绘师考试详情解析
  8. pythonindex函数的使用格式_Python正课31 —— 函数参数的使用
  9. CCS10.2安装步骤
  10. 身份证编码与校验码计算规则