文章目录

  • hadoop基础知识
    • 初始hadoop
    • 关于MapReduce
    • Hadoop分布式文件系统
      • hdfs的设计
      • HDFS的数据块
      • namenode和datanode
      • 联邦HDFS
    • 关于YARN
    • Hadoop的IO操作
  • 关于MapReduce
  • Hadoop操作
  • Hadoop相关开源项目

hadoop基础知识

初始hadoop

Hadoop是用于数据存储和分析的分布式系统

MapReduce与关系型数据库的比较

MapReduce:一次写入,多次读取
关系型数据库:多次读/写

数据分为

  • 结构化数据

    • 具有既定格式的实体化数据,XML文件等
  • 半结构化数据
    • 电子表格,但是表格的数据格式不一定一样
  • 非结构化数据
    • 文本,图像

Hadoop适合处理半结构化数据和非结构化数据,因为Hadoop的核心假设之一就是可以进行高速的流读写操作

关于MapReduce

MapReduce是一种可用于数据处理的编程模型,MapReduce程序本质上是并行的,因此可以将大规模的数据分析任务分发给任何一个数据中心

我们可以使用Hadoop来分析数据,为了充分利用Hadoop提供的并行数据处理优势,我们需要将查询表示为MapReduce作业,完成某种本地端的小规模测试之后,就可以把MapReduce作业部署到集群上运行

MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段

每阶段都以键-值对作为输出和输出

程序猿需要写两个函数:map函数和reduce函数

map函数的输出经由MapReduce框架处理后,最后发送到reduce函数

Java MapReduce 编程

Hadoop分布式文件系统

hdfs的设计

  • 流式数据访问
  • 大量的小文件
    • 由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存总量
  • HDFS中的文件写入只支持单个写入,而且写操作总是以“只添加”方式在文件末尾写数据

HDFS的数据块

好处

  • 文件的所有块不需要存储在同一磁盘上,文件可以比磁盘大
  • 以块为存储单位,大大简化了存储子系统的设计

namenode和datanode

namenode为管理节点,datanode为工作节点,namenode管理文件系统的命名空间

客户端client代表用户通过与namenode和datanode交互来访问整个文件系统

没有namenode,文件系统将无法使用,我们有两种机制来处理这种问题

  • 备份那些组成文件系统元数据持久状态的文件
  • 运行一个辅助namenode

联邦HDFS

联邦HDFS允许系统通过添加namenode实现拓展,使得拥有大量文件的超大集群可以存在

在联邦环境下,每个namenode维护一个命名空间卷(命名空间的元数据+数据块池),数据块池包含该命名空间下文件的所有数据块

命名空间卷之间相互独立,所以集群中的datanode需要在所有namenode上登记

关于YARN

Hadoop的IO操作

关于MapReduce

Hadoop操作

Hadoop相关开源项目

摆烂了,有亿点不想更新了

Hadoop,the definitive guide 学习相关推荐

  1. 《Hadoop.The.Definitive.Guide.4th.Edition.2015.3》学习笔记

    一.读后感 最近读完了<Hadoop.The.Definitive.Guide.4th.Edition.2015.3>英文第4版,个人感觉这本书是hadoop目前最权威.最全面.最靠谱的书 ...

  2. Hadoop: The Definitive Guide (3rd Edition)

    chapter 1 解决计算能力不足的问题,不是去制造更大的计算机,而是用更多的计算机来解决问题. 我们生活在一个数据的时代."大数据"的到来不仅仅是影响到那些科研和金融机构,对小 ...

  3. 读书笔记《Hadoop权威指南第4版(Hadoop The Definitive Guide 4th)》

    Chapter 1 Meet Hadoop Data Storage and Analysis The problem is simple: although the storage capaciti ...

  4. 《Spark -- The Definitive Guide》学习笔记Note.1

      华罗庚先生说过,"把薄书读厚,把厚书读薄".厚书读薄是梳理脉络,让整体结构变清晰.薄书读厚则是通过查证思考,对原文加以扩增,甚至达到批驳原文的程度.自小偏爱闲书,但在" ...

  5. 《Spark The Definitive Guide》Spark 权威指南学习计划

    本书出自OReilly的<Spark: The Definitive Guide Big Data Processing Made Simple>,由Matei Zaharia, Bill ...

  6. 《Spark -- The Definitive Guide》学习笔记Note.2

      上一期中,通过翻译与凝练<Spark – The Definitive Guide>,我们初步解决了Spark是什么的问题,今天我们将继续学习Spark的基本架构,应用程序,结构化AP ...

  7. 《Presto(Trino)——The Definitive Guide》CHAPTER 6 Connectors Advanced CHAPTER 7 Connector Examples

    Presto(暂译:普雷斯托)系列文章目录-CHAPTER 6 Connectors This book provides a great introduction to Presto and tea ...

  8. 《Spark The Definitive Guide》Chapter 6:处理不同类型的数据

    前言 更多内容,参见:<Spark The Definitive Guide>Spark 权威指南学习计划 Chapter 6:处理不同类型的数据 这一章如题所示讲的就是如何使用DataF ...

  9. 《A Definitive Guide to Apache ShardingSphere》海外正式上市

    近日,由 Apache ShardingSphere 核心成员潘娟.张亮.亚幸共同撰写的<A Definitive Guide to Apache ShardingSphere>技术书籍, ...

最新文章

  1. 三维点云去噪无监督学习:ICCV2019论文分析
  2. SAP HUM LT27可以看一个HU相关的TO单历史
  3. Warning:date():It is not safe to rely on the syste
  4. MTK android flash配置
  5. php jsonp实例 mip无限滚动组件接口注意事项
  6. APP性能之终端兼容
  7. 遍历文件夹_使用JavaScript遍历本地文件夹的文件
  8. (十五)算法设计思想之“回溯算法”
  9. python切换消息窗_用Python切换窗口
  10. 翻译的一篇关于学习编程语言的小文章
  11. MongoDB分析工具之三:db.currentOp()
  12. Android 监听开机完成广播,完成监听SIM卡功能
  13. [SQL Server 2014] SQL Server 2014新特性探秘
  14. 【Android】spannableStringBuilder
  15. hive血缘关系之输入表与目标表的解析
  16. SQL Server触发器更新原理
  17. springboot异常处理机制之统一异常处理和自定义异常类
  18. 乾颐堂现任明教教主(2014年课程)TCPIP协议详解卷一 第三节课笔记
  19. mysql 树形结构表设计与优化
  20. 明源云与华为联合发起828 B2B企业节,共同成就好生意!

热门文章

  1. rtthread添加设备驱动的两种方式
  2. Process finished with exit code -1073740940 (0xC0000374)
  3. startActivityForResult被标记为弃用后,如何优雅的启动Activity?
  4. 和融跃一起零基础学习FRM
  5. LeetCode二刷记录【5】动态规划小结
  6. java与python的简要区别介绍
  7. QT控件 — QScrollArea
  8. 华为云数据库亮相2021PG中国技术大会并斩获4项大奖
  9. Servlet 的线程安全问题
  10. C++ 课程作业 客观题整理(错题)