什么是分布式文件系统?为什么需要分布式文件系统?

如果文件系统可以管理用网络连接的很多个存储单元,叫分布式文件系统. 分布式文件系统提供了数据可扩展性,容错性,高并发. 这些是传统文件系统不具有的.

Hadoop getting started

为什么用Hadoop? Hadoop 的 4 个What 和 How.

  

Hadoop 的主要Goal:

  1. 可扩展来增加 node

  2. 容错,Node down 可以很容易recover

  3. 可以读取各种格式的数据(structured, unstructured)

  4. 把task 分配到不同node,具有并行计算能力

Hadoop 生态系统:

接下来先将整个Hadoop 生态系统,然后讲主要模块(HDFS分布式存储, YARN提供调度和资源管理, MapReduce并行计算) ,最后讲云计算(IaaS, PaaS, SaaS), 此外还有什么时候不适用 Hadoop.

Hadoop生态系统:

前面已经提到了HDFS 是管理分布式存储的, YARN 是负责调度和管理资源的,MapReduce 是做分布式计算的,用户只需要写两个函数就可以实现分布式计算了.

  

MapReduce 支持的数据model 有限,Hive 和 Pig 是分别针对 SQL-Like query 和 dataflow 类型数据的,可以理解为对MapReduce的扩展.

  

Giraph 用来处理大规模图表.

  

Storm, Spark, Flink 是内存处理大数据的技术.

Strom for streaming data analysis. Spark for in-memory data analysis.

  

HBase, Cassandra, MongoDB 来处理一些不适合放在关系型数据库的数据,比如 key-value 数据,Sparse tables 数据. 这些都属于 NoSQL 数据库.

  

有了上面介绍的这么多模块,需要一个统一的集中管理工具来管理,就是Zookeeper.

  

这么多工具,如果自己来安排配置其实挺麻烦的,所有就有一些公司提供了集成的预装好的core工具集合,并对production env提供Support. 比如 Cloudera, MAPR, Hortonworks.

  

讲完了整个生态系统,接下来分别讲模块.

HDFS:

HDFS 怎么提供扩张性和可靠性? 以及它的两个关键模块 NameNode 和 DataNode.

  

HDFS 默认每一块数据放三份拷贝来提供可靠性. HDFS支持多种数据类型, 读和写时都需要提供数据类型.

HDFS由两种node 组成, Name Node (一般一个cluster就一个)和 Data Node (每个machine都是一个 data node).

YARN: Resource manager for Hadoop

1. Resource manager and node manager

  

2. Appliacation Master 就像一个谈判人员, 从resource manager 协调资源,让node manager 来负责执行。

  

3. Container: 可以把它看做资源的抽象.

  

MapReduce:

计算分三步:Map -> Shuffle and Sort -> Reduce

下面图片用了WordCount 例子来显示这三个步骤

  

  

  

全局图

  

哪些情况不适合使用MapReduce: 因为每次都需要读取Input数据,所有Input数据不能随时变化,还有task 不能有先后依赖,还有MR 算完了才出结果也就不适合交互型的task.

  

什么情况下Hadoop使用或者不适用?

适用的场景包括了数据量比较大,数据格式多样等

不适用的场景:小数据量;一些数据之间有依赖的高级算法也不适用

云计算:

把基础架构交给云服务商,团队只需要关注应用.

IaaS: 比如 Amazon EC2, 阿里云

PaaS: Microsoft Azure, Google App Engine

SaaS: Dropbox

Value from Hadoop:

Ref:

About YARN: https://www.ibm.com/developerworks/cn/data/library/bd-yarn-intro/

转载于:https://www.cnblogs.com/mashuai-191/p/10045394.html

Coursera, Big Data 1, Introduction (week 3)相关推荐

  1. Coursera Big Data系列课程笔记1

    hadoop Cloudera virtual machine 操作 http://github.com/words-sdsc/coursera big-data-1:安装方式在Introductio ...

  2. Coursera | Applied Data Science with Python 专项课程 | Applied Machine Learning in Python

    本文为学习笔记,记录了由University of Michigan推出的Coursera专项课程--Applied Data Science with Python中Course Three: Ap ...

  3. UiPath Level 1-Lesson 2. Variables Data Types Introduction

    学习大纲 界面布局 添加活动 (Activities) 使用变量 使用流程图 (Flowcharts) 或序列 (Sequences) 1. 界面布局 Ribbon Activities Workfl ...

  4. 一些我推荐的和想上的网络课程(Coursera, edX, Udacity,MIT OCW)

    转载自 http://blog.csdn.net/fightforyourdream/article/details/21314929 感觉是很好的CS 网上公开课总结,在终身学习时代,好好利用网络学 ...

  5. R语言统计入门课程推荐——生物科学中的数据分析Data Analysis for the Life Sciences

    Data Analysis for the Life Sciences是哈佛大学PH525x系列课程--生物医学中的数据分析(PH525x series - Biomedical Data Scien ...

  6. 文献记录(part22)--Learning local metrics from pairwise similarity data

    学习笔记,仅供参考,有错必究 关键词:相似函数学习:本地度量学习:最近的邻居分类:面部验证 文章目录 Learning local metrics from pairwise similarity d ...

  7. 大数据(big data)_如何使用Big Query&Data Studio处理和可视化Google Cloud上的财务数据...

    大数据(big data) 介绍 (Introduction) This article will show you one of the ways you can process stock pri ...

  8. 单细胞论文记录(part19)--A comprehensive comparison on cell-type composition inference for ST data

    学习笔记,仅供参考,有错必纠 博客阅读索引:博客阅读及知识获取指南 文章目录 A comprehensive comparison on cell-type composition inference ...

  9. 参加DW(Data warehouse) 11g R2 讲师培训结束

    虽然还是不能完全安心的全部听完, 但还是知道不少的新东西,11gR2 新功能还真不少 [@more@] Introduction to data warehousing • Introduction ...

最新文章

  1. LINUX下忘记MySQL的ROOT密码后修改,以及添加访问IP。
  2. 设置行内元素宽高和背景色后,行内元素文本不水平垂直居中解决方案
  3. 相较神经网络,大名鼎鼎的傅里叶变换,为何没有一统函数逼近器?
  4. python函数和方法概念_第48p,什么是函数?,Python中函数的定义
  5. Gradle多项目构建–类似父pom的结构
  6. LeetCode - Easy - 169. Majority Element
  7. 让MySql支持Emoji表情(MySQL中4字节utf8字符保存方法)
  8. #中队列的数据结构_数据结构与算法拓展(一)
  9. zabbix5.2安装-linux
  10. 【软件测试】测试需求分析
  11. VCL组件之编辑控件
  12. 用户空间和内核空间是什么?
  13. 阅读文献整理20220104
  14. Mozilla发布开发者专用浏览器Fx10
  15. du命令排序文件大小
  16. 介绍一款rar文件密码破解利器——RAR Password Unlocker
  17. 精华 | 网络故障排除命令汇总【网工必须收藏】
  18. 六度人脉,每一个擦肩而过都有可能和你有关系
  19. 简单工厂方法模式(Simple Factory Methord)
  20. QGIS:创建矢量图层

热门文章

  1. iftop 查看你的网卡流量
  2. 如何配置天融信NGFW4000防火墙基于长连接的访问策略
  3. arm linux 内核启动,Linux(ARM)内核启动地址
  4. html table相关标签和属性
  5. Eclipse juno 中安装 JBoss Tools,集成Hibernate
  6. Eclipse下搭建Hadoop开发环境,并运行第一个实例
  7. 又一道软通动力7K月薪面试题——银行业务调度系统
  8. 关于java中多态的理解,涉及到内存空间
  9. web服务器测试web bench
  10. BootStrap的下载及使用方法