Coursera, Big Data 1, Introduction (week 3)
什么是分布式文件系统?为什么需要分布式文件系统?
如果文件系统可以管理用网络连接的很多个存储单元,叫分布式文件系统. 分布式文件系统提供了数据可扩展性,容错性,高并发. 这些是传统文件系统不具有的.
Hadoop getting started
为什么用Hadoop? Hadoop 的 4 个What 和 How.
Hadoop 的主要Goal:
1. 可扩展来增加 node
2. 容错,Node down 可以很容易recover
3. 可以读取各种格式的数据(structured, unstructured)
4. 把task 分配到不同node,具有并行计算能力
Hadoop 生态系统:
接下来先将整个Hadoop 生态系统,然后讲主要模块(HDFS分布式存储, YARN提供调度和资源管理, MapReduce并行计算) ,最后讲云计算(IaaS, PaaS, SaaS), 此外还有什么时候不适用 Hadoop.
Hadoop生态系统:
前面已经提到了HDFS 是管理分布式存储的, YARN 是负责调度和管理资源的,MapReduce 是做分布式计算的,用户只需要写两个函数就可以实现分布式计算了.
MapReduce 支持的数据model 有限,Hive 和 Pig 是分别针对 SQL-Like query 和 dataflow 类型数据的,可以理解为对MapReduce的扩展.
Giraph 用来处理大规模图表.
Storm, Spark, Flink 是内存处理大数据的技术.
Strom for streaming data analysis. Spark for in-memory data analysis.
HBase, Cassandra, MongoDB 来处理一些不适合放在关系型数据库的数据,比如 key-value 数据,Sparse tables 数据. 这些都属于 NoSQL 数据库.
有了上面介绍的这么多模块,需要一个统一的集中管理工具来管理,就是Zookeeper.
这么多工具,如果自己来安排配置其实挺麻烦的,所有就有一些公司提供了集成的预装好的core工具集合,并对production env提供Support. 比如 Cloudera, MAPR, Hortonworks.
讲完了整个生态系统,接下来分别讲模块.
HDFS:
HDFS 怎么提供扩张性和可靠性? 以及它的两个关键模块 NameNode 和 DataNode.
HDFS 默认每一块数据放三份拷贝来提供可靠性. HDFS支持多种数据类型, 读和写时都需要提供数据类型.
HDFS由两种node 组成, Name Node (一般一个cluster就一个)和 Data Node (每个machine都是一个 data node).
YARN: Resource manager for Hadoop
1. Resource manager and node manager
2. Appliacation Master 就像一个谈判人员, 从resource manager 协调资源,让node manager 来负责执行。
3. Container: 可以把它看做资源的抽象.
MapReduce:
计算分三步:Map -> Shuffle and Sort -> Reduce
下面图片用了WordCount 例子来显示这三个步骤
全局图
哪些情况不适合使用MapReduce: 因为每次都需要读取Input数据,所有Input数据不能随时变化,还有task 不能有先后依赖,还有MR 算完了才出结果也就不适合交互型的task.
什么情况下Hadoop使用或者不适用?
适用的场景包括了数据量比较大,数据格式多样等
不适用的场景:小数据量;一些数据之间有依赖的高级算法也不适用
云计算:
把基础架构交给云服务商,团队只需要关注应用.
IaaS: 比如 Amazon EC2, 阿里云
PaaS: Microsoft Azure, Google App Engine
SaaS: Dropbox
Value from Hadoop:
Ref:
About YARN: https://www.ibm.com/developerworks/cn/data/library/bd-yarn-intro/
转载于:https://www.cnblogs.com/mashuai-191/p/10045394.html
Coursera, Big Data 1, Introduction (week 3)相关推荐
- Coursera Big Data系列课程笔记1
hadoop Cloudera virtual machine 操作 http://github.com/words-sdsc/coursera big-data-1:安装方式在Introductio ...
- Coursera | Applied Data Science with Python 专项课程 | Applied Machine Learning in Python
本文为学习笔记,记录了由University of Michigan推出的Coursera专项课程--Applied Data Science with Python中Course Three: Ap ...
- UiPath Level 1-Lesson 2. Variables Data Types Introduction
学习大纲 界面布局 添加活动 (Activities) 使用变量 使用流程图 (Flowcharts) 或序列 (Sequences) 1. 界面布局 Ribbon Activities Workfl ...
- 一些我推荐的和想上的网络课程(Coursera, edX, Udacity,MIT OCW)
转载自 http://blog.csdn.net/fightforyourdream/article/details/21314929 感觉是很好的CS 网上公开课总结,在终身学习时代,好好利用网络学 ...
- R语言统计入门课程推荐——生物科学中的数据分析Data Analysis for the Life Sciences
Data Analysis for the Life Sciences是哈佛大学PH525x系列课程--生物医学中的数据分析(PH525x series - Biomedical Data Scien ...
- 文献记录(part22)--Learning local metrics from pairwise similarity data
学习笔记,仅供参考,有错必究 关键词:相似函数学习:本地度量学习:最近的邻居分类:面部验证 文章目录 Learning local metrics from pairwise similarity d ...
- 大数据(big data)_如何使用Big Query&Data Studio处理和可视化Google Cloud上的财务数据...
大数据(big data) 介绍 (Introduction) This article will show you one of the ways you can process stock pri ...
- 单细胞论文记录(part19)--A comprehensive comparison on cell-type composition inference for ST data
学习笔记,仅供参考,有错必纠 博客阅读索引:博客阅读及知识获取指南 文章目录 A comprehensive comparison on cell-type composition inference ...
- 参加DW(Data warehouse) 11g R2 讲师培训结束
虽然还是不能完全安心的全部听完, 但还是知道不少的新东西,11gR2 新功能还真不少 [@more@] Introduction to data warehousing • Introduction ...
最新文章
- LINUX下忘记MySQL的ROOT密码后修改,以及添加访问IP。
- 设置行内元素宽高和背景色后,行内元素文本不水平垂直居中解决方案
- 相较神经网络,大名鼎鼎的傅里叶变换,为何没有一统函数逼近器?
- python函数和方法概念_第48p,什么是函数?,Python中函数的定义
- Gradle多项目构建–类似父pom的结构
- LeetCode - Easy - 169. Majority Element
- 让MySql支持Emoji表情(MySQL中4字节utf8字符保存方法)
- #中队列的数据结构_数据结构与算法拓展(一)
- zabbix5.2安装-linux
- 【软件测试】测试需求分析
- VCL组件之编辑控件
- 用户空间和内核空间是什么?
- 阅读文献整理20220104
- Mozilla发布开发者专用浏览器Fx10
- du命令排序文件大小
- 介绍一款rar文件密码破解利器——RAR Password Unlocker
- 精华 | 网络故障排除命令汇总【网工必须收藏】
- 六度人脉,每一个擦肩而过都有可能和你有关系
- 简单工厂方法模式(Simple Factory Methord)
- QGIS:创建矢量图层