01Hadoop简介
Hadoop思想之源:Google
面对的数据和计算难题
——大量的网页怎么存储
——搜索算法
带给我们的关键技术和思想(Google三篇论文)
——GFS(hdfs)
——Map-Reduce
——Bigtable
Hadoop创始人介绍:
Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在CLoudera公司从事架构工作。他不但是Hadoop项目的发起人,还是Lucene、Nutch项目的发起人。
Hadoop简介:
——名字来源于Hadoop之父Doug Cutting儿子的玩具大象。
2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch。
Hadoop于2005年秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入成为Hadoop的项目中。
——分布式存储系统HDFS(Hadoop Distributed File System)
- 分布式存储系统;
- 提供了:高可靠性、高扩展性和高吞吐率的数据存储服务;
——分布式计算框架Map-Reduce
- 分布式计算框架
- 具有易于编程、高容错性和高扩展性等优点。
HDFS优点:
- 高容错性:
- 数据自动保存多个副本
- 副本丢失后,自动恢复(最少保留三份)
- 高可靠性
- Hadoop按位存储和处理数据的能力值得人们信赖
- 高扩展性
- Hadoop是在可用的计算机集簇间分配数据并完成计算任务,这些集簇可以方便地扩展到数以千计的节点中
- 高效性:
- Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快
- 适合批处理:
- 移动计算而非数据移动
- 数据位置暴露给计算框架
- 适合大数据处理:
- GB、TB、甚至PB级数据
- 百万规模以上的文件数量
- 10K+节点
- 可构建在廉价机器上:
- 通过多副本提高可靠性
- 提供了容错和回复机制
HDFS缺点:
- 不适合低延迟数据访问:
- 比如毫秒级
- 低延迟于高吞吐率
- 不适合小文件存取:
- 占用NameNode大量内存
- 寻道时间超过读取时间
- 不支持并发写入、文件随机修改:
- 一个文件只能有一个写者,不支持多用户写入及任意修改文件
- 仅支持append(数据追加)
转载于:https://www.cnblogs.com/xinmomoyan/p/10617174.html
01Hadoop简介相关推荐
- 大数据入门-基础篇01-hadoop框架简介
声明:本文主要根据八斗学院孙国宇老师的Hadoop大数据实战手册进行的整理,仅限入门学习! 第一章 hadoop简介 Hadoop 是一个由 Apache 基金会所开发的 开源分布式系统基础架构.用户 ...
- etcd 笔记(01)— etcd 简介、特点、应用场景、常用术语、分布式 CAP 理论、分布式原理
1. etcd 简介 etcd 官网定义: A highly-available key value store for shared configuration and service discov ...
- Docker学习(一)-----Docker简介与安装
一.Docker介绍 1.1什么是docker Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源 Docker可以让开发者打包他们的应用以及依赖包到一个轻量级,可移植 ...
- 【Spring】框架简介
[Spring]框架简介 Spring是什么 Spring是分层的Java SE/EE应用full-stack轻量级开源框架,以IOC(Inverse Of Control:反转控制)和AOP(Asp ...
- TensorRT简介
TensorRT 介绍 引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference) ...
- 谷粒商城学习笔记——第一期:项目简介
一.项目简介 1. 项目背景 市面上有5种常见的电商模式 B2B.B2C.C2B.C2C.O2O B2B 模式(Business to Business),是指商家和商家建立的商业关系.如阿里巴巴 B ...
- 通俗易懂的Go协程的引入及GMP模型简介
本文根据Golang深入理解GPM模型加之自己的理解整理而来 Go协程的引入及GMP模型 一.协程的由来 1. 单进程操作系统 2. 多线程/多进程操作系统 3. 引入协程 二.golang对协程的处 ...
- Linux 交叉编译简介
Linux 交叉编译简介 主机,目标,交叉编译器 主机与目标 编译器是将源代码转换为可执行代码的程序.像所有程序一样,编译器运行在特定类型的计算机上,输出的新程序也运行在特定类型的计算机上. 运行编译 ...
- TVM Operator Inventory (TOPI)简介
TOPI简介 这是 TVM Operator Inventory (TOPI) 的介绍.TOPI 提供了比 TVM 具有更高抽象的 numpy 风格的,通用操作和调度.TOPI 如何在 TVM 中,编 ...
最新文章
- 【VMCloud云平台】SCCM(四)域内推送代理
- gin构建包含模板的二进制文件
- SaltStck 搭建Web集群运用示例 (一)
- Spring Job?Quartz?XXL-Job?年轻人才做选择,艿艿全莽~
- Spring整合的quartz任务调度的实现方式
- Cool!15个创意的 CSS3 文本效果【下篇】
- Docker + Jenkins 快速打造 PHP 持续集成服务器
- 前端学习(1183):指令v-cloak
- 机器学习算法之线性回归
- [源码学习]--UGUI
- BZOJ.1013.[JSOI2008]球形空间产生器(高斯消元)
- 2017.3.25 圆桌聚餐 思考记录
- LeetCode11 盛最多水的容器
- rocketmq长轮询
- 使用Eclipse Babel语言包汉化eclipse
- Linux I2C从设备树信息查看与添加方法
- 一个10年IT技术人的历程-Java架构师的演变
- python pdf分割_Python分割PDF
- C Primer Plus(6) 中文版 第3章 数据和C 3.4 C语言基本数据类型
- 区块链技术正向积极乐观的智能前景发展