Hadoop思想之源:Google

  面对的数据和计算难题

    ——大量的网页怎么存储

    ——搜索算法

  带给我们的关键技术和思想(Google三篇论文)

    ——GFS(hdfs)

    ——Map-Reduce

    ——Bigtable

Hadoop创始人介绍:

  Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在CLoudera公司从事架构工作。他不但是Hadoop项目的发起人,还是Lucene、Nutch项目的发起人。

          

Hadoop简介:

  ——名字来源于Hadoop之父Doug Cutting儿子的玩具大象。

  2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch。

  Hadoop于2005年秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入成为Hadoop的项目中。

  ——分布式存储系统HDFS(Hadoop Distributed File System)

  • 分布式存储系统;
  • 提供了:高可靠性、高扩展性和高吞吐率的数据存储服务;

  ——分布式计算框架Map-Reduce

  • 分布式计算框架
  • 具有易于编程、高容错性和高扩展性等优点。

 

HDFS优点:

  - 高容错性:

  • 数据自动保存多个副本
  • 副本丢失后,自动恢复(最少保留三份)

  - 高可靠性

  • Hadoop按位存储和处理数据的能力值得人们信赖

  - 高扩展性

  • Hadoop是在可用的计算机集簇间分配数据并完成计算任务,这些集簇可以方便地扩展到数以千计的节点中

  - 高效性:

  • Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快

  - 适合批处理:

  • 移动计算而非数据移动
  • 数据位置暴露给计算框架

  - 适合大数据处理:

  • GB、TB、甚至PB级数据
  • 百万规模以上的文件数量
  • 10K+节点

  - 可构建在廉价机器上:

  • 通过多副本提高可靠性
  • 提供了容错和回复机制

HDFS缺点:

  - 不适合低延迟数据访问:

  • 比如毫秒级
  • 低延迟于高吞吐率

  - 不适合小文件存取:

  • 占用NameNode大量内存
  • 寻道时间超过读取时间

  - 不支持并发写入、文件随机修改:

  • 一个文件只能有一个写者,不支持多用户写入及任意修改文件
  • 仅支持append(数据追加)

转载于:https://www.cnblogs.com/xinmomoyan/p/10617174.html

01Hadoop简介相关推荐

  1. 大数据入门-基础篇01-hadoop框架简介

    声明:本文主要根据八斗学院孙国宇老师的Hadoop大数据实战手册进行的整理,仅限入门学习! 第一章 hadoop简介 Hadoop 是一个由 Apache 基金会所开发的 开源分布式系统基础架构.用户 ...

  2. etcd 笔记(01)— etcd 简介、特点、应用场景、常用术语、分布式 CAP 理论、分布式原理

    1. etcd 简介 etcd 官网定义: A highly-available key value store for shared configuration and service discov ...

  3. Docker学习(一)-----Docker简介与安装

    一.Docker介绍 1.1什么是docker Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源 Docker可以让开发者打包他们的应用以及依赖包到一个轻量级,可移植 ...

  4. 【Spring】框架简介

    [Spring]框架简介 Spring是什么 Spring是分层的Java SE/EE应用full-stack轻量级开源框架,以IOC(Inverse Of Control:反转控制)和AOP(Asp ...

  5. TensorRT简介

    TensorRT 介绍 引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference) ...

  6. 谷粒商城学习笔记——第一期:项目简介

    一.项目简介 1. 项目背景 市面上有5种常见的电商模式 B2B.B2C.C2B.C2C.O2O B2B 模式(Business to Business),是指商家和商家建立的商业关系.如阿里巴巴 B ...

  7. 通俗易懂的Go协程的引入及GMP模型简介

    本文根据Golang深入理解GPM模型加之自己的理解整理而来 Go协程的引入及GMP模型 一.协程的由来 1. 单进程操作系统 2. 多线程/多进程操作系统 3. 引入协程 二.golang对协程的处 ...

  8. Linux 交叉编译简介

    Linux 交叉编译简介 主机,目标,交叉编译器 主机与目标 编译器是将源代码转换为可执行代码的程序.像所有程序一样,编译器运行在特定类型的计算机上,输出的新程序也运行在特定类型的计算机上. 运行编译 ...

  9. TVM Operator Inventory (TOPI)简介

    TOPI简介 这是 TVM Operator Inventory (TOPI) 的介绍.TOPI 提供了比 TVM 具有更高抽象的 numpy 风格的,通用操作和调度.TOPI 如何在 TVM 中,编 ...

最新文章

  1. 【VMCloud云平台】SCCM(四)域内推送代理
  2. gin构建包含模板的二进制文件
  3. SaltStck 搭建Web集群运用示例 (一)
  4. Spring Job?Quartz?XXL-Job?年轻人才做选择,艿艿全莽~
  5. Spring整合的quartz任务调度的实现方式
  6. Cool!15个创意的 CSS3 文本效果【下篇】
  7. Docker + Jenkins 快速打造 PHP 持续集成服务器
  8. 前端学习(1183):指令v-cloak
  9. 机器学习算法之线性回归
  10. [源码学习]--UGUI
  11. BZOJ.1013.[JSOI2008]球形空间产生器(高斯消元)
  12. 2017.3.25 圆桌聚餐 思考记录
  13. LeetCode11 盛最多水的容器
  14. rocketmq长轮询
  15. 使用Eclipse Babel语言包汉化eclipse
  16. Linux I2C从设备树信息查看与添加方法
  17. 一个10年IT技术人的历程-Java架构师的演变
  18. python pdf分割_Python分割PDF
  19. C Primer Plus(6) 中文版 第3章 数据和C 3.4 C语言基本数据类型
  20. 区块链技术正向积极乐观的智能前景发展

热门文章

  1. Android stadio 导入不在当前工程目录里的工程
  2. Google Play服务中的条码扫描识别
  3. 【Java基础】容器
  4. 使用Fresco加载图片
  5. 有关线程的相关知识(下)
  6. Android10.0 BroadcastCast广播机制原理
  7. 安装网关报mysql服务ini_linux 操作系统下ORACLE数据库使用透明网关连接MYSQL
  8. CSS中的四种样式及选择器
  9. 01:初识Redis
  10. 关于git的使用记录总结