hadoop简单介绍

什么是Hadoop:

Hadoop是用Java编写的框架,用于在大型商品硬件群集上运行应用程序,并具有类似于Google File System和MapReduce的功能 。 HDFS是一个高度容错的分布式文件系统,与Hadoop一样,旨在部署在低成本硬件上。 它提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序。
谁使用Hadoop:

Hadoop主要由处理大量数据的公司使用。 他们可能需要处理数据执行分析生成报告 。 当前,所有领先的组织,包括Facebook,Yahoo,Amazon,IBM,Joost,PowerSet,New York Times,Veoh等,都在使用Hadoop。 有关更多信息,请查看PoweredBy Hadoop页面 。

为什么选择Hadoop:

MapReduce是Google的秘密武器:一种将复杂问题分解并分散到多台计算机上的方法。 Hadoop是MapReduce及其自己的文件系统HDFS(Hadoop分布式文件系统)的开源实现。

Hadoop在某种程度上击败了超级计算机:

Hadoop集群在209秒内对1 TB的数据进行了排序,在年度通用(daytona)TB级的基准测试中打破了之前297秒的记录。 排序基准是由Jim Gray在1998年创建的,它指定了输入数据(100亿条100字节记录),这些数据必须完全排序并写入磁盘。 这是Java或开源程序第一次获胜。 有关更多信息, 请单击此处 。

欧洲最大的广告定位平台使用Hadoop:

欧洲最大的广告公司每天获取超过100GB的数据,现在使用RDBMS之类的经典解决方案,他们需要5天的时间进行分析并生成报告。 因此他们落后1个弱点。 经过大量研究,他们开始使用hadoop。 现在有趣的事实是“ Tey能够在1小时内处理数据并生成报告”,这就是Hadoop的魅力所在。 有关更多信息, 请单击此处

Hadoop的主要发行版:

1. Apache Hadoop:

Apache Hadoop项目开发了用于可靠,可扩展的分布式计算的开源软件。

Apache Hadoop提供:

  • Hadoop Common支持其他Hadoop子项目的通用实用程序。
  • HDFS一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
  • MapReduce一种用于在计算集群上对大型数据集进行分布式处理的软件框架。
  • Avro数据序列化系统。
  • Chukwa用于管理大型分布式系统的数据收集系统。
  • HBase一个可扩展的分布式数据库,支持大型表的结构化数据存储。
  • Hive一种数据仓库基础结构,可提供数据汇总和即席查询。
  • Mahout可扩展的机器学习和数据挖掘库。
  • Pig用于并行计算的高级数据流语言和执行框架。
  • ZooKeeper针对分布式应用程序的高性能协调服务。

2. Cloudera Hadoop:

Cloudera的Apache Hadoop发行版(CDH)为基于Hadoop的数据管理平台设定了新标准。 它是当今最全面的平台,可显着加快组织中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新稳定版本。 它包括一些从将来版本中移植回来的有用补丁,以及我们为客户开发的改进

Cloudera Hadoop提供:

  • HDFS –自愈式分布式文件系统
  • MapReduce –强大的并行数据处理框架
  • Hadoop Common –一组支持Hadoop子项目的实用程序
  • HBase – Hadoop数据库,用于随机读写访问
  • Hive –大型数据集上类似SQL的查询和表
  • Pig –数据流语言和编译器
  • Oozie –相互依赖的Hadoop作业的工作流程
  • Sqoop –将数据库和数据仓库与Hadoop集成
  • Flume –高度可靠,可配置的流数据收集
  • Zookeeper –分布式应用程序的协调服务
  • Hue –用于可视Hadoop应用程序的用户界面框架和SDK
Hadoop体系结构:
Hadoop分布式文件系统(HDFS)是一种旨在在商品硬件上运行的分布式文件系统。 它与现有的分布式文件系统有许多相似之处。 但是,与其他分布式文件系统的区别很明显。 HDFS具有高度的容错能力,旨在部署在低成本硬件上。 HDFS提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序。 HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。
名称节点:
NameNode管理名称空间,文件系统元数据和访问控制。 每个群集中只有一个NameNode。 我们可以说NameNode是主节点,数据节点是从节点。 它包含有关数据(即元数据)的所有信息
数据节点:
DataNode保存实际的文件系统数据。 每个数据节点管理其自己的本地连接的存储(即节点的硬盘),并在文件系统中存储一些或所有块的副本。 每个群集中有一个或多个DataNode。
安装/部署Hadoop:

Hadoop可以三种方式安装
1.独立模式:
要以独立模式部署Hadoop,我们只需要设置JAVA_HOME的路径即可。 在这种模式下,不需要启动守护程序,也不需要名称节点格式,因为数据保存在本地磁盘中。
2.伪分布式模式:
在这种模式下,所有守护程序(nameNode,dataNode,secondaryNameNode,jobTracker,taskTracker)都在一台机器上运行。

在此模式下,守护程序(nameNode,jobTracker,secondaryNameNode(可选))在主服务器(NameNode)上运行,守护程序(dataNode和taskTracker)在从属服务器(DataNode)上运行。 请继续关注有关三种Hadoop模式/配置的文章。

相关文章 :

  • MapReduce:简单介绍
  • Cajo,用Java完成分布式计算的最简单方法
  • Hibernate映射集合性能问题
  • Java Code Geeks Andygene Web原型
  • Servlet 3.0异步处理可将服务器吞吐量提高十倍

参考:通过高性能计算博客上的 JCG合作伙伴 了解什么是Hadoop 。

翻译自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

hadoop简单介绍

hadoop简单介绍_Hadoop:简单介绍相关推荐

  1. Hive第一天——Hive介绍以及简单使用

    Hive第二天--Hive介绍以及简单使用 自己的话:黑发不知勤学早,白首方悔读书迟 每天都要保持前进! 一.什么是Hive 数据库: mysql.oracle.sqlserver.DB2.sqlit ...

  2. Matplotlib的介绍及简单操作

    Matplotlib的介绍及简单操作 1 什么是Matplotlib 是专门用于开发2D图表(包括3D图表) 以渐进.交互式方式实现数据可视化 2 为什么要学习Matplotlib 可视化是在整个数据 ...

  3. (三)AJAX基本介绍和简单实例03

    (三)AJAX基本介绍和简单实例03-----Ajax与数据库的动态应用 前台显示界面: 选择所有客户之后: 选择其中一个客户---杜森: Demo03.html代码 <html> < ...

  4. rabbitMQ消息队列 – 面板介绍及简单demo

    首先rabbit安装好之后,运维会给一个控制面板. 默认账号密码为guest 登入以后可以看到具体界面. 在此鸣谢百度翻译给予的大力支持.. ###写一个简单的demo 编写之前..虽然说可以直接用底 ...

  5. 简单的docker-compose编写介绍(包含 nginx+tomcat 实例演示)

    简单的docker-compose编写介绍(包含实例演示) 一.docker compose常用命令 二.docker compose配置常用字段 三.docker compose 演示(tomcat ...

  6. Protobuf介绍及简单使用(上)

    目录 Protobuf 介绍 优势 protobuf语法 Specifying Field Rules Data type Data name Number Protobuf注释 保留字段与标识符 s ...

  7. SQL Server中追踪器Trace的介绍和简单使用

    原文:SQL Server中追踪器Trace的介绍和简单使用 一.What is Trace? 对于SQL Profiler这个工具相信大家都不是很陌生,没用过的朋友可以在SQL Server Man ...

  8. S3C2440移植linux3.4.2内核之内核框架介绍及简单修改

    文章目录 uboot启动内核分析 简单配置内核 编译内核 设置机器ID 修改晶振 移植Linux3.4.2内核其他文章链接: S3C2440移植linux3.4.2内核之内核框架介绍及简单修改 S3C ...

  9. 新颖的自我介绍_精选简单新颖的自我介绍

    精选简单新颖的自我介绍 简单新颖的自我介绍(一): 大家好!我是xx,今年xx岁,毕业于xx校园,我的爱好xx,很高兴和大家一齐共事,望大家多多指导,如今后在工作有做的不到的地方请大家多多包涵.等等! ...

  10. 新颖的自我介绍_简单新颖的自我介绍范文

    简单新颖的自我介绍范文 简单新颖的自我介绍范文1 各位考官好,今天能够站在这里参加面试,有机会向各位考官请教和学习,我感到非常的荣幸.希望通过这次面试能够把自己展示给大家,希望大家记住我.我叫.... ...

最新文章

  1. Microbiome | 中科院张惠明团队揭示RNA介导的DNA甲基化影响植物根部微生物群落!...
  2. 为什么《七周七语言》选中的是这几种语言?
  3. 基于STM32F103双轴机械臂完整电路板设计
  4. python并行计算numpy_【Nature文章摘录】NumPy: 从单机到分布式并行计算
  5. Red 编程语言 2019 开发计划:全速前进!
  6. 系统集成项目管理视频课程
  7. 卫星协同观测的学习笔记
  8. [算法] 已知前序和中序遍历,建立二叉树
  9. micropython和python区别-MicroPython入坑记(三)板子上的Python到底有多快?
  10. #ifndef_百度百科
  11. 博客V7之后,喜庆排名进入2000之内
  12. 2.11 数值分析: 事后误差估计和迭代改善
  13. 8小时 用kotlin开发一款app
  14. 经济学的思维方式 [Basic Economics A Common Sense Guide to the Econom]
  15. charles配置代理证书
  16. perl中unicode属性
  17. oracle文章收藏
  18. “高频面经”,各大厂面经面题分享(已拿offer附攻略)
  19. 一条优质公链需要具备哪些条件?
  20. 阿德莱德大学语言班成绩为C,2020年阿德莱德大学语言班学习经历分享

热门文章

  1. Photoshop的基本操作
  2. 用一年的时间,依靠SEO创造一个成功的网站
  3. sql server简单查询
  4. SparkContext源码分析
  5. 打开数据库_数据库客户端navicat遇到问题怎么办?
  6. spring data jpa是什么?
  7. linux中usb设备名,Linux 中识别 USB 设备名字的 4 种方法
  8. java 泛型参数的类型_Java获得泛型参数类型
  9. rest api如何创建_创建一个安全的Spring REST API
  10. neo4j 显示名字_Neo4j:绘制“我的名字是……我在工作”图