hadoop简单介绍_Hadoop：简单介绍

hadoop简单介绍

什么是Hadoop：

Hadoop是用Java编写的框架，用于在大型商品硬件群集上运行应用程序，并具有类似于Google File System和MapReduce的功能。 HDFS是一个高度容错的分布式文件系统，与Hadoop一样，旨在部署在低成本硬件上。它提供对应用程序数据的高吞吐量访问，并且适用于具有大数据集的应用程序。

谁使用Hadoop：

Hadoop主要由处理大量数据的公司使用。他们可能需要处理数据 ， 执行分析或生成报告 。当前，所有领先的组织，包括Facebook，Yahoo，Amazon，IBM，Joost，PowerSet，New York Times，Veoh等，都在使用Hadoop。有关更多信息，请查看PoweredBy Hadoop页面。

为什么选择Hadoop：

MapReduce是Google的秘密武器：一种将复杂问题分解并分散到多台计算机上的方法。 Hadoop是MapReduce及其自己的文件系统HDFS（Hadoop分布式文件系统）的开源实现。

Hadoop在某种程度上击败了超级计算机：

Hadoop集群在209秒内对1 TB的数据进行了排序，在年度通用（daytona）TB级的基准测试中打破了之前297秒的记录。排序基准是由Jim Gray在1998年创建的，它指定了输入数据（100亿条100字节记录），这些数据必须完全排序并写入磁盘。这是Java或开源程序第一次获胜。有关更多信息，请单击此处。

欧洲最大的广告定位平台使用Hadoop：

欧洲最大的广告公司每天获取超过100GB的数据，现在使用RDBMS之类的经典解决方案，他们需要5天的时间进行分析并生成报告。因此他们落后1个弱点。经过大量研究，他们开始使用hadoop。现在有趣的事实是“ Tey能够在1小时内处理数据并生成报告”，这就是Hadoop的魅力所在。有关更多信息，请单击此处。

Hadoop的主要发行版：

1. Apache Hadoop：

Apache Hadoop项目开发了用于可靠，可扩展的分布式计算的开源软件。

Apache Hadoop提供：

Hadoop Common ：支持其他Hadoop子项目的通用实用程序。
HDFS ：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。
MapReduce ：一种用于在计算集群上对大型数据集进行分布式处理的软件框架。

Avro ：数据序列化系统。
Chukwa ：用于管理大型分布式系统的数据收集系统。
HBase ：一个可扩展的分布式数据库，支持大型表的结构化数据存储。
Hive ：一种数据仓库基础结构，可提供数据汇总和即席查询。
Mahout ：可扩展的机器学习和数据挖掘库。
Pig ：用于并行计算的高级数据流语言和执行框架。
ZooKeeper ：针对分布式应用程序的高性能协调服务。

2. Cloudera Hadoop：

Cloudera的Apache Hadoop发行版（CDH）为基于Hadoop的数据管理平台设定了新标准。它是当今最全面的平台，可显着加快组织中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新稳定版本。它包括一些从将来版本中移植回来的有用补丁，以及我们为客户开发的改进

Cloudera Hadoop提供：

HDFS –自愈式分布式文件系统
MapReduce –强大的并行数据处理框架
Hadoop Common –一组支持Hadoop子项目的实用程序
HBase – Hadoop数据库，用于随机读写访问
Hive –大型数据集上类似SQL的查询和表
Pig –数据流语言和编译器
Oozie –相互依赖的Hadoop作业的工作流程
Sqoop –将数据库和数据仓库与Hadoop集成
Flume –高度可靠，可配置的流数据收集
Zookeeper –分布式应用程序的协调服务
Hue –用于可视Hadoop应用程序的用户界面框架和SDK

Hadoop体系结构：

Hadoop分布式文件系统（HDFS）是一种旨在在商品硬件上运行的分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是，与其他分布式文件系统的区别很明显。 HDFS具有高度的容错能力，旨在部署在低成本硬件上。 HDFS提供对应用程序数据的高吞吐量访问，并且适用于具有大数据集的应用程序。 HDFS放宽了一些POSIX要求，以实现对文件系统数据的流式访问。

名称节点：

NameNode管理名称空间，文件系统元数据和访问控制。每个群集中只有一个NameNode。我们可以说NameNode是主节点，数据节点是从节点。它包含有关数据（即元数据）的所有信息

数据节点：

DataNode保存实际的文件系统数据。每个数据节点管理其自己的本地连接的存储（即节点的硬盘），并在文件系统中存储一些或所有块的副本。每个群集中有一个或多个DataNode。

安装/部署Hadoop：

Hadoop可以三种方式安装

1.独立模式：
要以独立模式部署Hadoop，我们只需要设置JAVA_HOME的路径即可。在这种模式下，不需要启动守护程序，也不需要名称节点格式，因为数据保存在本地磁盘中。

2.伪分布式模式：
在这种模式下，所有守护程序（nameNode，dataNode，secondaryNameNode，jobTracker，taskTracker）都在一台机器上运行。

在此模式下，守护程序（nameNode，jobTracker，secondaryNameNode（可选））在主服务器（NameNode）上运行，守护程序（dataNode和taskTracker）在从属服务器（DataNode）上运行。 请继续关注有关三种Hadoop模式/配置的文章。

相关文章：

MapReduce：简单介绍
Cajo，用Java完成分布式计算的最简单方法
Hibernate映射集合性能问题
Java Code Geeks Andygene Web原型
Servlet 3.0异步处理可将服务器吞吐量提高十倍

参考：通过高性能计算博客上的 JCG合作伙伴了解什么是Hadoop 。

翻译自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

hadoop简单介绍

hadoop简单介绍_Hadoop：简单介绍相关推荐

Hive第一天——Hive介绍以及简单使用
Hive第二天--Hive介绍以及简单使用自己的话:黑发不知勤学早,白首方悔读书迟每天都要保持前进! 一.什么是Hive 数据库: mysql.oracle.sqlserver.DB2.sqlit ...
Matplotlib的介绍及简单操作
Matplotlib的介绍及简单操作 1 什么是Matplotlib 是专门用于开发2D图表(包括3D图表) 以渐进.交互式方式实现数据可视化 2 为什么要学习Matplotlib 可视化是在整个数据 ...
（三）AJAX基本介绍和简单实例03
(三)AJAX基本介绍和简单实例03-----Ajax与数据库的动态应用前台显示界面: 选择所有客户之后: 选择其中一个客户---杜森: Demo03.html代码 <html> < ...
rabbitMQ消息队列 – 面板介绍及简单demo
首先rabbit安装好之后,运维会给一个控制面板. 默认账号密码为guest 登入以后可以看到具体界面. 在此鸣谢百度翻译给予的大力支持.. ###写一个简单的demo 编写之前..虽然说可以直接用底 ...
简单的docker-compose编写介绍（包含 nginx+tomcat 实例演示）
简单的docker-compose编写介绍(包含实例演示) 一.docker compose常用命令二.docker compose配置常用字段三.docker compose 演示(tomcat ...
Protobuf介绍及简单使用(上）
目录 Protobuf 介绍优势 protobuf语法 Specifying Field Rules Data type Data name Number Protobuf注释保留字段与标识符 s ...
SQL Server中追踪器Trace的介绍和简单使用
原文:SQL Server中追踪器Trace的介绍和简单使用一.What is Trace? 对于SQL Profiler这个工具相信大家都不是很陌生,没用过的朋友可以在SQL Server Man ...
S3C2440移植linux3.4.2内核之内核框架介绍及简单修改
文章目录 uboot启动内核分析简单配置内核编译内核设置机器ID 修改晶振移植Linux3.4.2内核其他文章链接: S3C2440移植linux3.4.2内核之内核框架介绍及简单修改 S3C ...
新颖的自我介绍_精选简单新颖的自我介绍
精选简单新颖的自我介绍简单新颖的自我介绍(一): 大家好!我是xx,今年xx岁,毕业于xx校园,我的爱好xx,很高兴和大家一齐共事,望大家多多指导,如今后在工作有做的不到的地方请大家多多包涵.等等! ...
新颖的自我介绍_简单新颖的自我介绍范文
简单新颖的自我介绍范文简单新颖的自我介绍范文1 各位考官好,今天能够站在这里参加面试,有机会向各位考官请教和学习,我感到非常的荣幸.希望通过这次面试能够把自己展示给大家,希望大家记住我.我叫.... ...

hadoop简单介绍_Hadoop：简单介绍

hadoop简单介绍_Hadoop：简单介绍相关推荐

最新文章

热门文章