Hadoop是什么:

随着数据量的急剧增加,遇到的两个最直接的问题就是数据存储和计算(分析/利用)。

Hadoop是由Apache基金会所开发的一个用Java实现的分布式基础框架,也可以看做是一个支持开发、运行由通用计算设备组成的大型集群上的分布式应用的平台。Hadoop中的两个最重要的组件—HDFS和MapReduce就是用来解决海量数据(分布式)存储、海量数据(分布式)计算的。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

HDFS有两种节点,NameNode和DataNode。DataNode主要用来存储数据,NameNode管理着整个文件系统的交互。相对于普通的文件系统,HDFS显著的特点是分布式海量存储、备份机制。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。MapReduce:并行计算框架,MapReduce其实是一种分布式计算模型,多个计算机并行计算,共同做一件事情。

Hadoop的应用场景:

简单认识了什么是Hadoop,再来了解一下Hadoop一般都适用于哪些场景。

Hadoop主要应用于大数据量的离线场景,特点是大数据量、离线。

  1. 数据量大:一般真正线上用Hadoop的,集群规模都在上百台到几千台的机器。这种情况下,T级别的数据也是很小的。
  2. 离线:Mapreduce框架下,很难处理实时计算,作业都以日志分析这样的线下作业为主。另外,集群中一般都会有大量作业等待被调度,保证资源充分利用。

  另外,由于HDFS设计的特点,Hadoop适合处理文件块大的文件。大量的小文件使用Hadoop来处理效率会很低。

  Hadoop常用的场景有:

  • 大数据量存储:分布式存储(各种云盘,百度,360~还有云平台均有hadoop应用)
  • 日志处理
  • 海量计算,并行计算
  • 数据挖掘(比如广告推荐等)
  • 行为分析,用户建模等
  • ……

关于Hadoop更多详细内容:大数据Hadoop快速入门

(本课程以帮助学员深入了解hadoop,适合有一定大数据基础的学员学习)

阿里云开发者社区全面升级,一站式体验,用得更爽:(阿里云开发者社区首页)

【大数据】Hadoop快速入门相关推荐

  1. 大数据与Hadoop有什么关系?大数据Hadoop入门简介

    学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...

  2. 涵盖从java入门到深入架构,Linux、云计算、分布式、大数据Hadoop、ios、Android、互联网技术应有尽有

    [涵盖从java入门到深入架构,Linux.云计算.分布式.大数据Hadoop.ios.Android.互联网技术应有尽有] 1.javascript视频教程 链接: http://pan.baidu ...

  3. 2021年大数据Hadoop(三十):Hadoop3.x的介绍

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Hadoop3.x的介绍 介绍 Hadoop 3.0新特性 ...

  4. 2021年大数据Hadoop(十四):HDFS的高可用机制

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 HDFS的高可用机制 HDFS高可用介绍 组件介绍 Nam ...

  5. 【大数据Hadoop实战篇】

    大数据Hadoop实战篇 第1章 Hadoop概述 1.1 Hadoop是什么 1.2 Hadoop发展历史(了解) 1.3 Hadoop三大发行版本(了解) 1.4 Hadoop优势(4高) 1.5 ...

  6. 大数据架构师入门学习

    经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高.如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你 ...

  7. 03 大数据hadoop发展简史及环境安装

    文章目录 大数据hadoop发展简史及环境安装 1.hadoop的介绍以及发展历史 2.hadoop的历史版本介绍 3.hadoop三大公司发型版本介绍 3.1免费开源版本apache: 3.2免费开 ...

  8. 大数据hadoop和spark怎么选择?

    Hadoop框架的主要模块包括如下: Hadoop Common Hadoop分布式文件系统(HDFS) Hadoop YARN Hadoop MapReduce 虽然上述四个模块构成了Hadoop的 ...

  9. 大数据软件学习入门技巧

    大数据软件学习入门技巧,一般而言,在进行大数据处理时,会先使用大数据数据库,如 MongoDB. GBase等.然后利用数据仓库工具,对数据进行清理.转换.处理,得出有价值的数据.接着用数据建模工具建 ...

  10. 大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】

    视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码: ...

最新文章

  1. wait和notify
  2. File Explore 中data权限修改,实体机
  3. 决策树算法介绍及应用
  4. oracle 11g 从rman全备中恢复控制文件,拥有RMAN全备(缺少后增文件),丢失全部数据文件,控制文件的恢复...
  5. c语言源程序要求每行只能书写一条语句,C语言章节习题集(全)
  6. C#单例---饿汉式和懒汉式
  7. PHP 免费视频教程
  8. 4g伪基站如何实现的
  9. 我狂揽16个offer:面试常问的这些问题你准备了吗?
  10. SSR (misa + primer3 ) 设计SSR引物
  11. 2021最新关于点云配准的全面综述
  12. 【Dart语言第6篇】Dart类
  13. 棋牌麻将 - 基础名词讲解与汇总
  14. Linux重定向console口控制台,Linux重定向console口控制台(Fedora)
  15. 计算机英语作文150字,作文试题_150字_英语作文
  16. Java语言高级-常用API-第四节 ArrayList集合
  17. 这个牛逼哄哄的数据库开源了
  18. Linux服务器上的mongodb:/lib64/libc.so.6: version `GLIBC_2.14‘ not found (required by /app/hems/mong)
  19. mysql-8.0.21-winx64 安装
  20. 月薪30k的程序员应聘时面试官都会问什么问题

热门文章

  1. 能打开2D、3D图文件的小工具abviewer
  2. 装机——2021年底装机推荐,附9000元DIY介绍
  3. java扫描免费代理服务器
  4. 基于PHP的校园bbs论坛系统
  5. 海康威视监控摄像头接入到微信直播流程
  6. 海康GB28181接入SRS服务器,实现低延迟直播
  7. 计算机网络医院拓扑图方案设计,【方案】某医院计算机网络综合布线系统设计...
  8. 141178万人, pyechart制作第七次人口普查数据动态图
  9. 软件开发管理与质量控制
  10. 软件各项会议评审意见模版