1、Hadoop是什么

Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。

HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。

  MapReduce是一个计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。

1.1、重点:

       Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

       把HDFS理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。

       把MapReduce理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。


2、Hadoop能干什么

大数据存储:分布式存储

日志处理:擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。


3、怎么使用Hadoop

3.1、Hadoop集群的搭建

无论是在windows上装几台虚拟机玩Hadoop,还是真实的服务器来玩,说简单点就是把Hadoop的安装包放在每一台服务器上,改改配置,启动就完成了Hadoop集群的搭建。

3.2、上传文件到Hadoop集群

Hadoop集群搭建好以后,可以通过web页面查看集群的情况,还可以通过Hadoop命令来上传文件到hdfs集群,通过Hadoop命令在hdfs集群上建立目录,通过Hadoop命令删除集群上的文件等等。

3.3、编写map/reduce程序

通过集成开发工具(例如eclipse)导入Hadoop相关的jar包,编写map/reduce程序,将程序打成jar包扔在集群上执行,运行后出计算结果。

直观说明Hadoop是什么?有什么作用?相关推荐

  1. 什么是Zookeeper,Zookeeper的作用是什么,在Hadoop及hbase中具体作用是什么

    原文链接 什么是Zookeeper,Zookeeper的作用是什么,它与NameNode及HMaster如何协作?在没有接触Zookeeper的同学,或许会有这些疑问.这里给大家总结一下. 一.什么是 ...

  2. Hadoop中Context类的作用和Mapper<LongWritable, Text, Text, LongWritable>.Context context是怎么回事【笔记自用】

    问题导读: 1.Context能干什么? 2.你对Context类了解多少? 3.Context在mapreduce中的作用是什么? 下面我们通过来源码,来得到Context的作用: 下面主要对Set ...

  3. Hadoop中Context类的作用

    问题导读: 1.Context能干什么? 2.你对Context类了解多少? 3.Context在mapreduce中的作用是什么? 下面我们通过来源码,来得到Context的作用: 下面主要对Set ...

  4. 《小白兔到大黑牛》第十四篇Hadoop中五个进程作用

    问题导读: 1.job的本质是什么? 2.任务的本质是什么? 3.文件系统的Namespace由谁来管理,Namespace的作用是什么? 4.Namespace 镜像文件(Namespace ima ...

  5. Hadoop五个进程的作用和联系

    1.NameNode: 相当于一个领导者,负责调度 ,比如你需要存一个1280m的文件如果按照128m分块 那么namenode就会把这10个块(这里不考虑副本)分配到集群中的datanode上并记录 ...

  6. Hadoop项目结构及其主要作用

    组件                                                                         功能 HDFS                   ...

  7. Hadoop HA中EditLogTailer的作用

    /*** EditLogTailer represents a thread which periodically reads from edits* journals and applies the ...

  8. hadoop问题小结

    20220322 https://blog.csdn.net/lt5227/article/details/119459827 hadoop控制台设置密码 访问验证 20220314 进入hive 高 ...

  9. 2021年大数据Hadoop(八):HDFS的Shell命令行使用

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 HDFS的Shell命 ...

最新文章

  1. NGUI_Texture
  2. matlab 清楚屏幕,在shell中清除屏幕
  3. mysql sql优化_浅谈mysql中sql优化
  4. 【工具类】JDBCUtils,数据库连接池
  5. java项目引入json配置,TS-28 配置tsconfig.json(3):工程引用
  6. hashmap储存有向图_以邻接表的形式创建带权值的有向图即有向网
  7. github入门教程最全中文版(官方)
  8. iphone6出信号 无服务器,苹果6手机无服务(非常见故障点)维修
  9. activemq 下载以及安装、应用
  10. TMS320F28335的SPI
  11. module ‘cv2‘ has no attribute ‘SIFT‘
  12. android 新浪微博分享提示签名错误,Android ShareSDK 微博分享 (8995)app auth fail for appKeysignpackage 解决...
  13. 计算机网络与Internet发展历史
  14. Aras Innovator 11 sp2 IE客户端设置
  15. pymol 分离蛋白与小分子保存;pymol分离蛋白多聚体亚基;pymol对接位点交互图展示;去除杂原子
  16. 2005国内IC Design House一览
  17. 使用PyTorch实现手写文字识别的学习
  18. 2021-05-12 MongoDB面试题 简单的描述下MongoDB选举流程
  19. 如何转换字体为手写体?艺术字体在线生成器怎么用?
  20. 1005【顺序结构】马克与爸爸的年龄问题

热门文章

  1. [CS144] Lab 1: stitching substrings into a byte
  2. MATLAB对三阶魔方建模并进行旋转操作
  3. Unity3D(一)Unity 2020(2021)下载安装
  4. F(X)分布函数的通俗解释
  5. 计算机上画正比例函数,信息技术应用 用计算机画函数图象优质课教学设计
  6. 一个比 ClickHouse 还快的开源数据库
  7. Matlab常用数学函数和数学运算符
  8. 操作系统课程设计--简单文件系统的实现
  9. 从输入 URL 到浏览器接收的过程中发生了什么事情
  10. 如何在GitHub上传并更新项目