Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.

Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.

数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果.

HDFS:HadoopDistributed File System,Hadoop的分布式文件系统.

大文件被分成默认64M一块的数据块分布存储在集群机器中.

如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.

MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key–value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

如下图所示:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

NameNode同时保存了文件系统运行的状态信息.

DataNode中存储的是被拆分的blocks.

Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

TaskTracker负责某一个map或者reduce任务.

总结

以上所述是小编给大家介绍的hadoop是什么语言,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!

hadoop是什么语言相关推荐

  1. Hadoop的Python语言封装

    Hadoop的Python语言封装 Gao Ang 发表于 2010年05月25日 11:38 | Hits: 245 Hadoop使 用Java语言实现,编写具体的应用业务除了借助Hadoop的Ja ...

  2. 如何让Hadoop结合R语言做统计和大数据分析?

    广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯. R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图.由Revolution An ...

  3. Hadoop的脚本语言Pig应用

     Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集.通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoo ...

  4. R语言为Hadoop注入统计血脉

    RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析.Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现.有了RHad ...

  5. R语言与hadoop之间的千万柔情

    Hadoop的家族如此之强大,为什么还要结合R语言? a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能. b. R语言的强大之处,在于统计分析, ...

  6. Hadoop基础-网络拓扑机架感知及其实现

    Hadoop基础-网络拓扑机架感知及其实现 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.网络拓扑结构 在本地网络中,两个节点被称为"彼此近邻"是什么意思? ...

  7. 基于Hadoop的云盘系统客户端技术选型说明

    伴随云计算技术的发展,云盘系统不断涌现,百度.360.金山等都推出了各自的云盘产品,而云盘存储的模式也越来越被用户所接受,也有越来越多的公司跃跃欲试,想在云存储领域大展拳脚,有一番作为.但是开源Had ...

  8. Hadoop家族学习路线图--转载

    原文地址:http://blog.fens.me/hadoop-family-roadmap/ Sep 6, 2013 Tags: Hadoophadoop familyroadmap Comment ...

  9. Hadoop家族学习路线图

    Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...

最新文章

  1. minicom指令_【教程】minicom使用教程
  2. 还是两个数的交换问题
  3. 终于感觉掌握了一门重要的技术
  4. 免费有理之文件备份软件
  5. 《穿越火线:枪战王者》手游客户端技术方案: 实时同步与手感优化
  6. 聊聊HTTPS和SSL/TLS协议
  7. 文献学习(part12)--GMNN: Graph Markov Neural Networks
  8. Django(part32)--一对一映射
  9. [Java基础]体验Stream流
  10. mysql update nowait_MySQL 8.0新特性 -- nowait以及skip locked
  11. java quartz tomcat_Quartz Scheduler - 在Tomcat或应用程序jar中运行?
  12. 【hadoop】java 获取 yarn app 信息 报错 ConfiguredRMFailoverProxyProvider - Failing over to rm2
  13. php画弧,75、PHP图像处理之画圆、弧线、网站饼状统计图绘制
  14. 文献检索与下载的几种方式
  15. blowfish java_Java与C++通过CBC、blowfish互相加解密
  16. 疑难杂症:系统雪崩到底是为什么
  17. ADS1256实现轮询
  18. Linux文件权限与目录配置
  19. 岁末回首,义无反顾!
  20. Spring Boot使用Servlet居然也可以实现长轮询,敲了5年代码,我居然不知道 - 第413篇

热门文章

  1. 论坛数据库设计初步设计
  2. DNS域名解析服务--Named服务
  3. 十四五期间我国区块链技术趋势特征分析
  4. 一个沪漂三年IT青年的感悟
  5. 常用公共类代码一之数据库的连接
  6. 我学习编程的好的学习方法!
  7. 修改linux系统的时间PRC,Ubuntu16.04操作系统环境下修改时区
  8. sqar+matlab,基于MATLAB的数字图像预测压缩编码
  9. 【读书笔记】《全域营销:付费增长与流量变现实战讲义》——我的公域私域运营教科书
  10. CAS解决单点登录SSO