HDFS架构概述

HDFS(Hadoop Distributed File System)的架构概述

  • NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
  • DataNode(dn):在本地文件系统中存储文件块数据,以及块数据的校验和。
  • Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

Yarn架构概述

MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce,如图所示
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总

大数据技术生态体系

图中涉及的技术名词解释如下:

  1. Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如
    :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
  2. Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
  3. Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:
    (1)通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
    (2)高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。 (3)支持通过Kafka服务器和消费机集群来分区消息。(4)支持Hadoop并行数据加载。
  4. Storm:Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。
  5. Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
  6. Oozie:Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。
  7. Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
  8. Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
    其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
  9. R语言:R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
  10. Mahout:Apache Mahout是个可扩展的机器学习和数据挖掘库。
  11. ZooKeeper:Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、
    分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

推荐系统框架

Hadoop架构概述相关推荐

  1. Hadoop组成及各组件架构概述

    1.Hadoop组成 在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大. 在Hadoop2.x时代,增加了Yarn.Yarn只负责资源的调度,Ma ...

  2. Hadoop——(Hadoop框架,Hadoop的优缺点,Hadoop1.x和2.x的版本区别,Hadoop架构,Hadoop目录结构)

    文章目录 大数据的简介 Hadoop框架 Hadoop的优缺点 Hadoop1.x和2.x的版本区别 Hadoop架构 Hadoop目录结构 正常工作的Hadoop集群中Hadoop都分别需要启动哪些 ...

  3. 互联网金融大数据架构概述与应用 - 大数据应用案例

    如果需转载,请注明:乐投网-互联网金融大数据架构概述与应用 IBM分析事业部 IBM分析事业部是在过去一两年间逐步成型的,成立后分成了若干个小部门,如AnalyticsPlatform.CLOUDDA ...

  4. 1小时学会:最简单的iOS直播推流(二)代码架构概述

    最简单的iOS 推流代码,视频捕获,软编码(faac,x264),硬编码(aac,h264),美颜,flv编码,rtmp协议,陆续更新代码解析,你想学的知识这里都有,愿意懂直播技术的同学快来看!! 源 ...

  5. NR 5G 安全架构概述

    安全架构概述 安全域 安全体系结构概述 该图说明了以下安全域: 网络接入安全性(I):一组安全功能,使UE能够安全地通过网络进行身份验证和接入服务,包括3GPP接入和非3GPP 接入,特别是防止对(无 ...

  6. netty系列之:netty架构概述

    文章目录 简介 netty架构图 丰富的Buffer数据机构 零拷贝 统一的API 事件驱动 其他优秀的特性 总结 简介 Netty为什么这么优秀,它在JDK本身的NIO基础上又做了什么改进呢?它的架 ...

  7. Java生鲜电商平台-微服务架构概述

    Java生鲜电商平台-微服务架构概述 单体架构存在的问题 在传统的软件技术架构系统中,基本上将业务功能集中在单一应用内,或者是单一进程中.尽管现代化的软件架构理论以及设计原则已推广多年,但实际技术衍化 ...

  8. Nvidia CUDA初级教程4 GPU体系架构概述

    Nvidia CUDA初级教程4 GPU体系架构概述 视频:https://www.bilibili.com/video/BV1kx411m7Fk?p=5 讲师:周斌 本节内容: 为什么需要GPU 三 ...

  9. 基于hadoop架构的企业数字化转型,阿里数据中台实战案例

    昨天有网友问我: 大型传统企业如何在公司级数据整合.数据治理.数据运营中把握好业务和数据的关系,逐步实现智能化转型? 背景: 大型传统企业,通常都面临业务系统数据孤岛.各板块专业化程度高.多流程衔接交 ...

最新文章

  1. oracle中显示周,oracle中得到一段时间内天,月,周列表
  2. 2020年丘赛放榜:北大斩获5金11银强势霸榜
  3. Lesson 16.4 卷积遇见深度学习
  4. 在IIS6上部署WebService
  5. 性能优化之图片懒加载
  6. 【原创】StackOverflow 20万关注的问题:如何实现异步Task超时的处理?
  7. MTK 8127平台使用busybox
  8. 计算机网络 socket阻塞非阻塞
  9. CUDA C编程权威指南 第七章 调整指令级原语
  10. hadoop的基本搭建
  11. linux查看内存条pn,查看电脑内存条型号的两种方法【图文】
  12. 剑桥: 一个完美的读书地方
  13. 你真的了解人工智能吗?——聊聊AI的碰壁和冬天
  14. 单相全桥逆变电路MATLAB仿真,原理图设计,单相全桥逆变器设计资料,ti的参考,可用做光伏并网逆变器
  15. Python订票系统这才是看电影选座的正确方法,原来我们都上当了
  16. 日志分析工具 LogParser 学习笔记
  17. java优化方法_JAVA程序性能优化的10个简单方法
  18. 误删分区怎么办?必备数据恢复工具!
  19. 一个不错的网站,颜色推荐 http://www.colorhexa.com/
  20. 利用ip-subnet-vlan(基于ip子网划分vlan) 技术 实现一根网线多VLAN业务

热门文章

  1. 1分钟学会 2 个复制文本到剪贴板的方法
  2. php各版本之间的变化,[发泄贴] 原来 PHP 每一个子版本都是不同的语言……
  3. sea.js的基本使用方法
  4. 【微信公众号】微信集成功能--接入多客服系统
  5. iphone使用private API 发送短信
  6. 用numpy如何创建一个空数组?
  7. require引入js vue_vue中import和require的用法
  8. Bypass Graphics.MeasureString limitations
  9. ArcGIS使用字体文件制作符号库
  10. 热管节能 | 有孚网络数据中心的低碳节能应用