目录

一,大数据平台架构概述

1,大数据概念

2,大数据的特征

3,大数据的处理流程和相关技术

4,大数据平台架构的特点

5,大数据平台架构原理

二,Hadoop集群概述

1,HDFS

2,MapReduce

3,YARN

三,Hadoop HA 集群原理

1,HDFS HA 实现原理

2,主备切换

3,Zookeeper的功能原理

4,JournalNode服务原理


Hellow大家好,今天带大家学习大数据平台的概述和原理,以及Hadoop架构平台的运转原理,讲解不死板,通俗易懂。带您轻而易举了解其工作原理。

一,大数据平台架构概述

1,大数据概念

大数据并不是单只大数据本身,而是包括大数据的获取,存储,管理,处理分析,展示等等,大数据,数据量肯定更大,来源渠道更广,处理分析展示,更为麻烦,面对大量的数据如果处理速度慢,那么用户会因体验不佳从而放弃当前页面,大数据的最终目的就是让大量的数据发挥其潜在的巨大价值。

2,大数据的特征

体量大

大数据嘛,为什么叫大数据,就是因为它体量大,来源广,杂,随着互联网,物联网,人工智能,移动互联的发展,人口的不断增多,数据量越来越大,越来越多。

多样性

大数据数据来源广泛且多样,包含结构化,非结构化,半结构化数据,不能以统一的方式存储。

高速性

数据的增长速度和处理速度是大数据高速性的重要体现,在当下,人们对大数据的处理和响应速度要求极高,须达到几秒之内完成。

价值

大数据的核心特征是价值密度低,简单理解就是,数据量大,但其有用的信息,经过处理分析之后却很少。

3,大数据的处理流程和相关技术

大数据的处理流程一般分为四步

大数据的采集

采集须在多台服务器上进行,且不能影响其它业务的正常开展,在采集中,会有重复的数据,所以需要对数据进行预处理,去重,在Hadoop平台架构中,预处理主要通过MapReduce来实现。

大数据的存储

因为数据的多样性,结构化,非结构化,半结构化,根据存储问题,衍生出了HDFS,KFS等分布式文件系统,各种关系型(MySql),非关系型(Redis)应运而生。

大数据的分析和挖掘

因对其处理时间要求极其严格,分为离线处理方式和在线处理方式,如果对时间要求不严格,采用离线方式处理,如果对时间要求苛刻,就采用在线方式处理,它们都将存储到HDFS中,通过HDFS数据作为输入,基于Hadoop进行分布式数据分析。

大数据可视化

要求就是能清晰直观的看出分析结果,可借助图形化手段,这就是可视化工具,如python等等。

4,大数据平台架构的特点

高可靠性

按位存储和处理数据能力,HA机制,保证集群不会出太大的故障。

高扩展性

在集群之间分配数据完成扩展任务,方便扩展,节点数以千计。

高效性

各节点动态移动数据,保持节点平衡,处理速度快。

高容错性

数据保存多个副本,自动对失败任务进行重新处理分配。

低成本,开源

5,大数据平台架构原理

分为四层:数据来源层,数据采集与存储层,数据分析层,数据应用层。

二,Hadoop集群概述

Hadoop集群三大核心组件

1,HDFS

Hadoop分布式文件系统HDFS是Hadoop数据存储管理的基础,是一个分布式文件系统,容错性高,高吞吐率,有效的收集海量数据,将大数据文件切成小数据块,再写入不同节点,这些节点被称为数据节点(DataNode),为了使用户在使用时可以访问到每一个数据块,HDFS使用了一个专门保存文件属性信息的节点——名称节点(NameNode)。

2,MapReduce

上边讲到过,MapReduce就是处理数据的,用于海量数据的分布式处理,把对大数据的操作分发给多个子节点进行并行处理,然后整合结果,得到最终的计算结果,MapReduce就是一个分赛处理并汇总结果的过程。

3,YARN

YARN用于资源调度,就是为MapReduce提供计算资源的,是通用资源管理系统,负责将系统资源分配给在Hadoop集群中的应用程序,并调度需要在不同节点执行的任务,相当于一个分布式操作系统平台,它的组件有ResourceManager,ApplicationMaster,NodeManager,采用master/slave(主/从)结构。

总的来说:HDFS用于海量分布式数据的存储,MapReduce用于海量数据分布处理,YARN用于进行资源调度,为MapReduce提供算力资源,HDFS和YARN加起来就是一个分布式操作系统,而MapReduce是运行在这个操作系统上的大数据处理框架。

三,Hadoop HA 集群原理

1,HDFS HA 实现原理

简单来说,完全分布式集群的HDFS下至有一个Namenode进程,当它发生故障时,整个集群将无法工作,那么如何避免呢?很简单,每个HDFS可以部署两个NameNode实列,一个处于active状态,一个处于standby状态,两个Name Node需要同步,为保证active Name Node和standby NameNode的同步,当active NameNode的命名空间发生改变时,会将日志写入DataNode的JournalNode中,standby NameNode会一直监控JournalNode的变化,从而实现两个NameNode的状态同步。

2,主备切换

当active NameNode出现故障后,需要自动切换到standby NameNode,让standby 替代active,从而实现HA,而实现主备切换主要是通过zookeeper集群和FailoverController服务,每个NameNode本地都会有一个FailoverController,他的作用就是向本地的NameNode做健康监控,并时刻与另一端通信,而zookeeper集群则会给一个独占锁,就是标明哪个是active的NameNode。通过FailoverController来通信其NameNode状态,通过zookeeper来标识哪个为active的NameNode,从而实现故障的替换实现真正的高可用。

3,Zookeeper的功能原理

ZooKeeper集群主要负责Hadoop集群的一些数据管理问题,命名服务,配置管理,状态同步,集群管理,队列管理,分布式锁等。

ZooKeeper=文件系统+监测通知
ZooKeeper集群由俩个角色组成,Leader和Follower组成,多个Follower和一个Leader

Leader主要功能就是恢复数据,维持通信

Follower主要功能就是向Leader发送请求,接收Leader的消息并处理,接收Client的请求,进行Leader的投票,结果返回Client

ZooKeeper选举机制,ZooKeeper集群会通过Paxos算法选举出Leader角色是哪个节点,Paxos算法简单来说就是过半选举,比如三台节点,一次启动ZooKeeper,那么第二台节点的ZooKeeper状态就是Leader。

4,JournalNode服务原理

前边说了,为了实现两个NameNode的数据同步,引入了一组名为JournalNode的独立进程进行通信,当active状态的NameNode发生改变时会写入JournalNode中,而standby状态的NameNode会读取JournalNode的变更信息还有日志的变化,这就可以保证在集群出错时NameNode可以完全同步并实现从standby到active状态的切换,从而保持集群的正常运行。

大数据平台,Hadoop集群架构,概述及原理相关推荐

  1. 在线实时大数据平台Storm集群组件学习

    Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速(轻量级)的大数据处理, Storm常用于在线的实时的大数据处理:这句话一定程度上反应了三套大数据平台的鲜明特征.Storm是一套实 ...

  2. 错过必定后悔的干货!深入解析大数据行业的集群架构方案

    随着大数据的日益普及,很多人对大数据越来越感兴趣,有些程序开发者也跃跃欲试,但是苦于不会搭建集群环境,而常常被拦在大数据的门槛之外. 通过这次疫情,我相信各位也看见了,大数据真的很重要.从患者数字地图 ...

  3. 大数据:Hadoop集群测试

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 Hadoop集群测试 通过UI界面查看Hadoop运行状态 一.hadoop2和hadoop3端口区别表 2.查看HDFS集群状态 查 ...

  4. Java+大数据开发——Hadoop集群环境搭建(二)

    1. MAPREDUCE使用 mapreduce是hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序 2. Demo开发--wo ...

  5. 大数据介绍、集群环境搭建、Hadoop介绍、HDFS入门介绍

    大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 文章目录 大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 1.课前资料 2.课程整体介绍 3.大数据介绍 3.1 什么是大数 ...

  6. 大数据介绍及集群安装

    大数据介绍及集群安装 第一部分 <大数据概述> 传统数据如何处理? 什么是大数据? 传统数据与大数据的对比 大数据的特点? 大数据前/后服务器系统安装部署区别是什么?. 大数据生态系统以及 ...

  7. 大数据平台hadoop运维之hadoop入门-高俊峰-专题视频课程

    大数据平台hadoop运维之hadoop入门-5245人已学习 课程介绍         主要介绍hadoop生态圈的常用软件和基础知识,可使学员迅速了解hadoop运维的基础知识,并迅速掌握hado ...

  8. 云计算大数据之 Kafka集群搭建

    云计算大数据之 Kafka集群搭建 版权声明: 本文为博主学习整理原创文章,如有不正之处请多多指教. 未经博主允许不得转载.https://blog.csdn.net/qq_42595261/arti ...

  9. 使用跳板机实现外网访问局域网内虚拟机的大数据及K8S集群【借助向日葵】

    使用跳板机实现外网访问局域网内虚拟机的大数据及K8S集群[借助向日葵] 前言 笔者作为一杆大数据学徒工,工作和学习中都需要有几套属于自己的集群. 双路e5主机:https://lizhiyong.bl ...

  10. Zookeeper的集群架构以及读写原理

    本文来说下Zookeeper的集群架构以及读写原理 文章目录 总体架构 Session Quorum模式 搭建3节点ZooKeeper集群 本文小结 总体架构 应用使用 ZooKeeper 客户端库来 ...

最新文章

  1. C# WinForm 通过URL取得服务器上的某图片文件到本地
  2. php最常见代码,PHP常见算法合集代码实例
  3. python OpenCV 绘图函数
  4. Java模板引擎之freemarker简介
  5. 计算机专业博士在体制内做啥工作,体制内裸辞,三十多岁大龄考博,我收获了什么?...
  6. 前端学习(3014):vue+element今日头条管理--表单验证基本使用2
  7. Python学习杂记之静态网页学习
  8. c#设计模式-适配器模式
  9. UVa 1149 Bin Packing 【贪心】
  10. C++语法篇之STL库
  11. Pandoc:一个超级强大的文档格式转换工具
  12. openwrt路由器(红米AC2100)折腾全程——多拨、ipv6负载均衡、ipv6 nat6、ddns、端口转发
  13. BETTER FINE-TUNING BY REDUCING REPRESENTATIONAL COLLAPSE翻译
  14. 基于PEview分析PE文件(4-1)
  15. 计算机性能低玩游戏卡顿,Win7电脑玩游戏很卡和FPS帧数太低的优化方法
  16. Linux集群的安装和配置
  17. 【Docker】基础(二)
  18. 算法练习14:leetcode习题871. Minimum Number of Refueling Stops
  19. 阿里校园招聘2017编程题
  20. twitter 推出官方 Android 客户端

热门文章

  1. 域名 超过注册日两年_域名 – “注册商注册过期日期”与实际到期日之间的关系...
  2. 以太坊ETH开发资源合集
  3. [Oracle]-[OCP]-申请纸质版OCP证书
  4. app审核被拒:App Tracking Transparency permission request when reviewed on iOS 15.0
  5. TSA-Net论文详解
  6. VMware中kali2022通过物理机代理上网(桥接模式)
  7. 第四章:OpenCV中的图像处理
  8. TMB简介(肿瘤突变负荷 tumor mutation burden, 简称TMB)
  9. 中台的问题,是技术的问题,还是人的问题
  10. Reids简直存储,key以“\xAC\xED\x00\x05t\x00“开头