大数据4 - 分布式计算
1.分布式计算概述
分散->汇总模式:
1. 将数据分片,多台服务器各自负责一部分数据处理
2. 然后将各自的结果,进行汇总处理
3. 最终得到想要的计算结果
1. 什么是计算、分布式计算?
2. 分布式计算常见的2种工作模式
2.MapReduce概述
分布式计算框架 - MapReduce
MapReduce是“分散->汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。
MapReduce提供了2个编程接口:
其中
用户如需使用MapReduce框架完成自定义需求的程序开发
只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。
MapReduce执行原理:
一个案例,简单分析一下,MapReduce是如何完成分布式计算的。
假设有如下文件,内部记录了许多的单词。且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。
MapReduce执行原理:
假定有4台服务器用以执行MapReduce任务
可以3台服务器执行Map,1台服务器执行Reduce
1. 什么是MapReduce
2. MapReduce的主要编程接口
3. MapReduce的运行机制
3.YARN概述
MapReduce是基于YARN运行的,即没有YARN”无法”运行MapReduce程序
YARN的资源调度
YARN 管控整个集群的资源进行调度, 那么应用程序在运行时,就是在YARN的监管(管理)下去运行的。
这就像:全部资源都是公司(YARN)的,由公司分配给个人(具体的程序)去使用。
比如,一个具体的MapReduce程序。
我们知道, MapReduce程序会将任务分解为若干个Map任务和Reduce任务。
假设,有一个MapReduce程序, 分解了3个Map任务,和1个Reduce任务,那么如何在YARN的监管(管理)下运行呢?
1. YARN是做什么的?
2. 为什么需要资源调度
3. 程序如何在YARN内运行
4. MapReduce和YARN的关系
4. YARN架构
1. YARN的架构有哪2个角色?
2. 两个角色各自的功能是什么?
3. 什么是YARN的容器?
YARN辅助角色
YARN的架构中除了核心角色,即:
还可以搭配2个辅助角色使得YARN集群运行更加稳定
YARN的架构有哪些角色
大数据4 - 分布式计算相关推荐
- 大数据(分布式计算框架+分布式存储)
https://blog.csdn.net/SmartShylyBoy/article/details/82424726 解析spark和mapReduce的区别和优劣 https://blog.c ...
- 在家搭建大数据分布式计算环境!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:牧小熊,华中农业大学,Datawhale原创作者 0. 前言 分布 ...
- Hadoop大数据原理(3) - 分布式计算框架MapReduce
文章目录 1. 大数据的通用计算 2 MapReduce编程模型 3. MapReduce计算框架 3.1 三类关键进程 大数据应用进程 JobTracker进程 TaskTracker进程 3.2 ...
- 大数据与测试测量的结合
传统测试测量 在测试测量领域,我们传统的测试方法是一台仪器或者一套测试系统实现一个特定功能的测试,例如示波器用来测试波形,矢量网络分析仪用来分析高频信号,以及由其组成的系统来实现特定产品的检测,例如我 ...
- 大数据研究的若干科学问题——徐宗本
什么是大数据? 维基百科:大数据是指无法在容许的时间内用常规的软件工具对其内容进行抓取.管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在十几TB和PB之间. 大数据:不能 ...
- Google大数据三大论文
简介:https://blog.csdn.net/w1573007/article/details/52966742 论文中英文版下载http://pan.baidu.com/s/1slUy4sl 经 ...
- Datawhale_大数据0期
[Task1]创建虚拟机+熟悉linux(2day) 创建三台虚拟机 在本机使用Xshell连接虚拟机 CentOS7配置阿里云yum源和EPEL源 安装jdk 熟悉linux 常用命令 熟悉,she ...
- 大数据开发工程师学习路线分享
大数据是对海量数据存储.计算.统计.分析等一系列处理手段,处理的数据量是TB级,甚至是PB或EB级的数据,是传统数据处理手段无法完成的,大数据涉及分布式计算.高并发处理.高可用处理.集群.实时性计 ...
- 大数据技术在CBTC列车控制系统中的应用
随着铁路行业的快速发展,相关软件的安全性问题已经成为人们关注的重点.铁路行业发生的一些重大事故,大部分与相关系统的软件缺陷有关.而系统的缺陷会随着软件复杂度的增加呈指数级上升,这也直接提高了软件测试的 ...
最新文章
- c++ std::priority_queue优先队列
- 苹果智能音箱HomePod确定开售时间,权威人士质疑:是否太晚?
- CSS布局之品字布局
- 网站面临改版!在修改标题后该如何快速提升排名?
- Tomcat上具有JAX-WS的Web服务
- 【案例实战】餐饮企业分店财务数据分析系统解决方案:业务需求
- zabbix源码编译安装以及添加第一台host监控
- mysql 出现ERROR 2002 (HY000): ....错误通用解决方法
- WebM文件格式标准
- 图书管理系统详细设计说明
- 毕业设计 python opencv 机器视觉图像拼接算法
- sg11解密 php解密 SourceGuardian解密sg_load解密去除域名IP授权
- wamp php 安装redis,wamp下redis安装及配置
- “您未被授权查看该页,您不具备使用所提供的凭据查看该目录或页的权限” -- 解决办法
- How to hide the New! icon or control how long the icon is displayed.
- Git全解 idea github gitee gitlab
- webform母版页
- 亲爱的我把孩子放大了文案解说
- 没有学历怎么找运维工作?
- 如何破解Aspose.word带水印问题