浅谈分布式计算的开发与实现(一)
阅读目录:
- 介绍
- 利用分片算法
- 利用消息队列
- Hadoop简介
- MapReduce
- 离线计算
介绍
分布式计算简单来说,是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结果汇总。 目的在于分析计算海量的数据,从雷达监测的海量历史信号中分析异常信号(外星文明),淘宝双十一实时计算各地区的消费习惯等。
海量计算最开始的方案是提高单机计算性能,如大型机,后来由于数据的爆发式增长、单机性能却跟不上,才有分布式计算这种妥协方案。 因为计算一旦拆分,问题会变得非常复杂,像一致性、数据完整、通信、容灾、任务调度等问题也都来了。
举个例子,产品要求从数据库中100G的用户购买数据,分析出各地域的消费习惯金额等。 如果没什么时间要求,程序员小明就写个对应的业务处理服务程序,部署到服务器上,让它慢慢跑就是了,小明预计10个小时能处理完。 后面产品嫌太慢,让小明想办法加快到3个小时。
平常开发中类似的需求也很多,总结出来就是,数据量大、单机计算慢。 如果上Hadoop、storm之类成本较高、而且有点大才小用。 当然让老板买更好的服务器配置也是一种办法。
利用分片算法
小明作为一个有追求有理想的程序员,决定用介于单机计算和成熟计算框架的过度解决方案,这样成本和需求都能满足了。 分布式计算的核心在于计算任务拆分,如果数据能以水平拆分的方式,分布到5台机器上,每台机器只计算自身的1/5数据,这样即能在3小时内完成产品需求了。
如上所述,小明需要把这些数据按照一定维度进行划分。 按需求来看以用户ID划分最好,由于用户之间没有状态上的关联,所以也不需要事务性及二次迭代计算。 小明用简单的hash取模对id进行划分。
f(memberid) % 5 = ServerN
这样程序可以分别部署到5台机器上,然后程序按照配置只取对应余数的用户id,计算出结果并入库。 这种方式多机之间毫无关联,不需要进行通信,可以避免很多问题。 机器上的程序本身也不具备分布式的特性,它和单机一样,只计算自身获取到的数据即可,所以如果某台机器上程序崩溃的话,处理方式和单机一样,比如记录下处理进度,下次从当前进度继续进行后续计算。
利用消息队列
使用分片方式相对比较简单,但有如下不足之处。
- 它不具有负载均衡的能力,如果某台机器配置稍好点,它可能最先计算完,然后空闲等待着。也有可能是某些用户行为数据比较少,导致计算比较快完成。
- 还有一个弊端就是每台机器上需要手动更改对应的配置, 这样的话多台机器上的程序不是完全一样的,这样可以用远程配置动态修改的办法来解决。
小明这种方式引入了个第三方,消息队列。 小明先用一个单独的程序把用户信息推送到消息队列里去,然后各台机器分别取消费这个队列。 于是就有了3个角色:
- 推送消息的,简称Master。
- 消息队列,这里以Rabbitmq为例。
- 各个处理程序,简称Worker或Slave都行。
虽然仅仅引入了个第三方,但它已经具备了分布式计算的很多特性。
- 计算任务分发。 Master把需要计算的用户数据,不断的推送消息队列。
- 程序一致性。 Worker订阅相同的消息队列即可,无需更改程序代码。
- 任意扩容。 由于程序完全一样,意味着如果想要加快速度,重复部署一份程序到新机器即可。 当然这是理论上的,实际当中会受限于消息队列、数据库存储等。
- 容灾性。 如果5台中某一台程序挂了也不影响,利用Rabbitmq的消息确认机制,机器崩溃时正在计算的那一条数据会在超时,在其他节点上进行消费处理。
Hadoop简介
Hadoop介绍已经相当多了,这里简述下比如:"Hadoop是一套海量数据计算存储的基础平台架构",分析下这句话。
- 其中计算指的是MapReduce,这是做分布式计算用的。
- 存储指的是HDFS,基于此上层的有HBase、Hive,用来做数据存储用的。
- 平台,指可以给多个用户使用,比如小明有一计算需求,他只需要按照对应的接口编写业务逻辑即可,然后把程序以包的形式发布到平台上,平台进行分配调度计算等。 而上面小明的分布式计算设计只能给自己使用,如果另外有小华要使用就需要重新写一份,然后单独部署,申请机器等。Hadoop最大的优势之一就在于提供了一套这样的完整解决方案。
下面找了介绍Hadoop的概览图,跟小明的设计做对比下:
- 图中“大数据计算任务” 对应小明的100G用户数据的计算任务。
- ”任务划分“ 对应Master和消息队列。
- “子任务” 对应Worker的业务逻辑。
- ”结果合并“ 对应把每个worker的计算结果入库。
- “计算结果” 对应入库的用户消费习惯数据。
PS:为了方便描述,把小明设计的分布式计算,叫做小和尚。
MapReduce
由于MapReduce计算输入和输出都是基于HDFS文件,所以大多数公司的做法是把mysql或sqlserver的数据导入到HDFS,计算完后再导出到常规的数据库中,这是MapReduce不够灵活的地方之一。 MapReduce优势在于提供了比较简单的分布式计算编程模型,使开发此类程序变得非常简单,像之前的MPI编程就相当复杂。
狭隘的来讲,MapReduce是把计算任务给规范化了,它可以等同于小和尚中Worker的业务逻辑部分。 MapReduce把业务逻辑给拆分成2个大部分,Map和Reduce,可以先在Map部分把任务计算一半后,扔给Reduce部分继续后面的计算。 当然在Map部分把计算任务全做完也是可以的。 关于Mapreduce实现细节部分不多解释,有兴趣的同学可以查相关资料或看下楼主之前的C#模拟实现的博客【探索C#之微型MapReduce】。
如果把小明产品经理的需求放到Hadoop来做,其处理流程大致如下:
- 把100G数据导入到HDFS
- 按照Mapreduce的接口编写处理逻辑,分Map、Reduce两部分。
- 把程序包提交到Mapreduce平台上,存储在HDFS里。
- 平台中有个叫Jobtracker进程的角色进行分发任务。 这个类似小和尚的Master负载调度管理。
- 如果有5台机器进行计算的话,就会提前运行5个叫TaskTracker的slave进程。 这类似小和尚worker的分离版,平台把程序和业务逻辑进行分离了, 简单来说就是在机器上运行个独立进程,它能动态加载、执行jar或dll的业务逻辑代码。
- Jobtracker把任务分发到TaskTracker后,TaskTracker把开始动态加载jar包,创建个独立进程执行Map部分,然后把结果写入到HDFS上。
- 如果有Reduce部分,TaskTracker会创建个独立进程把Map输出的HDFS文件,通过RPC方式远程拉取到本地,拉取成功后,Reduce开始计算后续任务。
- Reduce再把结果写入到HDFS中
- 从HDFS中把结果导出。
这样一看好像是把简单的计算任务给复杂化了,其实如果只有几台计算任务的话,使用Mapreduce确实是杀鸡用牛刀了。 如果有TB、PB级别的数据、跑在成百上千台计算节点上,Mapreduce的优势才会体现出来。 其计算框架图架构如下:
离线计算
通常称Mapreduce及小和尚这种计算为离线计算,因为它对已经持久化的文件数据进行计算,不能实时响应。 还有个原因就是它的处理速度比较慢,它的输入和输出源都是基于HDFS设计,如果数据不是一开始就写入到HDFS上,就会涉及到数据导入导出,这部分相对耗费时间。 而且它的数据流动是基于文件系统的,Map部分输出的数据不是直接传送到Reduce部分,而是先写入HDFS再进行传送。
处理速度慢也是Mapreduce的不足之处,促使了后面实时计算的诞生。
另外个缺点是Mapreduce的计算任务流比较单一,它只有Map、Reduce两部分。 简单的可以只写一部分逻辑来解决,如果想拆分成多个部分,如逻辑A、逻辑B、逻辑C等, 而且一部分计算逻辑依赖上一次计算结果的话,MapReduce处理起来就比较困难了。 像storm框架解决此类问题的方案,也称为流式计算,下一章继续补充。
PS:懒懒懒,一直拖到现在才写。
浅谈分布式计算的开发与实现(一)相关推荐
- 浅谈分布式计算的开发与实现
2019独角兽企业重金招聘Python工程师标准>>> 介绍 分布式计算简单来说,是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结果汇总. 目的在于分析计 ...
- 浅谈分布式计算的开发与实现(二)
阅读目录: 实时计算 storm简介 流式计算 归纳总结 高容错性 实时计算 接上篇,离线计算是对已经入库的数据进行计算,在查询时对批量数据进行检索.磁盘读取展示. 而实时计算是在数据产生时就对其进行 ...
- 嵌入式开发-浅谈嵌入式MCU开发中的三个常见误区
浅谈嵌入式MCU开发中的三个常见误区 原创 2017-09-30 胡恩伟 汽车电子expert成长之路 目录 (1)嵌入式MCU与MPU的区分 (2)误区一:MCU的程序都是存储在片上Flash上,然 ...
- 软件工程:浅谈人工智能软件开发与传统软件开发的区别
题目:浅谈人工智能软件开发与传统软件开发的区别 摘要:人工智能的飞速发展带动着软件工程的发展,最终使得软件工程产生新的变革.因为人工智能特有的性质,因而导致了人工智能软件与传统软件的差异性.本文对比了 ...
- 浅谈Android游戏开发基础和经验
Android游戏开发基础和经验是本文要介绍的内容,主要是来了解并学习Android游戏开发的内容实例,具体关于Android游戏开发内容的详解来看本文. 做一个类似俄罗斯方块的android游戏开发 ...
- 浅谈Dynamics CRM开发转Dynamics AX开发的感受与差异
浅谈Dynamics CRM开发转Dynamics AX开发的感受与差异 一.差异对比 二.总结 今天我们来谈谈作为一个开发了N年的Dynamics CRM工程师因公司需要转战Dynamics AX的 ...
- 浅谈Android SDK开发
目录 浅谈Android SDK开发 SDK开发的原则 SDK设计 功能与职责边界设计 接口设计 兼容性设计 发布输出设计 SDK文档设计 SDK项目架构 组件化.模块化 统一资源管理 第三方依赖管理 ...
- 浅谈 RISC-V 软件开发生态之 IDE
软件开发者是芯片公司非常重要的资产,CPU做出来是不够的,要让更多的软件开发者用这颗芯片才是成功.国际大厂们都有一只较大的软件团队,在做面向开发者的软件工具和SDK等.--张先轶博士:为什么RISC- ...
- 浅谈对敏捷开发的初期理解
2019独角兽企业重金招聘Python工程师标准>>> 毕业一个半月了,在TW的工作还算顺利,对于我这种小白而言第一次接触到了敏捷开发的流程,为了巩固知识加深了解,所以将在这篇博客中 ...
最新文章
- 人工智能离我们有多远/近?
- 美国国防部黑客大比武 “白帽黑客”受邀请
- 利用python爬虫(part17)--初识selenium
- 寻找性能更优秀的动态 Getter 和 Setter 方案
- MySQL binlog日志三种模式选择及配置
- 【转】OCaml基础知识
- Python时间处理完全手册
- NULL 与 nullptr区别与联系
- 深圳中技物流有限公司软件测试,国际空运
- java opencv 打开图片路径_Java 调用 OpenCV (可获取到图像)
- 流畅的python(一)python数据模型
- 虹科教您固定工业树莓派Modbus RTU设备编号
- 不用登陆QQ也能使用QQ截图工具
- struts2拦截器,拦截指定方法
- movsw 汇编_【汇编】 常用代码段 rep movsw/rep movsw
- openlayers学习——13、openlayers比例尺
- 软件渗透测试:定义、需求、过程
- Git简介之部分易混淆命令的简单介绍
- 基于双边滤波的人脸美化
- Javase杂谈(十)
热门文章
- 史上最全的数据库面试题,不看后悔篇!
- 使用Kubespray部署Kubernetes集群
- 学习用Pandas处理分类数据!
- 2019编程语言最新排行榜!Python蝉联第一
- ACL2022引入滚动审稿机制,Deadline不足一个月啦
- 获国家杰青的北大教授,被985本科生嫌弃本科学校太差!被网友怒怼!
- 博士因论文致谢走红后,回到母校演讲再刷屏!网友:是对寒门学子最好的激励...
- 实操教程|使用图像分割来做缺陷检测的一个例子
- 神经网络变成小怪兽,还能互相 battle!这款游戏用最简单的方式训练神经网络...
- 最新!薪酬最高的大学专业公布!