导读:从资源管理角度来看,当前的大数据系统架构主要有两种:一种是MPP数据库架构 ,另一种是Hadoop体系的分层架构。这两种架构各有优势和相应的适用场景。本文主要讲这两种架构的区别。

同样都可以处理大规模数据的MPP数据库架构与Hadoop体系架构属于不同的技术体系,二者没有直接的相关性,却常常被放在一起进行比较。特别是在企业数据仓库建设中,MPP架构与Hadoop架构代表两类典型的技术路线选型,事实上,在2015年左右甚至有人认为基于Hadoop体系的数仓将彻底取代基于MPP数据库的数仓。

01

设计思路对比

两类系统运行的硬件架构是相同的,都是普通服务器组成的集群,但从资源管理角度来说,它们并行化软件实现的设计思路却是相反的。

  • MPP架构相当于对单机的各类资源进行垂直综合管理,再将多个单机系统横向连接进行集成,可以说是先垂直后水平。

  • Hadoop架构相当于将所有机器的存储资源与计算资源抽象出来,分开管理,再进行组件级的垂直集成,可以说是先水平后垂直。

MPP与Hadoop架构对比如图1所示。

▲图1 MPP与Hadoop架构对比

具体分析如下。

  • MPP架构是将许多单机数据库通过网络连接起来,相当于将一个个垂直系统横向连接,形成一个统一对外服务的分布式数据库系统,每个节点由一个单机数据库系统独立管理和操作该节点所在物理机上的所有资源(CPU、内存、磁盘、网络),节点内系统的各组件间的相互调用不需要通过控制节点,即对控制节点来说,每个节点的内部运行过程相对透明。

  • Hadoop架构是将不同的资源管理与功能进行分层抽象设计,每层形成一类组件,实现一定程度的解耦,包括存储资源管理、计算资源管理、通用并行计算框架、各类分析功能等,在每层内进行跨节点的资源统一管理或功能并行执行,层与层之间通过接口调用,相互透明,节点内不同层的组件间的相互调用需要由控制节点掌握或通过控制节点协调,即控制节点了解每个节点内不同层组件间的互动过程。

02

优缺点对比

MPP架构的优缺点总结如下:

  • 支持标准SQL,每个节点都有丰富的事务处理和管理功能;

  • 资源管理精细;

  • 更适合预知数据结构模型的中等规模的固定模式数据管理;

  • 集群规模调整要求较多,增减节点时通常需要停机,且有的系统只能增加不能减少;

  • 延迟小,相对吞吐量一般,单节点缓慢会拖累整体性能;

  • 表记录进行水平分割存储,方法通常包括一致性哈希(Consistent Hashing)、循环写入(Round Robin),但容易产生数据热点。

Hadoop架构的优缺点总结如下:

  • 每个节点功能简单,不具备丰富的数据管理功能,不支持事务;

  • 数据更新采用追加方式实现,同等数据量处理需要的资源更多;

  • 可以不用预先了解数据的格式与内容;

  • 扩展性好,支持集群规模更大,能动态扩容,支持扩充仅用于计算的节点;

  • 延迟高、吞吐量大、容错性(Failover)好。

总体来说,Hadoop架构在数据量较低的情况下,运行速度远不及MPP架构,但数据量一旦超过某个量级,Hadoop架构在吞吐量方面将非常有优势。有些大数据数据仓库产品也采用混合架构,以融合两者的优点,例如Impala、Presto等都是基于HDFS的MPP分析引擎,仅利用HDFS实现分区容错性,放弃MapReduce计算模型,在面向OLAP场景时可实现更好的性能,降低延迟。

本文摘编于《数据应用工程:方法论与实践》(书号:9787111704096)转载请保留文章出处。

推荐理由:一本讲解组织数据能力建设与数据应用工程化的著作,旨在为企业应用和管理数据提供组织建设、技术体系和行业解决方案方面的理论指导和实践经验。

更多精彩回顾

资讯 |《Java核心技术》基于Java 17全面升级!

干货 |再见了Java8,Java17:我要取代你

资讯 | Java核心技术大会2022 · 重磅发布

书单 |今天,Java27岁了!

新书 | 红蓝攻防:构建实战化网络安全防御体系

书讯 |7月书讯 | 12本新书如期而至!

每周赠书 | 第110期:成为架构师的路上,必看的经典好书

上新 | 运维数据治理,构筑智能运维的基石

书评 | 运营其实很重要

两种主流大数据系统架构的区别,终于有人讲明白了相关推荐

  1. 大数据基础架构Hadoop,终于有人讲明白了

    导读:大数据正在成为经济社会发展的新的驱动力.随着云计算.移动互联网等网络新技术的应用和发展,社会信息化进程进入大数据时代,海量数据的产生与流转成为常态.而大数据技术也如雨后春笋般正在蓬勃发展中.Ha ...

  2. 数据平台、大数据平台、数据中台……傻傻分不清?这次终于有人讲明白了!

    来源 | 智领云科技 造概念,在IT行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏.各有趣味.近年来,数据中台之火爆,什么数据 ...

  3. 什么是架构?网络架构中都有什么?终于有人讲明白了

    导读:理解架构这个词的意思是十分重要的.它可能被过度使用,并且使用在各种环境中.如果缺少一致的理解,将会有交流失败的风险.那么架构这个词到底是什么意思呢? 作者:大卫·D.克拉克(David D. C ...

  4. 6种数据分析实用方法,终于有人讲明白了

    导读:在<终于有人把AI.BI.大数据.数据科学讲明白了>中,我们讨论了分析以及相关的一些概念,如大数据和数据科学.现在我们将注意力转向分析中使用的实用方法,包括各种分析工具. 具体来说, ...

  5. 4种数据分析基础方法,终于有人讲明白了

    导读:提到数据分析的基础方法,大家肯定很容易想到对比.细分和趋势,但是这些都是非常基础的入门理论,本文不会涉及.本文主要介绍产品经理在管理整个项目.解决整个项目的问题的时候,需要用到的数据分析方法. ...

  6. 什么是GPU?跟CPU有什么区别?终于有人讲明白了

    导读:一文看懂GPU的前世今生. 作者:钱纲 来源:大数据DT(ID:hzdashuju) 2016年,发生了一件震动IT界的大事.谷歌的人工智能软件阿尔法狗(AlphaGo)击败了韩国的世界围棋冠军 ...

  7. 信息化、数字化与数字化转型的区别,终于有人讲明白了

    作者:唐湘民 来源:大数据DT(ID:hzdashuju) 在信息化时代,人们的活动是在物理世界进行的,借助信息技术提高效率.信息化是为物理世界活动服务的,例如出租车管理系统是为出租车运营服务的. 在 ...

  8. 数据缺失值的3种处理方式,终于有人讲明白了

    导读:如何抹掉机器学习的那点空白? 作者:木羊同学 来源:大数据DT(ID:hzdashuju) 01 机器学习的幕后英雄 今天聊一本机器学习方面的有趣的书,书名叫<基于机器学习数据缺失值填补& ...

  9. 简述直方图和柱形图的区别_什么是直方图?跟柱状图有什么区别?终于有人讲明白了...

    导读:直方图和柱状图都是数据分析中非常常见.常用的图表,由于两者外观上看起来非常相似,也就难免造成一些混淆.此前我们曾在<柱状图.堆叠柱状图.瀑布图有什么区别?怎样用Python绘制?>一 ...

最新文章

  1. MIT无人车新突破:不需要地图也能在“乡野小道”上自动行驶
  2. 对于任天堂你了解多少?
  3. php imagetextouter,CSS_你不知道的outerText,innerText 区别说明,首先,看我们的html定义- phpStudy...
  4. c语言约瑟夫环问题,C++_详解约瑟夫环问题及其相关的C语言算法实现,约瑟夫环问题 N个人围成一圈 - phpStudy...
  5. oracle 临时表空间满了_精心总结--Oracle查询表空间的每日增长量和历史情况统计脚本...
  6. Cisco ACS AAA服务器导入华为私有属性
  7. 免费的中文OCR软件
  8. 回溯算法 python
  9. 空间里相片批量导入u盘_怎么批量把空间照片保存到u盘
  10. 计算几何 - 你绝对找不到比这更好的计算几何
  11. python语言就业方向_Python语言十大就业方向!老男孩教育
  12. 【转】图片热点链接使用方法
  13. 【优化理论】 共轭梯度下降算法实现
  14. BeatSaber节奏光剑插件开发官方教程1-创建一个插件模板
  15. 实用的语音转文字转换器,告别文件转换难题
  16. Microsoft Visio 2010 - 弧线
  17. docker最简单部署python项目
  18. Bonobo基于.NET-Git服务器
  19. [Luogu P4292] [BZOJ 1758] [WC2010]重建计划
  20. 上载android应用的apk文件变成了zip-网下转载的解决方案

热门文章

  1. Web自动化测试[playwright结合pytest使用]
  2. 门店管理|火锅店数字化系统转型
  3. 正则表达式匹配替换网址
  4. 软件质量管理-1-课程介绍
  5. H5上拉加载以及在微信内置浏览器上拉加载失效问题记录
  6. Mysql数据库定时任务自动备份
  7. 1.python 根据 oracle字段名和类型 生成 hive建表语句
  8. 震惊!知名芯片设计师创业三年,终于发现了这惊天秘密。。。
  9. tag untag 与trunk、access、hybird vlan模式的解析
  10. 姚老板讲机器学习之SVM算法