初识大数据(三. Hadoop与MPP数据仓库)
MPP代表大规模并行处理,这是网格计算中所有单独节点参与协调计算的方法。 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。 MPP DBMS是建立在这种方法之上的数据库管理系统。在这些系统中的每个查询都会被分解为由MPP网格的节点并行执行的一组协调进程,它们的运行时间比传统的SMP RDBMS系统快得多。该架构的另一个优点是可扩展性,因为可以通过添加新节点扩展网格。为了能够处理大量的数据,这些解决方案中的数据通常在每个节点只处理其本地数据的方式在节点(分片)之间分割。这是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制,目前技术上可实现512个节点互联,数千个CPU。MPP有对SQL的完整兼容和一些事务处理功能,如果数据扩展需求不是特别大,数据都是结构化数据,习惯使用传统RDBMS,可以选择MPP数据仓库。
目前有很多关于hadoop技术栈与MPP数据仓库的讨论与对比,很多观点认为hadoop可以替代MPP,但是从下表的比对可以看出两者的差异,对于不同的场景以及MPP技术的发展,应该还是处于并存的状态。另外,基于复杂的数据场景下,混合框架的使用,也还是会存的。我们团队就使用混合框架构建了数据中心,从而完善OLTP能力。
以下是两者的比较:
特性 |
Hadoop |
MPP数据仓库 |
计算节点数 |
可到数千个 |
一般1000个以内 |
数据量 |
支持大于10P |
一般不大于10P |
数据类型 |
关系型,半关系型,无结构化,语音,图像,视频 |
关系型 |
时延 |
中/高 |
低(但还是要看数据量和维度的数量) |
应用生态 |
创新型/人工智能 |
传统数据库型/BI类 |
应用开发接口 |
SQL,MR,丰富的编程语言接口 |
标准数据库SQL |
可扩展性 |
无穷的可能,完整的编程接口 |
有限扩展能力,主要通过UDF支持 |
事务支持 |
有限 |
完整 |
价格 |
低 |
高 |
初识大数据(三. Hadoop与MPP数据仓库)相关推荐
- Hadoop(一)之初识大数据与Hadoop
阅读目录(Content) 一.引言(大数据时代) 1.1.从数据中得到信息 1.2.大数据表象概念 二.大数据基础 2.1.什么是大数据? 2.2.大数据的基本特征 2.3.大数据的意义 2.4.大 ...
- 初识大数据(三)旅游大数据
这是初识大数据的最后一篇文章,也是距离生活中的实例,让大家了解大数据在我们生活中可以做哪些事情,此篇更偏向业务 一.背景 我们想去做一个东西的同时,肯定会去了解这个东西产生的前因后果,功能和需求也是一 ...
- 【初识大数据】4、大数据学习路线
文章目录 大数据学习路线 1.1 基础 1.2 Hadoop 1.3实时计算 1.4 Spark 大数据学习路线 1.1 基础 1.基础JAVA语言(Java SE) 变量 类型 循环 if 面向对象 ...
- Hadoop专业解决方案-第1章 大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...
- hadoop 传感器数据_大数据时代Hadoop的本质,你有过认真了解吗?
除非你过去几年一直隐居,远离这个计算机的世界,否则你不可能没有听过Hadoop,全名Apache Hadoop,是一个在通用低成本的硬件上处理存储和大规模并行计算的一个开源框架,Hadoop本质 ...
- 初识大数据(二)医疗大数据
此篇文章主要跟大家介绍一下大数据在医疗行业内的应用与和落地,给我们的日常生活带和医疗行业带来什么样的变化.适合初入者了解大数据在行业内的应用落地,增加大数据从业人员的业务能力 主要内容为大数据在医疗行 ...
- 大讲台浅谈大数据与Hadoop之间的关系
在现如今,随着面对当前企业级用户对于自建数据中心兴趣的不断扩大,以及大数据正在以惊人的速度增长几乎触及各行各业,而大数据是一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速.大数据技术一旦 ...
- 大数据和Hadoop时代的维度建模和Kimball数据集市
维度建模已死? 在回答这个问题之前,让我们回头来看看什么是所谓的维度数据建模. 为什么需要为数据建模? 有一个常见的误区,数据建模的目的是用 ER 图来设计物理数据库,实际上远不仅如此.数据建模代表了 ...
- 打怪升级之小白的大数据之旅(四十一)<大数据与Hadoop概述>
打怪升级之小白的大数据之旅(四十) Hadoop概述 上次回顾 好了,经过了java,mysql,jdbc,maven以及Linux和Shell的洗礼,我们终于开始正式进入大数据阶段的知识了,首先我会 ...
最新文章
- 机器人视觉三维成像技术全解析
- LoRDEC 利用二代数据纠错PacBio 数据( lordec-src_0.9.tar.bz2)
- 和平精英android怎么写符号,和平精英名字符号大全 可用的名字特殊符号有哪些...
- IDEA 2021.1正式发布,新增了这几个超实用功能!
- 阅读verilog程序总结
- 好了好久时间,终于写成了第一个Python代码
- 数组重组java,重组数组数组并组合相同的术语
- Microsoft SQL Server 2008 Management Studio Express 下载地址
- python关于numpy常用函数思维导图
- Ubuntu 谷歌浏览器下载
- springboot集成knife4j2.0.8实现自定义md文档及权限控制
- vue中分割线的实现
- 读《红楼梦》和《百年孤独》后关于爱、孤独和回忆的一点体会
- ios textfield 拼音输入 完成才录入
- python识别图片中数字_Python实现识别图片上的数字
- 获取当前时间的毫秒时间戳
- [Power Query] 快速计算列
- Linux Shell中判断进程是否存在的代码
- Config.h头文件
- 手持弹幕android制作,手持弹幕神器
热门文章
- 深度优先遍历和广度优先遍历_利用广度优先搜索解LeetCode第515题:在每个树行中找最大值...
- fprintf函数的用法_MATLAB的21种特殊符号,总有一种你不知道的用法
- 计算机组成原理第二章数据,计算机组成原理第二章数据表示(含答案)
- 程序 峰谷值 提取_医学影像组学特征值(Radiomics Features)提取之Pyradiomics(一)理论篇...
- java语言和www技术 阶段性测试一_2018春季【贵州电大】[JAVA语言与WWW技术(省)]04任务阶段性测验(答案)...
- python降序排列说true不存在_Python数据类型串讲(中)
- Python requests 笔记(一)
- 笔记-信息系统开发基础-信息系统开发方法
- Node-RED安装图形化节点dashboard实现订阅mqtt主题并在仪表盘中显示温度
- Mysql中怎样设置指定ip远程访问连接