我的一些朋友问我有关OLTP,MPP和Hadoop的问题。我试图解释如下。
这与撰写本文的时间有关。事情变化如此之快:)。OLTP数据库(Oracle,DB2)与MPP(Netezza,Teradata,Vertica等):
1.-DB Oracle或DB2需要在开始处理之前从磁盘读取数据到内存,因此内存计算非常快。
-MPP尽可能使处理接近数据,因此减少了数据移动
2。-DB Oracle或DB2适合较小的OLTP(事务)操作。它还保持了很高的数据完整性。
-MPP适用于批处理。一些MPP(Netezza,Vertica)忽略了Intigrity,例如为了批处理性能而强制执行唯一密钥。Hadoop(没有impala或EMC HAWQ)与MPP:
1.-传统的MPP数据库以成熟的内部结构存储数据。因此,使用SQL进行数据加载和数据处理非常有效。
-存储在hadoop上的数据没有这种结构化的体系结构。因此,访问和加载数据不如常规MPP系统有效。
2.-使用常规MPP,它仅支持关系模型(行-列)
-hadoop支持几乎任何类型的数据。
*但是MPP和hadoop的主要目的是相同的,在存储附近并行处理数据。Cloudera impala(或关键HAWQ)与MPP:
1.-MPP支持高级数据库信息分析
-直到现在(impala 2.0)开始支持“ SQL 2003”,这可能导致他们引入数据库信息分析。
2.-MPP数据库具有行业标准的安全功能和定义良好的用户架构。
-Impala具有非常不完善的安全系统,几乎没有用户架构。
3.-MPP仅支持特定于供应商的文件系统,并且需要使用特定的加载工具加载数据。
-Impala支持大多数打开的文件格式(文本,parquate)
*但是,Impala似乎像Vertica一样成为MPP和Columnar,但在不久的将来会便宜又开放的数据库系统。只需实施安全性并推进数据库分析。如何选择(一般和我个人的看法):1. OLTP数据库(Oracle,DB2,MySQL,MS SQL,Exadata):
-基于事务的应用程序
-较小的DWH
*但是Exadata是混合系统,我有处理大约20TB数据的DWH的经验。2. MPP(Netezza,Teradata,Vertica)
-更大的数据仓库(可能具有大小超过4-5 TB的表)
-不需要或只需很少的预处理
-需要更快的批处理速度
-在数据库分析中3.仅Hadoop :
-所有高度非结构化的数据(文档,音频,视频等)
-需要批量处理4. Hadoop,主要使用Impala(或EMC HAWQ)
-需要具有低成本的DWH-
无需具有高级分析功能
-可以使用开源工具
-无需担心安全性或有限的用户数量5. Hadoop(具有impala或HAWQ)+ MPP:
-一些数据需要大量的预处理,然后才能进行高级分析。
-需要更便宜的查询能力存档或备份较旧的数据。

数据库与hadoop_OLTP,MPP和Hadoop相关推荐

  1. hadoop mpp oracle,请教一下MPP 与 Hadoop是什么关系?

    HADOOP与MPP是什么关系?有什么区别和联系? 适用范围.应用领域分别是什么? 其实MPP架构的关系型数据库与Hadoop的理论基础是极其相似的,都是将运算分布到节点中独立运算后进行结果合并.个人 ...

  2. 达梦mpp相当于oracle什么,DM7 达梦数据库 大规模并行处理 MPP (1) -- 基本概念和原理...

    1 概述 达梦大规模并行处理 MPP(DM Massively Parallel Processing,缩写 DM MPP)是基于达梦数据库管理系统研发的完全对等无共享式集群组件,支持将多个 DM 数 ...

  3. MySQL同步到hadoop工具_MySQL数据库实时同步数据到Hadoop分布式文件系统的工具Applier...

    通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节.,但随着要从"超思维速度"分析方面获取竞争优势的压力递增,因此Hadoop( 分布式文件系统 )自 ...

  4. MySQL同步到hadoop工具_数据同步工具Applier:MySQL数据库实时同步数据到Hadoop

    from: http://ourmysql.com/archives/1226 通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节.,但随着要从"超思维速度&q ...

  5. MySQL同步到hadoop工具_MySQL数据库实时同步数据到Hadoop分布式文件系统的工具Applier(转)...

    通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节.,但随着要从"超思维速度"分析方面获取竞争优势的压力递增,因此Hadoop(分布式文件系统)自身经 ...

  6. MPP VS HADOOP场景分析

    1.节点 MPP,这里以Greenplum为代表,不超过100节点,不过这里说的100节点是说100台机器还是100个节点,按照实际部署,一台物理机器其实不会只部署一个节点的,这里我严重怀疑是100台 ...

  7. mysql是mpp数据库_mysql迁移mpp数据库Greenplum

    1. 场景描述 因兄弟项目中mysql有点扛不住了,要做sql优化,但是业务有点小复杂,优化起来有点麻烦(sql嵌套有点多),便想着用Mpp数据库Greenplum测试下,看性能和复杂度怎么样,趟趟水 ...

  8. 如何从Project数据库中读取mpp文件中自定义域以及自定义大纲代码

    首先 我在Project Server的企业域中重命名以下企业域和企业大纲代码: 任务成本企业成本1(企业成本1) 任务标志2企业标志2 任务工期企业工期1 任务日期企业日期1 任务数字企业数字3 任 ...

  9. 数据库、集群、Hadoop、zookeeper、负责均衡面试题合集

    第三阶段 1.什么是数据库 DB.DataBase数据库: 依照某种数据模型进行组织并存放到存储器的数据集合 DBMS.DataBase Management System – 数据库管理系统: 用来 ...

最新文章

  1. tensorflow 加载下载波士顿房价数据集
  2. java文件分割合并_java实现文件分割与合并 类示例源码
  3. CSS3 background-image背景图片相关介绍
  4. 简单配置jena在eclipse的开发环境
  5. oracle中ocr和asm的关系,迁移OCR和VotingDisk并删除原ASM磁盘组
  6. [Elasticsearch] 邻近匹配 (二) - 多值字段,邻近程度与相关度
  7. 如何利用ZBrush中的DynaMesh创建身体(一)
  8. 中国科学院大学计算机与科学技术学院,贺思敏 - 中国科学院大学 - 计算机科学与技术学院...
  9. java编译程序的基本命令是什么,【填空题】Java中编译java 程序的命令是 1 ,执行java程序的命令是 java 。...
  10. mysql 查新格式化_mysql 日期格式化查询
  11. [妙味DOM]第五课:事件深入应用
  12. java 计算器 junit测试_Java—Junit单元测试
  13. 在使用renderTo中遇到的Uncaught TypeError: Cannot read property 'insertAdjacentHTML' of null
  14. DNA 8. 癌症的突变异质性及寻找新的癌症驱动基因(MutSigCV)
  15. Java六种异常处理的陋习
  16. littleVGL开发(8):消息弹窗控件(lv_mbox)
  17. 蛋疼的时候写三消游戏(一)
  18. Java初学者 搭建Java 开发环境
  19. 计算机考研408真题(全国统考2009--2020)、985高校计算机考研资料(清北+北理+北邮+武大+华科+浙大+复旦+哈工大+西安交大+华南理工)、王道四件套、天勤四件套---百度网盘免费下载
  20. 网易区块链打造可信数字身份认证应用新场景,赋能科技峰会

热门文章

  1. prototype小解
  2. jquery.form.js ajax提交上传文件
  3. [转]快速矩阵快速幂
  4. 分享30个应用HTML5的网站案例
  5. GigaSpaces Grid for dataBase Cashing
  6. JSK-136 公式计算【入门】
  7. UVA11038 How Many O's?题解
  8. NUC1937 B.函数【水题】
  9. B00001 C语言动态存储分配空间作为数组
  10. 中英文对照 —— 饮食与美食