写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

一、从数据类型考虑
Hadoop在处理非结构化和半结构化数据上具备优势,尤其适合海量数据批处理等应用要求。MPP适合替代现有关系数据机构下的大数据处理,具有较高的效率。二、从应用场景考虑
MPP适合多维度数据自助分析、数据集市等;Hadoop适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。

补充

MPP DB与Hadoop都是将运算分布到节点中独立运算后进行结果合并(分布式计算),但由于依据的理论和采用的技术路线不同而有各自的优缺点和适用范围。

两种技术以及传统数据库技术的对比

特征 Hadoop MPP DB 传统数据库
平台开放性
运维负责度
扩展能力
拥有成本
系统和数据管理成本
应用开发维护成本
SQL支持 中(低)
数据规模 PB级别 部分PB TB级别
计算性能 对非关系型操作效率高 对关系型操作效率高 对关系型操作效率中
数据结构 机构化、半结构化和非机构化数据 结构化数据 结构化数据

未来大数据存储与处理趋势

MPP DB+Hadoop混搭使用

用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事物支持能力;

用Hadoop实现半结构化、非结构化数据处理。这样可以同时满足结构化、半结构化和非结构化数据的高效处理需求。

MPPDB和Hadoop有什么区别相关推荐

  1. Spark精华问答 | Spark和Hadoop的架构区别解读

    总的来说,Spark采用更先进的架构,使得灵活性.易用性.性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高.我总结,具体表现在如下几个方面. 1 Q:Spark和 ...

  2. Storm精华问答 | storm与Hadoop有什么区别?

    戳蓝字"CSDN云计算"关注我们哦! 归于Apache社区,Storm被业界称为实时版Hadoop.随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍.而目前已是分 ...

  3. hadoop block split 区别

    Hadoop权威指南(第三版)P31 Hadoop divides the input to a MapReduce job into fixed-size pieces called input s ...

  4. java -jar和hadoop jar的区别

    hadoop jar可以看做是java -jar的升级,可以和它一样带参数,程序一样的解析 不同的是hadoop jar运行的jar包他会依赖于hadoop安装目录下面的一些环境,并且你jar包里指定 ...

  5. MPP 技术简述,Hadoop 与 MPPDB 的区别

    精选30+云产品,助力企业轻松上云!>>> 整理 OLAP 引擎的时候,遇到了 MPP ,所以再次总结一下. 1. 什么是MPP? MPP (Massively Parallel P ...

  6. Hadoop SequnceFile.Writer 压缩模式及压缩库浅析

    2019独角兽企业重金招聘Python工程师标准>>> 先说明SequnceFile的压缩类型(Compression Type)分为三种NONE,RECORD,BLOCK,通过配置 ...

  7. Hadoop的基本概念和简单使用

    文章目录 1.概念 1.1.Hadoop 1.0和Hadoop 2.0 什么是Hadoo1.0 什么是Hadoo2.0 两者区别 Hadoop整体框架区别 MapReduce计算框架区别 1.2.Ma ...

  8. 几篇关于Hadoop+Hive数据仓库的入门文章

    Hadoop计算平台和Hadoop数据仓库的区别 http://datasearch.ruc.edu.cn/~boliangfeng/blog/?tag=%E6%95%B0%E6%8D%AE%E4%B ...

  9. Hadoop初级之Hadoop基本概念与应用前景

    Hadoop 大数据概念 大数据(big data):指无法在一定时间范围内用常规软件工具(例如java ee 中的mysql)进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞 ...

  10. 非常不错 Hadoop 的HDFS (Hadoop集群(第8期)_HDFS初探之旅)

    1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开 ...

最新文章

  1. Memcached安装使用和源码调试
  2. 什么才是真正赚钱?| 每日趣闻
  3. 李永乐线性代数手写笔记-向量
  4. 微信QQ聊天记录分析工具-微Q
  5. python模块编程教程_python进阶教程之模块(module)介绍
  6. linux 的多进程运行机制,Linux 多进程-2
  7. CSS的三种定位,月薪30K
  8. Android中的Handler, Looper, MessageQueue和Thread
  9. 交叉编译器arm-linux-gcc
  10. python如何爬虫eps数据_Python爬虫常用的几种数据保存方式
  11. Atitit 技术经理 技术总裁 cto 技术总监 职责与流程表总结 v4 t88.docx Atitit 技术总裁 cto 技术总监 技术经理职责与流程表总结 1. 人事财物 文化精神
  12. WinRAR_v6.01压缩文件包必备软件
  13. librtmp库API介绍及其结构概述
  14. 半导体物理学——(二)半导体中杂志和能级缺陷
  15. java程序员电脑内存配置_学习JAVA对电脑配置有要求吗
  16. 2022注册测绘师备考开始 还在不知所措?手把手教你怎么考?
  17. NOIP 2014 primeの酱油记+题解
  18. PTA L2-039 清点代码库
  19. iOS开发月报#11|201905
  20. 怎么实现在MindMapper中添加便笺

热门文章

  1. BeagleBone Black 移植U-Boot (2 MLO、U-Boot)
  2. cacti graphs new.php,Cacti /graphs_new.php SQL Injection Vulnerability
  3. 新旧版MATLAB中的希尔伯特-黄变换(HHT)及其边际谱的求取问题
  4. 宝宝专业智力测试软件,宝宝智力测试 App—儿童智力测试
  5. 将一个数组分成2个数组,使得2个数组的差值最小
  6. 谷歌浏览器任何页面都打不开连设置也不能打开
  7. MapReduce的C#实现及单元测试(试验)
  8. 《断舍离(工作篇)》-[日]山下英子
  9. Entry name ‘firebase-abt.properties‘ collided
  10. 【x11-forwarding disabled解决办法】