文章目录

  • MPP是什么
    • SMP- Symmetric Multi-Processor 对称多处理器结构
    • NUMA -Non-Uniform Memory Access 非一致存储访问结构
    • MPP -Massive-Parallel Processing 海量并行处理架构
  • MPP DB
    • - Share Disk
    • - Share Nothing
  • 典型MPP DB
    • Greenplum
    • Teradata
    • Impala
    • Presto
    • ElasticSearch
    • Vertica
  • MPP架构的应用场景
    • 搜索架构
    • 查询服务

学习笔记:大数据架构详解:从数据获取到深度学习

MPP是什么

  • 系统架构层面的服务器分类,如下三类:

SMP- Symmetric Multi-Processor 对称多处理器结构

  • 特点
    Uniform Memory Access
    共享存储:cpu,内存,io
  • 不足
    扩展能力有限
    内存总线限制访问内存的效率

NUMA -Non-Uniform Memory Access 非一致存储访问结构

  • 特点
    拥有多个CPU模块,每个模块由多个CPU组成,有独立的本地内存,io槽口
    节点之间通过互联模块进行连接和信息交互:同一台物理服务器内部实现,cpu异地访问时必须等待
    较好解决SMP系统的扩展问题
  • 不足
    互联模块访问效率和本地内存访问不在一个效率层级,系统性能无法和cpu数线性增加

MPP -Massive-Parallel Processing 海量并行处理架构

另一种系统扩展的方式

  • 特点

    • SMP组合的方式:每台SMP服务器(节点)通过节点互联网络连接。
      节点互联网络:MPP内部使用,对用户透明,在不同SMP服务器外部通过IO实现,每个节点只访问本地内存和存储,节点信息交互和节点本身是并行处理的。
    • 每个节点只访问本地资源(内存,存储),Share Nothing结构。
    • 对等节点:所有数据节点角色一样。可以提升并行计算能力
    • 汇总节点:数据汇总节点的稳定性,可用性影响整体的性能
  • 不足
    • 复杂的机制来调度和平衡各个节点的负载和并行处理过程。
    • 短板效应。
      如果一个节点总是执行的慢于集群中其他的节点,整个集群的性能就会受限于这个故障节点的执行速度(所谓木桶的短板效应),无论集群有多少节点,都不会有所提高。
      当MPP系统中某个节点的RAID由于磁盘问题导致的性能很慢,或者硬件或者系统问题带来的CPU性能问题等等,都会产生这样的问题。所有的MPP系统都面临这样的问题。
    • MPP集群规模不能过大。
    • 并发度不能过高,数据查询汇总节点的并发查询数限制在10+数量级,用户数有限制。

MPP DB

- Share Disk

使用独立的cpu,内存,,共享硬盘系统,不存在数据同步问题,有存储瓶颈问题
OracleRac

- Share Nothing

水平扩展灵活,元数据同步、故障恢复问题

典型MPP DB

了解MPP的架构特点,再来看看有代表性的一些产品,是不是有一种大同小异、豁然开朗的感觉。

Greenplum

PostgreSQL的基础上 、MPP架构
关系型分布式数据仓库
兼容Hadoop生态,-》HAWQ,存储层改用HDFS.

  • 架构
  • 大规模存储
    Hash分片,表分区:数据到各个Segment Host
  • 并行处理
  • 支持索引
    B-Tree
    Bitmap
    Hash

Teradata

暂无了解,原理细节及使用介绍参考这位仁兄的文章

Impala

Presto

Distributed SQL Query Engine for Big Data

官方文档

  • presto目标定位
    Presto is a tool designed to efficiently query vast amounts of data using distributed queries. If you work with terabytes or petabytes of data, you are likely using tools that interact with Hadoop and HDFS. Presto was designed as an alternative to tools that query HDFS using pipelines of MapReduce jobs such as Hive or Pig, but Presto is not limited to accessing HDFS. Presto can be and has been extended to operate over different kinds of data sources including traditional relational databases and other data sources such as Cassandra.

    Presto was designed to handle data warehousing and analytics: data analysis, aggregating large amounts of data and producing reports. These workloads are often classified as Online Analytical Processing (OLAP).

  • presto组件

  • presto使用

  • presto 与 Impala区别

ElasticSearch


es版本变更很快,与java spring体系集成方面,产生了一些第三方组件库,
比较高效的一种方案参考 bboss

Vertica

Vertica 采用无共享的MPP 架构,基于工业标准的x86 服务器,拥有高可扩展性。
Vertica 集群中的所有节点100%对等,集群中没有主节点或其他共享资源,详细资料见百度百科的介绍

MPP架构的应用场景

搜索架构

查询服务

client节点,数据汇总节点(协调节点),并行计算节点。

协调节点也是集群中任意同构的计算节点,其性能、稳定性、可用性决定了集群的整体表现。

MPP与Batch的优缺点比较

MPP架构是什么?看这一篇就行了。。相关推荐

  1. CompletableFuture使用详解(全网看这一篇就行)

    Java8 CompletableFuture 用法全解_孙大圣666的博客-CSDN博客_completablefuture ​​​CompletableFuture使用详解(全网看这一篇就行)_代 ...

  2. Prettier看这一篇就行了

    点击上方关注 前端技术江湖,一起学习,天天进步 作者:陈龙 https://zhuanlan.zhihu.com/p/81764012 已获取作者授权,请勿未经允许转载. 0.前言 用了两年 Pret ...

  3. 变身Go运维架构师,看这一篇就够了!

    2020年马哥Go运维开发架构师学习路线图共八个阶段的学习:GO核心编程--数据库处理--Web开发框架--多云管理平台--用户管理平台--监控报警系统--发布系统--Docker与K8S. 本文为第 ...

  4. C站学习导航,想用CSDN学习看我这篇就行了!

    大家好,我是辣条. 作为C站的博主,相信大家感受到了文章热榜上的"恐怖如斯",最低都是万字长文起步,热榜前几的文章都是几万字的,博主也是苦不堪言,文章字数上去了,质量却没有上去,你 ...

  5. 使用anaconda安装pytorch——看这一篇就行了

    开门见山 我的电脑里有python编译器 如何装pytorch框架? 答--用anaconda进行安装 翻阅了n多的文章 发现一个真理 看得越多 越容易出问题 那这里我针对每一个需要实现的目的 只放一 ...

  6. 异常你看这一篇就行了,全程白话很好理解(完结撒花)

    什么是异常? 异常其实说白了,就是程序中可能出现的问题,Jvm告诉你,你去解决. 其实从1995年java就在一直收集各种各样的异常问题,java把这一个个异常变成对象.jvm读到异常,创建一个对象, ...

  7. 学会Linux,看完这篇就行了!

  8. 【系统架构设计师】软考高级职称,一次通过,倾尽所有,看完这篇就够了,论软件架构设计的重要性、本篇论文“未通过考试”,供分析参考

    [系统架构设计师]软考高级职称,一次通过,倾尽所有,看完这篇就够了,学习方法和技巧这里全都有. 论软件架构设计的重要性.本篇论文未通过考试(不合格),供分析参考. 目录 摘要 正文 结尾 摘要 201 ...

  9. 【系统架构设计师】软考高级职称,一次通过,倾尽所有,看完这篇就够了,方法和技巧这里全都有。

    目录 背景 报考条件 通过率 考试时间要求 系统架构设计师考试内容 证书的价值 备考建议 报班&自学 分享下我的自学方法 必胜法宝 分享我考试的心态 [系统架构设计师]软考高级职称,一次通过, ...

最新文章

  1. SQL SERVER2000教程-第五章 处理数据 第十三节 设定数字日期格式
  2. 滚动条造成页面抖动问题
  3. 谈谈基于SQL Server 的Exception Handlingp[下篇]
  4. java spring 条件注解_【Spring】Spring高级话题-条件注解-@Condition
  5. 南邮计算机专硕考研专业课,南京邮电大学(专业学位)计算机技术研究生考试科目和考研参考书目...
  6. 内部类的小总结(语法和用法方面)
  7. 哈斯机床进去debug模式_责任链模式
  8. UITableView单元格选择颜色?
  9. echars vue 添加数据没更新_vue在使用ECharts时的异步更新和数据加载详解
  10. Win10修改EFI分区文件
  11. p2p借贷项目面试题
  12. 论文写作---Matlab求解偏导数
  13. Kickstart自动化安装平台
  14. AgentWeb , 一个简洁易用的 Android Web 库
  15. window设置minio自启动时候*报错某些服务未由其他服务使用时将自动停止
  16. 《技术立国》——日立的小平浪平传
  17. 获取krpano点坐标 ath-x  atv-y
  18. railgun:通过代码来简单说明
  19. 如何在pe里加载阵列卡驱动_如何将SATA驱动集成到pe中
  20. 网络功能虚拟化NFV

热门文章

  1. 破解明星网红带货易翻车的方法——企业直播
  2. Muli3D源码分析(1) - 框架概览
  3. Java基础:IO 流中的 flush
  4. Linux常用命令及演示
  5. broker指定ip
  6. webpack安装使用教程
  7. 京东财报图解:年营收9516亿增28% 全渠道取得阶段性进展
  8. 21天学会c++(英汉对照,个人翻译,水平有限,供参考)-------第2天
  9. yyyy-MM-dd和YYYY-MM-dd格式化日期的区别你知道吗?
  10. COleDateTime ParseDateTime 方法