前面讲了数据仓库的价值、构建思路、实例,完成数据仓库的概念、逻辑、物理模型设计后,数仓的产品选型也是需要考虑的部分,根据数据存储量、查询效率、并发能力可以选用MPP数仓和基于Hadoop的分布式数仓等;

 一、MPP还是Hadoop

这里继续用之前用到的图讲解,数据仓库的特性是处理温数据和冷数据,面向业务分析提供偏于离线分析能力,因此一般选用Hadoop+MPP数仓结合的解决方法,Hive能够提供大批量历史数据的存储计算能力,Hbase能够提供半结构化文档的快速检索能力,MPP能够提供强大高压缩比基础上的快速查询能力;

二、MPP数仓特性

在MPP解决方案中目前我已接触过的是vertica和GP,在teradata实习期间没有用到td数仓;

数仓的特性是大批量的查询和索引,少量的改查工作,MPP (Massively Parallel Processing),即大规模并行处理数据库的一般特性:

① 列式存储意味着高压缩比、高IO能力、快速查询能力、智能索引(数据写入时);

② shared nothing意味着节点的相互独立、数据的冗余备份;

③ 分布式存储/计算、存储/计算的高扩展性、高安全;

MPP的架构分为3种,GP是master/slave模式,具备统一的查询入口(master),vertica是无中心架构,所有节点都提供查询服务,gbase是存储/管理双中心架构;

shared nothing 模式:x86机器构建计算/存储的高扩展集群,数据拆分多份并备份;

shared disk 模式:专用小型机,存储1份数据;

三、Vertica、Greenplum、Gbase

Vertica是惠普的数据仓库产品,无中心架构的mpp,所有节点都能够提供连接查询服务,性能非常强大;

官方文档地址:https://my.vertica.com/documentation/vertica/

集群管理:vertica系统学习vertica集群管理

greenplum是基于postgre数据库的开源的数仓产品,其数据库内核跟vertica一样,两者作者是同一个人,gp是master/slave模式,只有master提供查询能力,同vertica相比,存在master的单点故障风险;

官方文档地址:https://gp-docs-cn.github.io/

部署、特性:greenplum集群部署、greenplum集群管理

gbase是国产数仓产品,联邦架构,文档非常少,但是如果购买产品后相关服务非常到位,实施不复杂,目前项目正在用,待考察中;

部署、特性:Gbase的特性、部署、集群管理

数据库与MPP数仓(十五):MPP的架构与选型相关推荐

  1. 数据库与MPP数仓(十四):招标采购系统的数据仓库构建

    前两篇讲了数据仓库的价值和构建思路,这里根据实际的业务系统数据实现一个数据仓库模型,最近项目是招投标系统的数据仓库建设,涉及的业务逻辑较复杂,参与方较多,但数据量不大,数据仓库构建后主要是支撑招标采购 ...

  2. 数据库与MPP数仓(十九):高效SQL

    --- 建表 create table SCORE_fengzi (cname VARCHAR(10),sciense VARCHAR(10),score INT )--- 插入数据 insert i ...

  3. 胡喜:蚂蚁金服十五年技术架构演进之路

    导读:5 月 6 日,蚂蚁金服副 CTO 胡喜在 2019 年 QCon 上做了<蚂蚁金服十五年技术架构演进之路>的演讲.借此机会,也和大家深入讨论了一下蚂蚁金服对金融科技未来的判断,并首 ...

  4. 数据库与MPP数仓(十三):数据仓库的模型构建

    上一篇主要讲到的是数据仓库对于企业的价值,以及同数据库系统的区别,数据仓库作为业务扩张和数据价值萃取需求的必然产物,其在构建上也有一些参照的既定规范模式,本篇将讲解数据仓库模型构建思路: 目录 一.数 ...

  5. Android 数据库和存储文件(第十五 十六 十七节课)

    第十五节课 页面之问传递参数 1.构建lntent //1.返回结果的跳转 Intent intent=new Intent(MainActivity.this ,Main2Activity.c1as ...

  6. 蚂蚁金服十五年技术架构演进之路

    来自:蚂蚁金服科技 蚂蚁金服过去十五年,通过技术重塑了支付服务.小微贷款服务.我们认为 Blockchain (区块链).Artificial intelligence(人工智能).Security( ...

  7. 蚂蚁金服副 CTO胡喜:从 BASIC 到 basic ,蚂蚁金服十五年技术架构演进之路

    主要观点 1. 蚂蚁金服过去十五年,通过技术重塑了支付和微贷业务.Blockchain (区块链).ArtificialIntelligence(人工智能).Security(安全). IoT(物联网 ...

  8. 从数仓到数据中台,谈技术选型最优解

    本文根据颜博老师在[Deeplus直播第218期]线上分享演讲内容整理而成. 颜博 马蜂窝数仓研发总监 现任马蜂窝数据仓库团队负责人,曾供职于京东.IBM.亚信等公司. 数据行业老兵一名,历经传统数据 ...

  9. 大数据演进简史:从数仓到数据中台,谈技术选型最优解

    大家好,今天分享的议题主要包括几大内容: 带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程: 我个人认为数据中台的核心组成,以及一些技术选型参考: 数据研发是数据中台很重要的一环, ...

最新文章

  1. 陌陌安全开源了 Java 静态代码安全审计插件
  2. UNITY C#内存泄漏
  3. 神奇的事情--长见识了
  4. mysql数据库char类型长度_mysql数据库设计字符类型及长度
  5. [libGDX游戏开发教程]使用libGDX进行游戏开发(12)-Action动画
  6. c语言gets和getchar区别,c语言中关于getchar()、getchar()和gets().......
  7. SpringCloud工作笔记032---SpringCloud异常(Euruka):Application run failed java.lang.NoSuchMethodError: org.
  8. C语言计算最大公约数和最小公倍数,C语言计算最大公约数和最小公倍数
  9. RHEL4下刻录机使用--终端图形化方式
  10. modbus学习笔记——帧
  11. 策略模式【设计模式学习-02】
  12. Android电话拦截研究
  13. 判断一个数字是否为素数 C++实现
  14. 【转】数据库一对一、一对多、多对多关系
  15. 总结《Video rate spectral imaging using a coded aperture snapshot spectral imager》
  16. Java中枚举类的ordinal()方法
  17. UG二次开发GRIP成品工具
  18. 消除WordPress上的渲染阻止JavaScript和CSS
  19. Spline导数及曲率计算
  20. [GYCTF2020]Ez_Express

热门文章

  1. SpringMVC REST ful API
  2. 岭南师范学院计算机考试考场,广东专插本考场安排在哪?附:2018年考场详细安排表~...
  3. C++ 实现太阳系行星系统(OpenGL)
  4. 利用matlab快速实现连续系统转变为离散系统(z变换)
  5. Android学习网站资源
  6. X站全称是什么_工作中学习-没有校惯导之前为什么PFD不显示飞机姿态,而IFSD却能显示...
  7. java架构师主要负责什么_Java架构师主要学什么 Java架构师工资多少
  8. DLL 注入的三种方法详解
  9. Docker(三)- 从镜像运行启动容器
  10. 2016 年最新苹果开发者账号注册流程详解(个人账号篇)