https://www.cnblogs.com/skyme/p/5779885.html

简介及适用场景

如果想在数据仓库中快速查询结果,可以使用greenplum。

Greenplum数据库也简称GPDB。它拥有丰富的特性:

第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。

第二,支持分布式事务,支持ACID。保证数据的强一致性。

第三,做为分布式数据库,拥有良好的线性扩展能力。在国内外用户生产环境中,具有上百个物理节点的GPDB集群都有很多案例。

第四,GPDB是企业级数据库产品,全球有上千个集群在不同客户的生产环境运行。这些集群为全球很多大的金融、政府、物流、零售等公司的关键业务提供服务。

第五,GPDB是Greenplum(现在的Pivotal)公司十多年研发投入的结果。GPDB基于PostgreSQL 8.2,PostgreSQL 8.2有大约80万行源代码,而GPDB现在有130万行源码。相比PostgreSQL 8.2,增加了约50万行的源代码。

第六,Greenplum有很多合作伙伴,GPDB有完善的生态系统,可以与很多企业级产品集成,譬如SAS,Cognos,Informatic,Tableau等;也可以很多种开源软件集成,譬如Pentaho,Talend 等。

greenplum起源

Greenplum最早是在10多年前(大约在2002年)出现的,基本上和Hadoop是同一时期(Hadoop 约是2004年前后,早期的Nutch可追溯到2002年)。当时的背景是:

  • 互联网行业经过之前近10年的由慢到快的发展,累积了大量信息和数据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场计算方式的革命;
  • 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也难于满足数据计算性能指标,传统主机的Scale-up模式遇到了瓶颈,SMP(对称多处理)架构难于扩展,并且在CPU计算和IO吞吐上不能满足海量数据的计算需求;
  • 分布式存储和分布式计算理论刚刚被提出来,Google的两篇著名论文发表后引起业界的关注,一篇是关于GFS分布式文件系统,另外一篇是关于MapReduce 并行计算框架的理论,分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。

下图就是GFS的架构

总体架构

greenplum的总体架构如下:

数据库由Master Severs和Segment Severs通过Interconnect互联组成。

Master主机负责:建立与客户端的连接和管理;SQL的解析并形成执行计划;执行计划向Segment的分发收集Segment的执行结果;Master不存储业务数据,只存储数据字典。

Segment主机负责:业务数据的存储和存取;用户查询SQL的执行。

greenplum使用mpp架构。

基本体系架构

master节点,可以做成高可用的架构

master node高可用,类似于hadoop的namenode和second namenode,实现主备的高可用。

segments节点

并行管理

对于数据的装载和性能监控。

并行备份和恢复。

数据访问流程,数据分布到不同颜色的节点上

查询流程分为查询创建和查询分发,计算后将结果返回。

对于存储,将存储的内容分布到各个结点上。

对于数据的分布,分为hash分布和随机分布两种。

均匀分布的情况:

总结

GPDB从开始设计的时候就被定义成数据仓库,如果是olap的应用,可以尝试使用GPDB。

转载于:https://www.cnblogs.com/davidwang456/articles/10220244.html

海量数据处理利器greenplum——初识相关推荐

  1. 数据运营者的福音:海量数据处理利器Greenplum

    2019独角兽企业重金招聘Python工程师标准>>> 前言:近年来,互联网的快速发展积累了海量大数据,而在这些大数据的处理上,不同技术栈所具备的性能也有所不同,如何快速有效地处理这 ...

  2. 海量数据处理分析_BI

    笔者在实际工作中,有幸接触到海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务.原因有以下几个方面: 一.数据量过大,数据中什么情况都可能存在.如果说有10条数据,那么大不了每条去逐一检查,人为处 ...

  3. 海量数据处理分析(部分)

    2019独角兽企业重金招聘Python工程师标准>>> 1. 海量数据处理分析    原文地址: http://blog.csdn.net/DaiZiLiang/archive/20 ...

  4. 过亿海量数据处理分析

    2019独角兽企业重金招聘Python工程师标准>>> 笔者在实际工作中,有幸接触到海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务.原因有以下几个方面: 一.数据量过大,数据 ...

  5. 海量数据处理相关面试问题

    常见的海量数据处理.操作的题目: 1.给定a.b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a.b文件共同的url? 2.有10个文件,每个文件1G,每个文件的每一 ...

  6. 10道海量数据处理的面试题

    说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量数据处理的方法总结. 出处:http://blog.csdn.net/v_JULY_v. 第一部分.十道海量数据处理面试 ...

  7. 海量数据处理——位图法bitmap

    海量数据处理--位图法bitmap 一.定义        位图法就是bitmap的缩写.所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,但数据状态又不是很多的情况.通常是用来判断某个 ...

  8. 海量数据处理_国家重点研发计划“面向异构体系结构的高性能分布式数据处理技术与系统”简介...

    技术发展现状 近年来,数据规模快速增长,使得Hadoop.Spark等大数据批处理系统在现实中得到了广泛应用.同时,应用对数据处理时效性需求不断加强,促使诸如Flink的大数据流式处理系统应运而生.现 ...

  9. 从hadoop框架与MapReduce模式中谈海量数据处理

    前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是 ...

最新文章

  1. ATL::CStringA和std::string之间转换的一些误区
  2. 在AI领域每月投资一次,全面解析腾讯的人工智能奇招
  3. CSS3秘笈第三版涵盖HTML5学习笔记6~8章
  4. C# 系统应用之通过注册表获取USB使用记录(一)
  5. centos redis验证_centos7中安装、配置、验证、卸载redis
  6. android qq robot,安卓qq授权登陆源代码
  7. IDG研究显示,混合云是数字化转型的“强大助推器”
  8. K8s 使用helm 安装 EFK和ELK分布式日志分析系统系列(es版本:6.7.0;)
  9. Java变量的默认值和初始化
  10. vmp给驱动加壳的注意事项
  11. EasyCamera摄像机配置
  12. 使用阿里云接口进行银行卡三四要素实名认证(阿里云api接口java)
  13. 机器学习实例-决策树和随机森林预测员工离职率
  14. 面向对象的三大特征:封装、继承和多态的简单概述
  15. html语言多行注释,html多行注释方法
  16. 荣耀笔试(8.16)
  17. c语言泰勒公式求ln,ln(1-x)的泰勒级数展开是什么?
  18. 手机查看html代码工具栏,【Meta标签】实现wap网页去掉手机浏览器默认工具栏
  19. 转:只要心底热爱,人生就会朝着光明的方向转变
  20. snprintf的使用

热门文章

  1. 开服侠显示服务器已停止,蜘蛛侠:极限(已关服)无法连接服务器是什么原因...
  2. r语言导出html改不了名,请问如何进行数据框列的重命名?
  3. python读取nc文件并转换成csv_python3使用类型转换读取csv文件
  4. jq 点击按钮跳转到微信_【看这里】教你用微信小程序登陆全国青少年普法网,方便快捷!...
  5. java 查询表 并返回数据_ajax与java前后台传值及数据表查询解决一个bug的问题
  6. android 之 使用显示意图和隐式意图完成Activity的跳转
  7. android gridview 间隔线,Android开发之RecyclerView的间隔线处理
  8. 详细分解Transformer各部件总结
  9. tf.reduce_max用法
  10. 156. Leetcode 53. 最大子数组和 (贪心算法-进阶题目)