Greenplum简介
Greenplum: http://greenplum.org/
原来是个商业产品,后来开源。
从Slogan看:
- 是个数据库
- 着眼于数据仓库
- 主要在于大规模并行
基于强大的PostgreSQL,PostgeSQL提供了诸如表空间、外部表等功能,支持丰富的数据类型(包含key-value,JSON,XML,GIS,甚至支持各种集合图形的表示)。其中的FDW外部表是一个非常强大的功能,可以直接将外部文件、HBase或者其他PostgreSQL实例的数据当做一张表。另外对函数的支持也很强大,除了PL/SQL外,还支持JS、Python等语言编写的函数。在SQL语法上也提供了诸多令人欣喜的小特性,比如插入、删除、或者更新操作的时候都可以使用returning直接返回相应的记录。
在PostgreSQL基础上,Greenplum增加了许多面向数据仓库的特性:
- 大规模并行处理架构(Massively Parallel Processing Architecure,MPP)
- PB级别的数据导入(基于MPP技术)
- 创新性的查询优化(业界第一个cost-based的查询优化器)
- 多泛型的存储和计算
- 机器学习支持(基于Apache MADLIB,用户自定义函数)
Greenplum架构:
Greenplum Master:
数据库入口,接受客户端连接和SQL查询,分发任务给Segment实例。用户与Greenplum(通过Master Host),就像与PostgreSQL交互一样,通过psql之类的工具或者JDBC或者ODBC等API。global system catelog位于Master上,它包含存放系统元数据的一系列表。Master不存放任何数据,数据只存在于Segment Host中,Master授权客户端连接,处理查询SQL,分发任务给Segment,组合结果并返回给客户端。Greenplum Segment:
Segment实例是独立的PostgreSQL实例,存放数据并执行主要的查询处理。数据分布在各个Segment中,每个实例包含一部分数据(portion)。一个Segment Host可以运行多个Segment实例,取决于内核数量以及RAM等。Greenplum Interconnect:
Interconnecte是Greenplum架构中的网络层,一般指各Segment之间的进程间通信(IPC)和物理网络设施,即标准的10G以太网交换机,即万兆以太网交换机。interconnect使用UDP协议进行通信,但是Greenplum会对数据包进行校验,因此可靠性等同于TCP,但是性能上会更好。如果使用TCP,那么Segment的实例不能超过1000,使用UDP则没有这个限制。Pivotal Query Optimizer:
Greenplum提供的查询优化器跟一般优化器在以下三方面存在区别:- 模块化:不是内置于RDBMS.
- 可扩展:优化器由独立组件组合,容易被替换。
- 性能: 基于multi-core scheduler,能够对所有可能性进行优化。
一个很好的tutorial
http://greenplum.org/gpdb-sandbox-tutorials/
基于Greenplum提供的虚拟机(sandbox),涵盖用户、建表、导数据、查询、数据分析等内容。
Greenplum简介相关推荐
- Greenplum数据库(一)Greenplum简介及安装
1. Greenplum数据库简介 Greenplum是基于开源PostgreSQL的分布式数据库,采用shared-nothing架构,即主机.操作系统.内存.存储都是每台服务器独立自我控制,不存在 ...
- 《Greenplum企业应用实战》一导读
前 言 为什么写作本书 阿里巴巴是国内最早使用Greenplum作为数据仓库计算中心的公司.从2009年到2012年Greenplum都是阿里巴巴B2B最重要的数据计算中心,它替换掉了之前的Oracl ...
- 31号2场直播预告丨下一代分布式数据库设计思考、Greenplum 7新特性和进展
1.下一代分布式数据库设计思考-03.31 自从 E.F.Codd 于 1970 年提出关系模型,到今天为止,关系数据库已经有 50 多年的发展历史.通过抽象出关系模型和事务模型,以及 SQL 语言, ...
- 【GP】Greenplum入门解析(一)
(图片来源于网络,侵删) 注:本章内容主要来源于网络各种渠道,侵删 一.Greenplum概述 [1]Greenplum简介 Greenplum(以下简称GP)是一款开源数据仓库.基于开源的Postg ...
- greenplum架构介绍
1 Greenplum 简介 GreenPlum是一款基于分布式架构的开源数据库:采用无共享(no shareing)的MPP架构(每个数据节点拥有独立的CPU.IO和内存等资源):其具有良好的线 ...
- Greenplum 6.0安装教程
一.Greenplum简介 Greenplum数据库系统体系结构的高级概述. Greenplum数据库通过在多个服务器或主机之间分配负载来存储和处理大量数据. Greenplum中的逻辑数据库是一组单 ...
- Greenplum分布式安装及增加节点
1. Greenplum简介 Greenplum是Pivotal公司基于PostgreSQL开发的一个面向数据仓库的关系型数据库,是开源的.有三个关键词可以描述: 1. Shared Nothing ...
- Vertica的那些事
近期数字化转型在业界提的很火热,数字经济规划作为单独篇章出现在了最新的十四五规划中,足以说明国家对数字经济的重视.那么对于我们数据人来说,这无疑是一个非常好的"风口",可以让我们大 ...
- 寒冬之下持续吸金,蛰伏30年的国产数据库终迎黄金时代?
作者|真梓(微信ID:315159284) Ray(微信ID:raylazy) 编辑|石亚琼 把冷板凳坐热的不仅有国内的半导体企业,还有一众国产数据库厂商.36氪不久前统计,在2020-2021年获得 ...
最新文章
- php微信菜单40017错误,微信公众号接口添加菜单时错误(errcodequot;:40017 invalid button type) - 好库文摘...
- 不到400元,将你的手机变成可编程AI机器人丨英特尔出品
- asp.net调用百度地图API,实现电子地图
- Java NIO(一) Java NIO 概述
- 爬虫之proxy(代理)
- Android开发之git命令创建tag提交远程仓库的方法(图文教程)
- div中嵌套div水平垂直居中
- 以太网共同发明者去世,享年71岁
- 微服务:更愉快还是更嘈杂?
- npm依赖管理:冗余,依赖树
- linux 系统语言设置字体,Linux语言和字体的自定义设置
- 大学生简单静态HTML网页模板源码——家乡介绍美丽乡村11页
- Android DevicePolicyManager 设备管理
- 【HTML】极简个人主页设计
- SLAM--LSD_SLAM在高版本系统中运行(ubuntu20.04 ROS-noetic)
- 自然语言处理工具之 HanLP 鸟瞰
- LeetCode(力扣) 刷题注意事项 持续更新 ~ ~
- vue-router 快速返回上一页
- 解读 ESP32 API参考-system-App Image Format
- weui.js中的picker自定义实现移动端联动
热门文章
- 智能边缘计算设备介绍
- 《西游》被测破15亿 笑点超泰囧
- linux关机命令60秒,Linux关机重启命令有哪些用法
- 微软面试题4-6 (偏向经典面试题)
- C# 将应用程序通过注册表设置开机启动项
- 迎新年html,迎新年的广告词大全
- 面试过了,说要发offer,结果又增加一轮面试,是什么意思?
- java基础—java.io.FileNotFoundException: D:\\AAA(拒绝访问。)
- 楚汉之刘邦灭秦java下载_刘邦灭秦之战
- 西邮计算机网络实验报告,西邮计算机网络实验报告内容模板-实验二-交换机基本配置...