Vertica系列： Vertica 数仓简单介绍

从多个博主那里简单学习一下下，复制粘贴的文字，粗略了解
1、简介
Vertica是一款基于列存储的MPP（massively parallel processing）架构的数据库。它可以支持存放多至PB（Petabyte）级别的结构化数据。
是由关系数据库大师Michael Stonebraker(2014 年图灵奖获得者)所创建，于2011年被惠普收购并成为其核心大数据平台软件
Vertica 采用无共享的MPP 架构，基于工业标准的x86 服务器，拥有高可扩展性。
Vertica 集群中的所有节点100%对等，集群中没有主节点或其他共享资源。通过增加节点，就可以线性地扩展集群的计算能力和数据处理容量。

2、特性
1）列式存储

vertica以列格式存储数据，以便在查询时获得最佳性能。相比基于行的存储，列存储可减少磁盘I/O，非常适合读取密集型工作负载

SELECT avg（price）FROM tickstore WHERE symbol ='AAPL' and date ='5/31/13';

对于此示例查询，列存储只读取三列，而行存储读取所有列：

2）高级压缩

压缩会将数据转换为紧凑的格式。 Vertica 使用多种不同的压缩方法，并且可以根据要压缩的数据自动选择最佳方法

3）高可用

  Vertica 使用类似RAID 的功能为数据库 提供高可用性。

4）自动数据库设计

  Vertica数据库参数几乎无需二次配置

5）海量并行处理

   支持海量的事务并行分析处理

6）应用程序集成
集成了DBD分析引擎、Vertica MC控制管理平台、Vertica WLM资源控制、 scheduler任务计划对接kafka等

3、vertica组件介绍
wos:将未经压缩或建立索引的数据存储在内存中。

ros:将数据存储在磁盘上；这些数据会经过分段，排序，压缩，以便提高优化水平

tuple mover

moveout ‐ 将数据从WOS 复制到Tuple Mover，然后再复制到ROS；数据在列式文件中会经过排序、编码和压缩

mergeout ‐ 将若干较小的ROS 容器组合成一个较大的容器，以便减少碎片

4、Projection简介
Projection是Vertica 存储数据的方式 – 由一个或多个表中的列集组成

由Vertica 自动维护 – 不进行夜间Projection重建每个Projection存储单独的数据副本 – 编码和压缩最大程度地降低存储需求

5、vertica对象层次化：

1 、Projection类型

（1）超级Projection (Super projection) – 包含一个逻辑表的所有列的Projection
（2）特定于查询的Projection (Query-specific projection) – 针对特定查询或一类查询优化 – 可以包括列子集
（3）预联接Projection (Pre-Join projection) – 存储一个事实表与一个或多个维度表之间的联接结果
（4）分支Projection (Buddy projection) – 具有相同列和分段的Projection位于不同的节点上，可提供高可用性(HA)

2、如何创建projection
（1）首次将数据加载到表中时自动创建 – 未经优化的超级Projection (Super projection)
（2）使用Database Designer 自动创建 – 经优化的超级Projection (Super projection) – 可能是特定于查询的Projection (Query-specific projection)
（3）在vsql语句中使用CREATE PROJECTION 语法手动创建

3、编码/压缩与排序
（1）每个列始终经过编码、压缩，或者编码并压缩。
（2）Vertica 可以直接处理编码的数据；压缩的数据则必须首先解压缩。
（3）在ORDER BY 语句中，所有Projection至少包含一个列

4、对于小型Projection，会将完整Projection复制到每个节点 – 本质上提供了此Projection的高可用性

5、对于大型Projection，将Projection数据分布在多个节点上

Vertica系列： Vertica 数仓简单介绍相关推荐

阿里系云上离线数仓简单介绍
阿里系云上离线数仓简单介绍一.DataHub简介阿里云流数据处理平台DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布 (Publish),订阅 (Subsc ...
Vertica系列：数仓优化
最近才开始接触数仓性能优化,好像走进迷宫,头上永远顶着两句话: 这个是啥,那个是啥因为数仓好像没啥性能优化的,可能这是小白的一种自我良好认知根据我们的业务,优化工具经常用到的有以下两个 1.和my ...
系列 | 漫谈数仓第四篇NO.4 『数据应用』（BIOLAP）
点击上方蓝色字体,置顶/星标哦目前10000+人已关注加入我们本文目录CONTENTS ☞ 01.可视化BI工具 [ 开源BI,商业BI,传统BI ] ☞ 02.OLAP科普 [ ROLAP M ...
系列 | 漫谈数仓第二篇NO.2 『数据模型』（维度建模建模工具）
点击上方"数据仓库与Python大数据",选择"置顶/星标" 本文导航前言: model对于数仓是最核心的东西,数据模型是数据组织和存储方法,模型的好坏,决定 ...
数据治理系列：数仓建模之数仓主题与主题域
背景: 数据仓库之父 Bill Inmon 将数据仓库描述为一个面向主题的.集成的.稳定的.反应历史变化的数据集合,用于支持管理者的决策过程. 从上面的引言里面,我们其实可以知道主题在数仓建设里面绝对 ...
Kylin快速入门系列(1) | Kylin的简单介绍及安装部署
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
▼ 系列 | 漫谈数仓第四篇NO.4 『BI选型』
大数据时代商业智能(BI)和数据可视化诉求更为强烈,淘宝大屏更是风靡全球!数据可视化是大数据『最后一公里』,BI唤醒沉睡的数据. 传统型BI力求大而全的统一综合型报表和分析平台,侧重传统式报表开发,俨 ...
Vertica系列: Vertica DB连接负载均衡
背景谈到负载均衡, 对于数据库集群需要区分几个概念: 运算的负载均衡, Vertica 本身是 MPP 数据库, SQL 操作自动会利用多台机器来加快处理速度. 数据库连接的负载均衡, Vertic ...
elasticsearch从入门到入门系列（一）---简单介绍及安装
1.什么是搜索引擎全⽂文搜索引擎是⽬目前⼴广泛应⽤用的主流搜索引擎.它的⼯工作原理理是计算机索引程序通过扫描⽂文章中的每⼀一个词,对每⼀一个词建⽴立⼀一个索引,指明该词在⽂文章中出现的次数和位置,当 ...

Vertica系列： Vertica 数仓简单介绍

Vertica系列： Vertica 数仓简单介绍相关推荐

最新文章

热门文章