介绍

我是NDPmedia公司的大数据OLAP的资深高级工程师，专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io

NDPmedia在2014年3月就开始使用, 见链接: http://blog.csdn.net/chenyi8888/article/details/37594771

druid是个很新的平台， 2013年底才开源出来，虽然出现的比较晚，但druid发展很快, 中国有几个公司开始使用， 2015年druid将会是爆发的一年

最近druid 的华人作者Fangjin从Metamarkets离职，专门从事druid研发和推广.

以下翻译自http://druid.io/docs/0.7.1.1/, 并添加了自己的注解

什么是Druid

Druid 是一个开源的，能在海量时序数据上 (万亿级别数据量, 1000 TB级别数据)上面提供实时分析查询的OLAP数据仓库，Druid提供了廉价的实时数据插入和任意数据探索的能力。
Druid的主要功能

为分析而生 - Druid是为了解决在OLAP工作流中进行探索分析而生的. 它提供了大量的filters, aggregators和 query 类型，并且提供了一个用户添加新功能的框架. 用户可以利用Druid的集群实现例如topN和直方图等功能。
      (注: 传统数据库，查询几千万的数据，就会出问题，查不出来)
      (注： druid就是一个能力超强的数据库，执行例如SQL: select aColumn, bColumn sum(cColumn) from tableName where aColumn like 'xxx' and bColumn = 5 group by aColumn, bColumn having sum(cColumn) > 5 order by aColumn.)
      (注： druid对SQL支持有限，现在是实验版本。YeahMobi 重新开发适配了SQL, 屏蔽了下层平台, SQL 语句可以路由到这三个平台 druid, impala, hive)
    高交互式 - Druid的低延时数据插入允许数据在生成之后的毫秒范围之内就可以被用户查询到。Druid通过读取和扫描需要的数据来优化查询的延时。
    高可用性 - Druid可以被用来实现需要持续提供服务的SaaS应用。即使是在系统升级的过程中，你的数据仍然可以被查询。而且Druid 集群的扩容或者缩减不会带来数据的丢失。

(注：已经在生产环境之中验证：添加字段，集群扩容，集群缩减）
可扩展性 - 现有的Druid系统可以很轻松的处理每天数十亿条记录和TB级别的数据。Druid本身是被设计来解决PB级别数据的。

为什么要用Druid?

Druid的初衷是为了解决在使用Hadoop进行查询时所遇见的高延时问题来提高交互性查询。尤其是当你对数据进行汇总之后并在你汇总之后的数据上面进行查询时效果更好。将你汇总之后的数据插入Druid，随着你的数据量在不断增长，你仍然可以对Druid的查询能力非常有信心。当前的Druid安装实例已经可以很好的处理以每小时数TB实时递增的数据量。
（注：在我们的实践中 druid 查询统计100亿数据，在5秒内响应。查询1个月的数据，基本可以在毫秒内完成。比hadoop的常用的T+1 Map Reduce 高效多了.

你可以在拥有Hadoop的同时创建一个Druid系统。Druid提供了以一种互动式切片、切块方式来访问数据的能力，它在查询的灵活性和存储格式直接寻找平衡从而来提供更好的查询速度。
如果想了解更多细节，请参考 White Paper 和Design 文档.

什么情况下需要Druid?

当你需要在大数据集上面进行快速的，交互式的查询时
    当你需要进行特殊的数据分析，而不只是简单的键值对存储时
    当你拥有大量的数据时 (每天新增数百亿的记录、每天新增数十TB的数据)
    当你想要分析实时产生的数据时
    当你需要一个24x7x365无时无刻不可用的数据存储时

架构概述

druid在一定程度上是受搜索框架的启发，通过建立不变数据视图和使用便于filter和aggregation的高度优化的格式来提高性能. Druid 集群有一系列不同类型的节点组成，每种节点将一小部分事情做到极致。

Druid vs…

Druid-vs-Impala-or-Shark
    Druid-vs-Redshift
    Druid-vs-Vertica
    Druid-vs-Cassandra
    Druid-vs-Hadoop
    Druid-vs-Spark
    Druid-vs-Elasticsearch

   数据框架世界一直在巨大的混乱的变化之中，这个网页希望帮助潜在的用户评估和确定druid适合用户解决遇到的问题。如果有错误请通过邮件列表或者其他渠道反馈.

转载于:https://www.cnblogs.com/lpthread/p/4519687.html

druid.io 海量实时OLAP数据仓库 (翻译+总结) (1)相关推荐

druid.io 海量实时OLAP数据仓库 (翻译+总结) (1)——分析框架如hive或者redshift（MPPDB）、ES等...
介绍我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io NDPmedia在2014年 ...
hive olap 数据仓库_druid.io 海量实时OLAP数据仓库 (翻译+总结) (1)——分析框架如hive或者redshift（MPPDB）、ES等...
介绍我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io druid是个很新的平台, ...
唯品会海量实时OLAP分析技术升级之路
讲师介绍谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分 ...
Druid.io index_realtime实时任务源码分析
目录前言以[消防]工作来形象类比实时任务大体流程介绍 Ingest 阶段 Persist 阶段 Merge 阶段 Hand off 阶段任务的提交到启动任务的提交相关源码分析任务队列和o ...
Apache Doris在京东搜索实时OLAP中的应用实践
1.前言本文讨论了京东搜索在实时流量数据分析方面,利用Apache Flink和Apache Doris进行的探索和实践.流式计算在近些年的热度与日俱增,从Google Dataflow论文的发表, ...
京东搜索实时 OLAP 探索与实践
1.前言本文讨论了京东搜索在实时流量数据分析方面,利用Apache Flink和Apache Doris进行的探索和实践.流式计算在近些年的热度与日俱增,从Google Dataflow论文的发表, ...
druid.io集群与tranquility对zookeeper的使用（2）
目录前言 middleManager启动 : znode创建,workers维护 overlord接收任务并分配一个worker middleManager监听新增任务去启动peon进程 peon进 ...
druid.io index_realtime任务的hand off：仍然是源码+log说清楚
目录前言源码 + log 说明流程总结前言之前的博文:Druid.io index_realtime实时任务源码分析介绍了整个index_realtime任务运行的流程,但是对于某些细节还 ...
实时OLAP分析利器Druid介绍
文章目录前言 Druid介绍主要特性基础概念数据格式数据摄入数据存储数据查询查询类型架构运维 OLAP方案对比使用场景使用建议参考近期主题前言项目早期.数据(报表分析) ...

druid.io 海量实时OLAP数据仓库 (翻译+总结) (1)

介绍