前言

本文根据 Apache Flink 系列直播整理而成,由美团点评数据系统研发工程师黄伟伦老师分享。主要内容如下:

  • 实时数仓建设目的

  • 如何建立实时数仓

  • 仓库质量保证

实时数仓建设目的

实时数仓是一个很容易让人产生混淆的概念。实时数仓本身似乎和把 PPT 黑色的背景变得更白一样,从传统的经验来讲,我们认为数仓有一个很重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。

但实时处理技术,又是强调当前处理状态的一门技术,所以我们认为这两个相对对立的方案重叠在一起的时候,它注定不是用来解决一个比较广泛问题的一种方案。于是,我们把实时数仓建设的目的定位为解决由于传统数据仓库数据时效性低解决不了的问题。

由于这个特点,我们给定了两个原则:

  • 传统数仓能解决的问题,实时数仓就不解决了。比如上个月的一些历史的统计,这些数据是不会用实时数仓来建设的。

  • 问题本身就不太适合用数仓来解决,也不用实时数仓解决。比如业务性很强的需求,或者是对时效性要求特别高的需求。这些需求我们也不建议通过实时数仓这种方式来进行解决。

当然为了让我们整个系统看起来像是一个数仓,我们还是给自己提了一些要求的。这个要求其实跟我们建立离线数仓的要求是一样的,首先实时的数仓是需要面向主题的,然后具有集成性,并且保证相对稳定。

离线数仓和实

Flink从入门到精通100篇(八)-美团点评是如何在 Flink平台建立 实时数仓的?相关推荐

  1. Flink从入门到精通100篇(二十四)-对Flink SQL Client 源码做深度解析

    前言 本文基于 Flink 1.12-SNAPSHOT,使用sql client命令行提交insert语句进行整个流程的分析. sql-client.sh embedded --update &quo ...

  2. Flink从入门到精通100篇(二十二)-Apache Flink OLAP引擎性能优化及应用

    前言 本次分享的主题为Apache Flink新场景--OLAP引擎,主要内容包括: 背景介绍 Apache Flink OLAP引擎 案例介绍 未来计划 1. OLAP及其分类 OLAP是一种让用户 ...

  3. Flink从入门到精通100篇(二十三)-基于Apache Flink的爱奇艺实时计算平台建设实践

    前言 随着大数据的快速发展,行业大数据服务越来越重要.同时,对大数据实时计算的要求也越来越高.今天会和大家分享下爱奇艺基于Apache Flink的实时计算平台建设实践. 今天的介绍会围绕下面三点展开 ...

  4. Flink从入门到精通100篇(二十一)-Flink 状态(State)管理在推荐场景中的应用

    前言 Flink作为纯流式大数据实时计算引擎,较于Spark Streaming的微批处理引擎,不管是内存管理,多流合并,还是时间窗口,迭代处理上,Flink在实时计算场景更较适合.而Flink的St ...

  5. Flink从入门到精通100篇(二十)-跨境电商 Shopee 的实时数仓之路

    前言 本文讲述 Flink 在 Shopee 新加坡数据组 ( Shopee Singapore Data Team ) 的应用实践,主要内容包括: 实时数仓建设背景 Flink 在实时数据数仓建设中 ...

  6. Flink从入门到精通100篇(二十一)-万字长文详解 Flink 中的 CopyOnWriteStateTable

    前言 现如今想阅读 HashMap 源码实际上比较简单,因为网上一大堆博客去分析 HashMap 和 ConcurrentHashMap.本文详细分析 CopyOnWriteStateTable 源码 ...

  7. Flink从入门到精通100篇(十三)-Flink的入门教学

    前言 Flink 是一种流式计算框架,为什么我会接触到 Flink 呢?因为我目前在负责的是监控平台的告警部分,负责采集到的监控数据会直接往 kafka 里塞,然后告警这边需要从 kafka topi ...

  8. Flink从入门到精通100篇(十八)-CentOS环境中搭建Flink分布式集群

    一. Flink的下载 安装包下载地址:http://flink.apache.org/downloads.html  ,选择对应Hadoop的Flink版本下载 [admin@node21 soft ...

  9. Flink从入门到精通100篇(二十三)-Flink实战应用案例:如何清理过期的 Checkpoint 目录?

    目录 Flink Checkpoint 目录的清除策略 生产环境应该选择哪种清除策略 生产环境必须定期脚本清理 Checkpoint 和 Savepoint 目录 RocksDB 增量 Checkpo ...

最新文章

  1. [异常解决] How make ubuntu use Google Search
  2. Mac 下通过Keytool生成签名证书
  3. xss Payload
  4. 【XAudio2】3.关键概念
  5. 帕金森定律(Parkinson's Law)
  6. python Tags 母板 组件 静态文件相关 自定义simpletag inclusion_tag
  7. Java6 WebService学习
  8. MFC COMBO-BOX最详细教程
  9. python selenium span内容读取_【程仁智推荐】Selenium自动化测试入门
  10. python 数据类_python数据类
  11. 2012-01-17-04
  12. DVM的进程和Linux的进,下面关于Android dvm的进程和Linux的进程,应用程序的进程说法正确的是()...
  13. “OpAfrica”行动:匿名者攻击南非武器采购机构
  14. NRF24L01 2.4G无线模块浅析(学习笔记)
  15. python语言的运行效率高吗_为什么python运行效率低?原来因为它!
  16. 氨基酸英文表示及缩写
  17. JavaScript基础系列之一 快速入门
  18. Elasticsearch1.x 拼音分词实现全拼首字母中文混合搜索
  19. python mac可以运行win不能运行_Pymssql程序可以在mac上运行,但不能在windows上运行...
  20. qpython3l最新版下载_qpython3l

热门文章

  1. SpringQuartz定时任务调度器
  2. Reactive Extensions入门(5):ReactiveUI MVVM框架
  3. 过滤“清扬男士”Flash广告
  4. Charpter 8:Declarative Middleware Using AOP:expert one-on-one J2EE Development without EJB.(读后感)...
  5. wifi四次握手过程
  6. 逻辑分析仪上位机DSview的简单触发设置
  7. 中国人民大学_《组织行为学》_17.节点人物
  8. 华为浏览器推荐关闭_华为手机的不明照片是哪来的?这3个设置得关闭,否则128G也不够...
  9. c语言adc采集取平均值,读取ADC值的浮动平均值
  10. linux内核md5,浅谈MD5及简单使用