前言

本文讲述 Flink 在 Shopee 新加坡数据组 ( Shopee Singapore Data Team ) 的应用实践,主要内容包括:

  • 实时数仓建设背景

  • Flink 在实时数据数仓建设中结合 Druid、Hive 的应用场景

  • 实时任务监控

  • Streaming SQL 平台化

  • Streaming Job 管理

建设背景

Shopee 是东南亚与台湾领航电商平台,覆盖新加坡、马来西亚、菲律宾、台湾、印度尼西亚、泰国及越南七大市场,同时在中国深圳、上海和香港设立跨境业务办公室。

  • Shopee 在2020年第一季的总订单量高达4.298亿,同比增长111.2%。

  • 根据 App Annie, Shopee 在2020年第一季强势跻身全球购物类 App 下载量前三名。

  • 同时斩获东南亚及台湾市场购物类 App 年度总下载量、平均月活数、安卓使用总时长三项冠军,并领跑东南亚两大头部市场,拿下印尼及越南年度购物类 App 下月活量双冠王。

其中包括订单商品、物流,支付,数字产品等各方面的业务。为了支持这些互联网化产品,应对越来的越多的业务挑战,于是我们进行了数据仓库的设计和架构建设。

数据仓库挑战

当前随着业务发展,数据规模的膨胀和商务智能团队对实时需求的不断增长,业务挑战越来越大:

</

Flink从入门到精通100篇(二十)-跨境电商 Shopee 的实时数仓之路相关推荐

  1. Flink实践:跨境电商 Shopee 的实时数仓之路

    问题导读: 1.为什么要建立实时数仓? 2.Flink 在实时数据数仓建设中结合 Druid.Hive 有哪些应用场景? 3.实时任务监控如何实现? 4.Streaming SQL 如何平台化? 导读 ...

  2. Flink从入门到精通100篇(十二)-如何分析和定位 Flink 作业 OOM 问题?

    前言 生产环境,我们的 Flink 作业偶尔会出现 heap OOM,那么当出现这种情况我们会怎么办?通常来说会通过 jmap 命令去将作业的 heap dump 一份文件出来,可是 jmap 导出的 ...

  3. Flink从入门到精通100篇(十八)-CentOS环境中搭建Flink分布式集群

    一. Flink的下载 安装包下载地址:http://flink.apache.org/downloads.html  ,选择对应Hadoop的Flink版本下载 [admin@node21 soft ...

  4. Flink从入门到精通100篇(十五)-Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略 ​

    前言 本文先通过源码简单过一下分区提交机制的两个要素--即触发(trigger)和策略(policy)的实现,然后用合并小文件的实例说一下自定义分区提交策略的方法. PartitionCommitTr ...

  5. Flink从入门到精通100篇(十)-双亲委派模型与 Flink 的类加载策略

    前言 我们知道,在 JVM 中,一个类加载的过程大致分为加载.链接(验证.准备.解析).初始化5个阶段.而我们通常提到类的加载,就是指利用类加载器(ClassLoader)通过类的全限定名来获取定义此 ...

  6. Flink从入门到精通100篇(十九)-基于 Flink 的大规模准实时数据分析平台的建设实践

    前言 如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基 ...

  7. Flink从入门到精通100篇(十四)-Flink开发IDEA环境搭建与测试

    一.IDEA开发环境 1.pom文件设置 <properties><maven.compiler.source>1.8</maven.compiler.source> ...

  8. Flink从入门到精通100篇(二十一)-Flink 状态(State)管理在推荐场景中的应用

    前言 Flink作为纯流式大数据实时计算引擎,较于Spark Streaming的微批处理引擎,不管是内存管理,多流合并,还是时间窗口,迭代处理上,Flink在实时计算场景更较适合.而Flink的St ...

  9. Flink从入门到精通100篇(八)-美团点评是如何在 Flink平台建立 实时数仓的?

    前言 本文根据 Apache Flink 系列直播整理而成,由美团点评数据系统研发工程师黄伟伦老师分享.主要内容如下: 实时数仓建设目的 如何建立实时数仓 仓库质量保证 实时数仓建设目的 实时数仓是一 ...

最新文章

  1. A*寻路算法的探寻与改良(三)
  2. Docker查看远端仓库的标签工具
  3. 13.jQuery选择器
  4. 去除桌面图标的小箭头
  5. 常染色体的隐性疾病数学建模(代数模型)
  6. MYSQL的集群的安装与配置(mysql-5.1.21)
  7. Java高质量代码之 — 泛型与反射
  8. Nginx 状态监控、缓存的两种机制(学习笔记十四)
  9. 关于hibernate的一些小记
  10. IntelliJ IDEA 12 与 Tomcat7 配置
  11. 特征向量、标签、模型、算法
  12. Win 10间歇性卡顿问题
  13. 统计学 常用的数据分析方法大总结,推荐收藏
  14. WIFI sniffer log抓包教程
  15. matlab指派问题求法,matlab指派问题
  16. 运算放大器 之 概述
  17. 使用Bandwagon服务器ftp解决git clone速度慢的问题
  18. 程序员读《三体》后看到了什么?
  19. USGS官方的各种卫星数据产品的详细说明(很多英文缩写都可在这里找到详细信息,如ETM+和TM的意思,也可以下载)
  20. python提取excel-Python操作Excel之数据提取

热门文章

  1. keynotes egestas,PPT 渐变背景下载-imsoft.cnblogs
  2. OpenStack监控测量服务Ceilometer安装及 API说明
  3. 如何将文件复制到虚拟机中
  4. 李雷和韩梅梅的一次转账事务–事务系统概述
  5. 开始——“运行”命令集
  6. linux运行cmd文件sh文件目录,在Windows上,如何执行.sh文件?
  7. 一颗椰子糖机器人_孩子编程启蒙机器人玩了不下10个,最推荐哪个呢?
  8. Java的call by value_call by value or reference ?
  9. qt布局嵌套_PyQt5 笔记(01):嵌套布局
  10. Java中对象的实例化顺序