Flink从入门到精通100篇(二十)-跨境电商 Shopee 的实时数仓之路
前言
本文讲述 Flink 在 Shopee 新加坡数据组 ( Shopee Singapore Data Team ) 的应用实践,主要内容包括:
实时数仓建设背景
Flink 在实时数据数仓建设中结合 Druid、Hive 的应用场景
实时任务监控
Streaming SQL 平台化
Streaming Job 管理
建设背景
Shopee 是东南亚与台湾领航电商平台,覆盖新加坡、马来西亚、菲律宾、台湾、印度尼西亚、泰国及越南七大市场,同时在中国深圳、上海和香港设立跨境业务办公室。
Shopee 在2020年第一季的总订单量高达4.298亿,同比增长111.2%。
根据 App Annie, Shopee 在2020年第一季强势跻身全球购物类 App 下载量前三名。
同时斩获东南亚及台湾市场购物类 App 年度总下载量、平均月活数、安卓使用总时长三项冠军,并领跑东南亚两大头部市场,拿下印尼及越南年度购物类 App 下月活量双冠王。
其中包括订单商品、物流,支付,数字产品等各方面的业务。为了支持这些互联网化产品,应对越来的越多的业务挑战,于是我们进行了数据仓库的设计和架构建设。
数据仓库挑战
当前随着业务发展,数据规模的膨胀和商务智能团队对实时需求的不断增长,业务挑战越来越大:
</
Flink从入门到精通100篇(二十)-跨境电商 Shopee 的实时数仓之路相关推荐
- Flink实践:跨境电商 Shopee 的实时数仓之路
问题导读: 1.为什么要建立实时数仓? 2.Flink 在实时数据数仓建设中结合 Druid.Hive 有哪些应用场景? 3.实时任务监控如何实现? 4.Streaming SQL 如何平台化? 导读 ...
- Flink从入门到精通100篇(十二)-如何分析和定位 Flink 作业 OOM 问题?
前言 生产环境,我们的 Flink 作业偶尔会出现 heap OOM,那么当出现这种情况我们会怎么办?通常来说会通过 jmap 命令去将作业的 heap dump 一份文件出来,可是 jmap 导出的 ...
- Flink从入门到精通100篇(十八)-CentOS环境中搭建Flink分布式集群
一. Flink的下载 安装包下载地址:http://flink.apache.org/downloads.html ,选择对应Hadoop的Flink版本下载 [admin@node21 soft ...
- Flink从入门到精通100篇(十五)-Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
前言 本文先通过源码简单过一下分区提交机制的两个要素--即触发(trigger)和策略(policy)的实现,然后用合并小文件的实例说一下自定义分区提交策略的方法. PartitionCommitTr ...
- Flink从入门到精通100篇(十)-双亲委派模型与 Flink 的类加载策略
前言 我们知道,在 JVM 中,一个类加载的过程大致分为加载.链接(验证.准备.解析).初始化5个阶段.而我们通常提到类的加载,就是指利用类加载器(ClassLoader)通过类的全限定名来获取定义此 ...
- Flink从入门到精通100篇(十九)-基于 Flink 的大规模准实时数据分析平台的建设实践
前言 如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基 ...
- Flink从入门到精通100篇(十四)-Flink开发IDEA环境搭建与测试
一.IDEA开发环境 1.pom文件设置 <properties><maven.compiler.source>1.8</maven.compiler.source> ...
- Flink从入门到精通100篇(二十一)-Flink 状态(State)管理在推荐场景中的应用
前言 Flink作为纯流式大数据实时计算引擎,较于Spark Streaming的微批处理引擎,不管是内存管理,多流合并,还是时间窗口,迭代处理上,Flink在实时计算场景更较适合.而Flink的St ...
- Flink从入门到精通100篇(八)-美团点评是如何在 Flink平台建立 实时数仓的?
前言 本文根据 Apache Flink 系列直播整理而成,由美团点评数据系统研发工程师黄伟伦老师分享.主要内容如下: 实时数仓建设目的 如何建立实时数仓 仓库质量保证 实时数仓建设目的 实时数仓是一 ...
最新文章
- A*寻路算法的探寻与改良(三)
- Docker查看远端仓库的标签工具
- 13.jQuery选择器
- 去除桌面图标的小箭头
- 常染色体的隐性疾病数学建模(代数模型)
- MYSQL的集群的安装与配置(mysql-5.1.21)
- Java高质量代码之 — 泛型与反射
- Nginx 状态监控、缓存的两种机制(学习笔记十四)
- 关于hibernate的一些小记
- IntelliJ IDEA 12 与 Tomcat7 配置
- 特征向量、标签、模型、算法
- Win 10间歇性卡顿问题
- 统计学 常用的数据分析方法大总结,推荐收藏
- WIFI sniffer log抓包教程
- matlab指派问题求法,matlab指派问题
- 运算放大器 之 概述
- 使用Bandwagon服务器ftp解决git clone速度慢的问题
- 程序员读《三体》后看到了什么?
- USGS官方的各种卫星数据产品的详细说明(很多英文缩写都可在这里找到详细信息,如ETM+和TM的意思,也可以下载)
- python提取excel-Python操作Excel之数据提取
热门文章
- keynotes egestas,PPT 渐变背景下载-imsoft.cnblogs
- OpenStack监控测量服务Ceilometer安装及 API说明
- 如何将文件复制到虚拟机中
- 李雷和韩梅梅的一次转账事务–事务系统概述
- 开始——“运行”命令集
- linux运行cmd文件sh文件目录,在Windows上,如何执行.sh文件?
- 一颗椰子糖机器人_孩子编程启蒙机器人玩了不下10个,最推荐哪个呢?
- Java的call by value_call by value or reference ?
- qt布局嵌套_PyQt5 笔记(01):嵌套布局
- Java中对象的实例化顺序