十一之前写了个实时的维表,flink-sql实现的,技术上并不难,之前没写过,还是踩了一些坑的,特此总结下

一、需求背景

1、离线有个用户的维度表,需要搬到流上面,大概是1000万的存量数据,上游来自8个mysql表

2、可用的组件有kafka,flink,hbase,redis

3、8个表每个变更都需要下发一条完整的记录到kafka

二、任务思路

1、首先要想好写几个Hbase维表,业务上主键要想清楚,这是每次关联都需要的,比如,这个用户维度表主键是用户id,但是可能还会有身份证id啥的做关联,这就还需要身份证id的hbase表,还需要用户id和身份证id的关联表

2、每次收到消息需要往hbase写一份,同时需要下发一条消息

3、对于聚合函数、row_number函数需要考虑是否需要像离线那样全局维护状态

三、个人感受

1、实时的维度表比离线复杂多了,每次变更下发就意味着要维护8段逻辑

2、要想保证严格准确,比如min这种处理,就需要历史所有的数据流上处理一遍

3、写下来感觉还不如直接用mysql来的实在,1000万的数据mysql也吃的消,逻辑上也简单很多

flink实时生产维度表相关推荐

  1. Flink 实时计算 - 维表 Join 解读

    Flink 实时计算 - 维表 Join 解读 前言 Flink 1.9 版本可以说是一个具有里程碑意义的版本,其内部合入了很多 Blink Table/SQL 方面的功能,同时也开始增强 Flink ...

  2. Flink实时销售宽表构建

    背景:目前在一家电商公司,对报表的实时性要求很高.实时性要求较高的场景,比如: 1.集团各个分公司对商品配送过程中生成的各个单据的对账实时性很高. 2.采购部依赖商品的平均进价对客户进行报价,所以对商 ...

  3. Flink入门(五) 实时流Join ElasticSearch6维度表

    需求 实时流需要和维护表Join做属性的扩展. Spark-Streaming可以 stream join hive表. flink没发现这个功能,所以将维度表放在ES上. maven依赖 <p ...

  4. Flink数据清洗(Kafka事实表+Redis维度表)

    调研 从网上的调研来看,其实整个百度有清洗流程的只有[1]其他都是抄的[1]中的内容. 实验流程 这个流程的话,不要去研究redis的Flink SQL Client的操作方法,因为在mvn repo ...

  5. SmartNews:基于 Flink 加速 Hive 日表生产的实践

    简介: 将 Flink 无缝地集成到以 Airflow 和 Hive 为主的批处理系统的技术挑战和应对方案. 本文介绍了 SmartNews 利用 Flink 加速 Hive 日表的生产,将 Flin ...

  6. Flink实时数据处理实践经验(Flink去重、维表关联、定时器、双流join)

    Flink实时数据处理实践经验 文章目录 Flink实时数据处理实践经验 1. 数据输入与预处理 2. 实时数据处理 3. 实时数仓架构 4. 优化方案 Java.大数据开发学习要点(持续更新中-) ...

  7. 9.Flink实时项目之订单宽表

    1.需求分析 订单是统计分析的重要的对象,围绕订单有很多的维度统计需求,比如用户.地区.商品.品类.品牌等等.为了之后统计计算更加方便,减少大表之间的关联,所以在实时计算过程中将围绕订单的相关数据整合 ...

  8. Flink SQL Client进行Kafka事实表与Hbase维度表Join(纯DDL/SQL方式)

    概述: 對參考鏈接[1]進行DDL上的復現. 一些基本的業務常识   來源載體 數據特點 維表 Mysql/Csv/Hbase 很少變化 事實表 Kafka 不停變化 开发环境与准备工作 组件 版本 ...

  9. Flink进行Kafka事实表与Mysql维度表Join(纯DDL/DML方式)

    概述: 對參考鏈接[1]進行DDL上的復現. 一些基本的業務常识   來源載體 數據特點 維表 Mysql/Csv/Hbase 很少變化 事實表 Kafka 不停變化 开发环境与准备工作 组件 版本 ...

最新文章

  1. 成本砍砍砍!不用数据也能用 BERT 做对比学习?
  2. 云盘存储 教学反思_对设计训练的设计:以建筑工房工作模型课题的教学实验为例对设计训练方法论的反思...
  3. Eclipse SVN插件检出Src下面的包变成了文件夹解决
  4. 图解Ubuntu中pidgin登陆IRC
  5. CDH集群安装配置(五)- Cloudera Manager Server
  6. oracle 存储过程循环打开游标数据处理
  7. Web Session和Cookie
  8. 【编译原理笔记01】什么是编译,编译系统各结构作用
  9. 【割点】【割边】tarjan
  10. JxBrowser 7 Crack 申请试用教程
  11. 刘德华直播观看人数破亿
  12. 【附源码】Python计算机毕业设计汽车4S店管理系统
  13. Integer和String必问知识点,面试字节跳动Java工程师该怎么准备
  14. 手机会员积分 html,会员积分系统主要有什么作用和功能?
  15. Mac上有哪些好用的写作软件?四类写作软件总有一款适合你!
  16. [全程动图]解决Offline Explorer崩溃闪退的问题和一些小技巧(如何下载js、100线程下载)
  17. 如何给sublime text3安装汉化包?so easy 哦
  18. git出现error: invalid object for ‘xxxxx‘
  19. python之json和dick数据类型
  20. ChatGPT中文网

热门文章

  1. 【传智播客郑州校区分享】HTTP/2技术整理
  2. 使用油猴(tampermonkey)自动答题
  3. 05_Git命令详解 - CRUD
  4. 如何向icloud上传文件_上传文件夹至iCloud云盘
  5. Microsoft Remote Desktop for Mac(远程桌面连接工具)
  6. antdpro使用AbortController取消请求
  7. python路径规划算法可视化_[大创]一步一步写路径规划并绘图可视化 I new
  8. Arcgis流域分析 实验报告
  9. SimpleDateFormat替换方案
  10. 兄弟3150cdn灯亮error_兄弟3150cdn彩色打印机一直显示红灯