数据同步方案设计

通过前面的学习数据仓库的特性之一是集成,关于一点你可以参考我们前面的文章

  1. 数仓建模—数仓初识
  2. 数仓建模—数据集成

数据集成狭义上来说就是把未经过加工处理的、不同来源的、不同形式的的原始业务数据同步到ODS层,在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据,一般情况下,这些ODS层数据包括日志数据(埋点)和业务DB数据。对于业务DB数据而言(比如存储在MySQL中),将数据采集并导入到数仓中是非常重要的一个环节。

那么,该如何将业务DB数据高效准确地同步到数仓中呢 一般企业会使用两种方案:

  1. 直连同步其中直连同步的基本原理就是直连接数据库然后根据条件进行进行SELECT查询,然后将查询的数据存储到本地文件作为中间存储,最后把文件Load到数仓中。这种方式非常的简单方便,但是随着业务的发展,会遇到一些瓶颈。
  2. 实时增量同步(数据库日志解析),为了直连方案的问题,一般会使用实时增量的方式进行数据同步,其基本原理是CDC (Change Data Capture) + Merge,即实时Binlog采集 + 离线处理Binlog还原业务数据这样一套解决方案。

同步方案

直连同步

直连同步是指通过定义好的规范接口API和基于动态链接库的方式直接连接业务库&#

数仓建模—数据同步方案设计相关推荐

  1. 数仓实时数据同步 debezium

    数仓实时数据同步 debezium 背景 debezium 简介 架构 基本概念 例子 Router 目前遇到的问题 背景 数据湖将源库的数据同步到hive数仓ods层,或直接在kafka中用于后面计 ...

  2. 数仓建模—数据领域常见概念与职位划分

    数据领域常见概念 随着大数据时代的普及以及国家战略层面上的数字化转型,越来越多的客户意识到了"数据"的重要性,无论是走在前面的互联网企业.银行,还是传统有一定数据积累的零售.医药行 ...

  3. 数仓建模—数据治理的本质与实践

    数据治理的本质与实践 近三年,随着阿里数据中台战略的提出,以及各种数据应用场景的成功落地,企业和政府对自身数据资产的价值也前所未有的重视起来.但是,数据资产的价值发掘依赖于有序.完整和高质量的数据,数 ...

  4. 数仓建模—增量数据处理

    增量数据处理 这一节我们不讲技术,讲一个故事,关于数据同步这一块的落地方案可以参考我们之前的文章 数仓建模-数据集成 数仓建模-数据同步方案设计 数仓建模-美团DB数据同步到数据仓库的架构与实践 因为 ...

  5. 数仓建模 项目_音乐数据项目火力全开,技能双倍提升!

    ↑ 点击上方"尚学堂"关注我们 音乐数据中心数仓综合项目 1项目介绍 音乐数据中心项目是大型企业级综合数仓项目,此项目针对音乐数据进行分析,构建数据仓库,建立用户.机器.内容等主题 ...

  6. 大数据数仓建模(3)

    大数据数仓建模(3) 2.2.6 人员配置参考 1.旁敲侧击的问你到底做过没有 2.你们大概规模,数据量 1整体架构 属于研发部/技术部/数据部/基础平台部,我们属于大数据组,其他还有后端项目组,前端 ...

  7. [数仓笔记]数据建模

    [数仓笔记]数据建模 1. 为什么需要数据建模 2. 典型的数仓建模方法论 2.1 关系建模 2.2 维度建模 3. 数据整合及管理体系 3.1 体系架构 3.2 指标体系 3.2.1 定义 3.2. ...

  8. 谈笑间学会数仓—大数据建模过程

    谈笑间学会数仓-大数据建模过程 首先我们先来了解一下,大数据建模都需要遵循哪些原则呢?先来列举一下 建模原则 高内聚和低辑合 将业务相近或者相关.粒度相同的数据设计为一个逻辑或者物理模型:将高概率同 ...

  9. 大数据数仓建模 - 维度建模 实战及思路过程 (两年数仓建模经验 纯干货)

    数仓维度建模 维度建模方法论: 维度建模 是以业务过程为驱动 先确定某些业务过程 围绕业务过程去建立模型 通常采用自底向上的方法 从明确关键业务过程开始 再到明确粒度 再到明确维度  最后明确事实 在 ...

最新文章

  1. Linux之tee命令
  2. Java中父类构造方法对子类构造方法的影响(不是一句话可以说清的)
  3. js格式化文件大小, 输出成带单位的字符串工具
  4. MySQL语法规范介绍
  5. Android 给按钮绑定事件
  6. python基础day2作业:购物车
  7. 零食嘴----美食领域的美丽说
  8. ES6中的常用知识点总结
  9. HttpSession详解
  10. ectouch微信登录提示此次操作失败请返回重试原因
  11. (十四)A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Seri
  12. 人工智能专业应不应该读博士?
  13. php百度优化,百度技术沙龙第 24 期 PHP 性能优化实践
  14. PB实现国密SM2/SM3/SM4算法(DLL方式)
  15. java 时区-东八区
  16. 高校实验室仪器设备管理系统/高校设备管理系统
  17. Linux欧姆单位怎么打,万用表如何进行欧姆校零
  18. E005 如何把Excel数据写入Word生成工资字条
  19. vcruntime140.dll文件丢失的解决方法
  20. 2022电工(初级)考试模拟100题及答案

热门文章

  1. Java调用JS,JS调用JAVA
  2. 芒果iOS开发之AFNetworking3.0.4使用指南
  3. 网络小说之最:有些完全妹想到(根据橙瓜数据整理)
  4. PIC单片机-PICC介绍
  5. 自学Javabean迅速成为Java高手
  6. Django之ContentType详解
  7. 是IIS支持APS.Net
  8. 无界文档| 我们尝试让文档变得更有格调一点!
  9. java中上传图片的原理_js实现图片上传预览原理分析
  10. SpringBoot连接数据库