如何搭建一个数据仓库? 下面大体说明了搭建的流程。

数据仓库的结构

用一幅图来表示:

数据仓库的好处

数据仓库是一套体系。可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体建在哪个平台根据数据量来定。对数据仓库来说,建在哪个平台不重要,重要的是目的。

数据仓库的目的,是对组织的数据进行统一的治理,归纳来讲,就是:存、通、用。

存:是指数据的统一存储。数据放在一起了,meta才能在一起,便于后续的计算。

通:是指数据的梳理,集中式的数据存储自然而然带来数据的集中管理。便于企业梳理内部的数据,这个是最能刺痛规模比较大,业务比较繁杂的企业的。

用:就是在梳理好内部数据资产后,可以看到那些数据可以做链接。那些业务可以合作。自己还缺少哪些数据。

存偏向于存储,通偏向于数据管理,用偏向于数据计算,也就是业务创新。

业务的野蛮生长总会遇到瓶颈,这个时候就需要有内在驱动的业务创新。数据是指导组织二次创业的好依据。by 山水

主要的流程

简单的来说,就是包括:数据源、ODS、DW(DM)、报告这几部分。

主要有这么几个流程:

数据源到ODS,需要考虑:

数据源的平台有哪些,比如Oracle,MySQL,文本文件,每个平台有哪些可用的同步工具

数据有哪些,数据字典有没有

哪些表全量同步

哪些表增量同步,如何取增量数据

同步周期,按小时,按天,按周,按月?

数据量评估:存量数据有多大,增量数据每天有多少

历史保留多久

数据正确性校验

调度、监控、报警

ODS到DW(DM),刚开始可以考虑建立数据集市(DM),待对数据,对业务足够理解,人足够多的时候,考虑建立数据仓库(DW),需要考虑:

熟悉数据字典,理解业务,理解数据

事实表要建哪些

维度表要建哪些

更新周期,按小时,按天,按周,按月?

数据量评估:存量数据有多大,增量数据每天有多少

历史保留多久

验数

调度、监控、报警

报告,这个是给业务、决策层看的,是体现价值的地方

统计口径的确定

验数:验证数据是否正确

如何展示:是表格、图形,还是大屏?

用到的工具

在建设数据仓库的时候,需要使用一系列的工具。

数据源到ODS

ETL工具,比如kettle

ODS到DW(DM)

SQL

报告

报表平台

整个流程通过 调度工具 串起来

调度工具需要解决:

任务依赖

周期性执行

监控,报警

日志

后续的工作

迭代!

迭代!

迭代!

mysql数据仓库搭建_搭建数据仓库的流程简介相关推荐

  1. 数仓dw怎么建_搭建数据仓库的流程简介

    如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...

  2. 搭建数据仓库的流程简介

    如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...

  3. doctor mysql数据导入_线上环境mysql主从同步的搭建过程

    之前搭建过一套主从同步的mysql集群,但是是基于新数据库,而这次线上环境要升级成主从同步的集群,记录一下升级过程和中间遇到的各种问题. 由于是直接对线上数据库进行修改,因此要保证对线上环境造成尽量小 ...

  4. solr mysql数据注入_(solr系列:四)将mysql数据库中的数据导入到solr中

    在前面的博文中,已完成了在tomcat中对solr的部署,为solr添加了一个自定义的core,并且引入了ik分词器. 那么该如何将本地的mysql的数据导入到solr中呢? 准备工作: 1.mysq ...

  5. jena 开发之 mysql数据导入_在Jena框架下基于MySQL数据库实现本体的存取操作

    转自:http://blog.csdn.net/jtz_mpp/article/details/6224311 最近在做一个基于本体的管理系统.其中对本体的操作部分,我使用的是Jena框架:数据模型是 ...

  6. mysql 数据分组_详解MySQL 数据分组

    创建分组 分组是在select语句中的group by 子句中建立的. 例: select vend_id, count(*) as num_prods from products group by ...

  7. 将Excel表格导入mysql数据表_如何把Excel导入mysql数据表的方法详解

    把Excel导入mysql数据表其实是一件非常的简单的事情了,我们可以通过多种方法来实现了,下面我们来看一些关于小编整理的把Excel导入mysql数据表的方法了. 方法一 把Excel导入mysql ...

  8. mysql数据漂移_数据库漂移-和数据库漂移相关的内容-阿里云开发者社区

    MySQL双主一致性架构优化 | 架构师之路 一.双主保证高可用 MySQL数据库集群常使用一主多从,主从同步,读写分离的方式来扩充数据库的读性能,保证读库的高可用,但此时写库仍然是单点. 在一个My ...

  9. 怎么监控mysql数据变化_实时监控mysql数据库变化

    对于二次开发来说,很大一部分就找找文件和找数据库的变化情况 对于数据库变化.还没有发现比较好用的监控数据库变化监控软件. 今天,我就给大家介绍一个如何使用mysql自带的功能监控数据库变化 1.打开数 ...

最新文章

  1. AI十级「找茬」选手,非这个书生莫属,节后开源!
  2. python太阳花的编程_python大佬养成计划----HTML DOM
  3. 架构师速成-架构目标之可用性
  4. js流程控制题——如何实现一个LazyMan
  5. C语言实现阿姆斯特朗数armstrong number算法(附完整源码)
  6. 信息学奥赛一本通(1153:绝对素数)
  7. etl 不能转换成date_java怎么将date类型转换成datetime类型
  8. Imputation:用于数据插补的SPSS宏
  9. linux gt240驱动下载,NVIDIA官方发布Linux 256.53正式版驱动
  10. 临湘东经子午线经度_地区经度查询_实用查询工具大全 - Powered by Senlon!
  11. [Unity]寻路导航
  12. 11.2.1 绝对值函数
  13. java语言,MP4视频文件合并功能
  14. 花了3个小时解决了和异地女朋友一起看电影的需求(内附源码)
  15. Python爬取蓝奏云直链(获取真实文件地址)
  16. 这七种职业男人让多少日本女性着迷
  17. mybatis中resultMap和resultType的详细用法
  18. Compose也能跨平台?Compose Multiplatform是啥?KMM又是什么?
  19. JavaScript运算符完全攻略(史上最全!)
  20. 7-33 有理数加法 (15 分)

热门文章

  1. ZStack Cloud助力申银万国期货上云,承载金融核心业务系统
  2. 平均发展速度和平均增长速度
  3. rar for android最新版,RAR for Android
  4. 自建CA证书以及导入到浏览器实现https安全连接
  5. IRF配合VRRP实战
  6. 迈入数智时代的恒生电子:四大新品推动金融数智化从量变走向质变
  7. C++生成的线性十字绣图案
  8. 图像增强——直方图变换
  9. 逻辑回归分类鸢尾花和红酒等级
  10. 抽象类试验。定义一组具有继承关系的类。Shape(形状)类是一个抽象类,包含4个数据成员(坐标x,y,颜色c,图形对象g(Graphics类对象))