mysql数据仓库搭建_搭建数据仓库的流程简介
如何搭建一个数据仓库? 下面大体说明了搭建的流程。
数据仓库的结构
用一幅图来表示:
数据仓库的好处
数据仓库是一套体系。可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体建在哪个平台根据数据量来定。对数据仓库来说,建在哪个平台不重要,重要的是目的。
数据仓库的目的,是对组织的数据进行统一的治理,归纳来讲,就是:存、通、用。
存:是指数据的统一存储。数据放在一起了,meta才能在一起,便于后续的计算。
通:是指数据的梳理,集中式的数据存储自然而然带来数据的集中管理。便于企业梳理内部的数据,这个是最能刺痛规模比较大,业务比较繁杂的企业的。
用:就是在梳理好内部数据资产后,可以看到那些数据可以做链接。那些业务可以合作。自己还缺少哪些数据。
存偏向于存储,通偏向于数据管理,用偏向于数据计算,也就是业务创新。
业务的野蛮生长总会遇到瓶颈,这个时候就需要有内在驱动的业务创新。数据是指导组织二次创业的好依据。by 山水
主要的流程
简单的来说,就是包括:数据源、ODS、DW(DM)、报告这几部分。
主要有这么几个流程:
数据源到ODS,需要考虑:
数据源的平台有哪些,比如Oracle,MySQL,文本文件,每个平台有哪些可用的同步工具
数据有哪些,数据字典有没有
哪些表全量同步
哪些表增量同步,如何取增量数据
同步周期,按小时,按天,按周,按月?
数据量评估:存量数据有多大,增量数据每天有多少
历史保留多久
数据正确性校验
调度、监控、报警
ODS到DW(DM),刚开始可以考虑建立数据集市(DM),待对数据,对业务足够理解,人足够多的时候,考虑建立数据仓库(DW),需要考虑:
熟悉数据字典,理解业务,理解数据
事实表要建哪些
维度表要建哪些
更新周期,按小时,按天,按周,按月?
数据量评估:存量数据有多大,增量数据每天有多少
历史保留多久
验数
调度、监控、报警
报告,这个是给业务、决策层看的,是体现价值的地方
统计口径的确定
验数:验证数据是否正确
如何展示:是表格、图形,还是大屏?
用到的工具
在建设数据仓库的时候,需要使用一系列的工具。
数据源到ODS
ETL工具,比如kettle
ODS到DW(DM)
SQL
报告
报表平台
整个流程通过 调度工具 串起来
调度工具需要解决:
任务依赖
周期性执行
监控,报警
日志
后续的工作
迭代!
迭代!
迭代!
mysql数据仓库搭建_搭建数据仓库的流程简介相关推荐
- 数仓dw怎么建_搭建数据仓库的流程简介
如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...
- 搭建数据仓库的流程简介
如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...
- doctor mysql数据导入_线上环境mysql主从同步的搭建过程
之前搭建过一套主从同步的mysql集群,但是是基于新数据库,而这次线上环境要升级成主从同步的集群,记录一下升级过程和中间遇到的各种问题. 由于是直接对线上数据库进行修改,因此要保证对线上环境造成尽量小 ...
- solr mysql数据注入_(solr系列:四)将mysql数据库中的数据导入到solr中
在前面的博文中,已完成了在tomcat中对solr的部署,为solr添加了一个自定义的core,并且引入了ik分词器. 那么该如何将本地的mysql的数据导入到solr中呢? 准备工作: 1.mysq ...
- jena 开发之 mysql数据导入_在Jena框架下基于MySQL数据库实现本体的存取操作
转自:http://blog.csdn.net/jtz_mpp/article/details/6224311 最近在做一个基于本体的管理系统.其中对本体的操作部分,我使用的是Jena框架:数据模型是 ...
- mysql 数据分组_详解MySQL 数据分组
创建分组 分组是在select语句中的group by 子句中建立的. 例: select vend_id, count(*) as num_prods from products group by ...
- 将Excel表格导入mysql数据表_如何把Excel导入mysql数据表的方法详解
把Excel导入mysql数据表其实是一件非常的简单的事情了,我们可以通过多种方法来实现了,下面我们来看一些关于小编整理的把Excel导入mysql数据表的方法了. 方法一 把Excel导入mysql ...
- mysql数据漂移_数据库漂移-和数据库漂移相关的内容-阿里云开发者社区
MySQL双主一致性架构优化 | 架构师之路 一.双主保证高可用 MySQL数据库集群常使用一主多从,主从同步,读写分离的方式来扩充数据库的读性能,保证读库的高可用,但此时写库仍然是单点. 在一个My ...
- 怎么监控mysql数据变化_实时监控mysql数据库变化
对于二次开发来说,很大一部分就找找文件和找数据库的变化情况 对于数据库变化.还没有发现比较好用的监控数据库变化监控软件. 今天,我就给大家介绍一个如何使用mysql自带的功能监控数据库变化 1.打开数 ...
最新文章
- AI十级「找茬」选手,非这个书生莫属,节后开源!
- python太阳花的编程_python大佬养成计划----HTML DOM
- 架构师速成-架构目标之可用性
- js流程控制题——如何实现一个LazyMan
- C语言实现阿姆斯特朗数armstrong number算法(附完整源码)
- 信息学奥赛一本通(1153:绝对素数)
- etl 不能转换成date_java怎么将date类型转换成datetime类型
- Imputation:用于数据插补的SPSS宏
- linux gt240驱动下载,NVIDIA官方发布Linux 256.53正式版驱动
- 临湘东经子午线经度_地区经度查询_实用查询工具大全 - Powered by Senlon!
- [Unity]寻路导航
- 11.2.1 绝对值函数
- java语言,MP4视频文件合并功能
- 花了3个小时解决了和异地女朋友一起看电影的需求(内附源码)
- Python爬取蓝奏云直链(获取真实文件地址)
- 这七种职业男人让多少日本女性着迷
- mybatis中resultMap和resultType的详细用法
- Compose也能跨平台?Compose Multiplatform是啥?KMM又是什么?
- JavaScript运算符完全攻略(史上最全!)
- 7-33 有理数加法 (15 分)
热门文章
- ZStack Cloud助力申银万国期货上云,承载金融核心业务系统
- 平均发展速度和平均增长速度
- rar for android最新版,RAR for Android
- 自建CA证书以及导入到浏览器实现https安全连接
- IRF配合VRRP实战
- 迈入数智时代的恒生电子:四大新品推动金融数智化从量变走向质变
- C++生成的线性十字绣图案
- 图像增强——直方图变换
- 逻辑回归分类鸢尾花和红酒等级
- 抽象类试验。定义一组具有继承关系的类。Shape(形状)类是一个抽象类,包含4个数据成员(坐标x,y,颜色c,图形对象g(Graphics类对象))