搭建数据仓库的流程简介
如何搭建一个数据仓库? 下面大体说明了搭建的流程。
数据仓库的结构
用一幅图来表示:
数据仓库的好处
数据仓库是一套体系。可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体建在哪个平台根据数据量来定。对数据仓库来说,建在哪个平台不重要,重要的是目的。
数据仓库的目的,是对组织的数据进行统一的治理,归纳来讲,就是:存、通、用。
- 存:是指数据的统一存储。数据放在一起了,meta才能在一起,便于后续的计算。
- 通:是指数据的梳理,集中式的数据存储自然而然带来数据的集中管理。便于企业梳理内部的数据,这个是最能刺痛规模比较大,业务比较繁杂的企业的。
- 用:就是在梳理好内部数据资产后,可以看到那些数据可以做链接。那些业务可以合作。自己还缺少哪些数据。
存偏向于存储,通偏向于数据管理,用偏向于数据计算,也就是业务创新。
业务的野蛮生长总会遇到瓶颈,这个时候就需要有内在驱动的业务创新。数据是指导组织二次创业的好依据。by 山水
主要的流程
简单的来说,就是包括:数据源、ODS、DW(DM)、报告这几部分。
主要有这么几个流程:
数据源到ODS,需要考虑:
- 数据源的平台有哪些,比如Oracle,MySQL,文本文件,每个平台有哪些可用的同步工具
- 数据有哪些,数据字典有没有
- 哪些表全量同步
- 哪些表增量同步,如何取增量数据
- 同步周期,按小时,按天,按周,按月?
- 数据量评估:存量数据有多大,增量数据每天有多少
- 历史保留多久
- 数据正确性校验
- 调度、监控、报警
ODS到DW(DM),刚开始可以考虑建立数据集市(DM),待对数据,对业务足够理解,人足够多的时候,考虑建立数据仓库(DW),需要考虑:
- 熟悉数据字典,理解业务,理解数据
- 事实表要建哪些
- 维度表要建哪些
- 更新周期,按小时,按天,按周,按月?
- 数据量评估:存量数据有多大,增量数据每天有多少
- 历史保留多久
- 验数
- 调度、监控、报警
报告,这个是给业务、决策层看的,是体现价值的地方
- 统计口径的确定
- 验数:验证数据是否正确
- 如何展示:是表格、图形,还是大屏?
用到的工具
在建设数据仓库的时候,需要使用一系列的工具。
数据源到ODS
- ETL工具,比如kettle
ODS到DW(DM)
- SQL
报告
- 报表平台
整个流程通过 调度工具 串起来
调度工具需要解决:
- 任务依赖
- 周期性执行
- 监控,报警
- 日志
后续的工作
迭代!
迭代!
迭代!
作者:https://yq.aliyun.com/u/huaheshang
更多精彩内容请关注袋鼠云微信微博:
搭建数据仓库的流程简介相关推荐
- 数仓dw怎么建_搭建数据仓库的流程简介
如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...
- mysql数据仓库搭建_搭建数据仓库的流程简介
如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...
- 如何将项目发布到阿里云_尚硅谷基于阿里云搭建数据仓库(实时)项目视频发布...
11月,尚大发布了基于阿里云搭建数据仓库离线项目视频,不少爱学习的小伙伴表示,对实时项目视频翘首以盼,听了大海哥的课,腰不酸了,腿不疼了,一口气从头听到尾还不过瘾,沉迷于学习无法自拔-- 说曹操,大海 ...
- Zookeeper+Hadoop+Hbase完全分布搭建数据仓库安装部署说明
Zookeeper+Hadoop+Hbase 完全分布搭建数据仓库安装部署说明 ------------一个专注学习技术的不正经程序猿,像一颗海草,在技术的海洋里浪啊浪~ 网上一搜一大把这种文章,我这 ...
- SDSoC软硬件协同设计流程系列——1.基于SDSoC的软硬件协同设计流程简介
基于SDSoC的软硬件协同设计流程简介 Software Define 的概念 近年来"Software Define"软件定义这个词持续火热,全球知名技术研究和咨询公司Gartn ...
- Python+大数据-知行教育(一)-环境搭建 数据仓库
Python+大数据-知行教育(一)-环境搭建 数据仓库 1. 教育项目的数仓分层 回顾: 原有的基础分层 ODS层: 源数据层作用: 对接数据源, 和数据源的数据保持相同的粒度(将数据源的数据完整的 ...
- 数据仓库电商建模_真实电商数据仓库全流程开发详解,资源教程下载
课程名称 Hadoop大数据视频教程-第一季:真实电商数据仓库全流程开发详解(共46讲),资源教程下载 课程目录 第一部分:数据仓库基础理论与技术圈 第一章:互联网电商大数据环境 第二章:商业智能与数 ...
- 浅谈IC前端后端的区别、以及流程简介
数字前端后端的区别.以及流程简介 前端设计(也称逻辑设计)和后端设计(也称物理设计)并没有统一严格的界限,涉及到与工艺有关的设计就是后端设计. 个人理解是: 数字前端以设计架构为起点,以生成可以布局布 ...
- QT程序启动加载流程简介
1. QT应用程序启动加载流程简介 1.1 QWS与QPA启动客户端程序区别 1.1.1 QWS(Qt Window System)介绍 QWS(Qt Windows System)是Q ...
最新文章
- SAP WM高阶之同一个货架上相同物料不同批次的库存可以有同一个SU号码?
- freemarker的${!}
- 第九周项目一-深体验复制(2)
- .NET : 通过配置文件指定跟踪(trace)选项
- python开发需要掌握哪些知识-研究深度学习的开发者,需要对 Python 掌握哪些知识?...
- 【Git入门之十二】DIY Git
- 针对于高频低频图像的理解
- 【多元域除法】多项式除法电路原理及MATLAB详解
- formidable上传文件时出错EXDEV, rename.....
- php网站 只显示sinsiu_sinsiu_cms_1_0_10
- 域用用户怎么允许共享_w7如何共享打印机 w7共享打印机步骤【详细介绍】
- css 类别选择器 并集,CSS常用选择器
- Linux下限制用户通过SFTP访问指定目录
- 使用MLM和TLM训练XLM
- 马哥python培训视频
- 解决ubuntu下firefox浏览器无法观看视频
- vue开发pc端支付方式(支付宝、微信、银联)
- (一)数字图像处理基础知识点
- 论文学习——多元时间序列相似性度量方法
- 吊打何同学?猛肝24小时,用6000元成本打造 AirDesk!