如何搭建一个数据仓库? 下面大体说明了搭建的流程。

数据仓库的结构

用一幅图来表示:

数据仓库的好处

数据仓库是一套体系。可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体建在哪个平台根据数据量来定。对数据仓库来说,建在哪个平台不重要,重要的是目的。

数据仓库的目的,是对组织的数据进行统一的治理,归纳来讲,就是:存、通、用。

  • 存:是指数据的统一存储。数据放在一起了,meta才能在一起,便于后续的计算。
  • 通:是指数据的梳理,集中式的数据存储自然而然带来数据的集中管理。便于企业梳理内部的数据,这个是最能刺痛规模比较大,业务比较繁杂的企业的。
  • 用:就是在梳理好内部数据资产后,可以看到那些数据可以做链接。那些业务可以合作。自己还缺少哪些数据。

存偏向于存储,通偏向于数据管理,用偏向于数据计算,也就是业务创新。

业务的野蛮生长总会遇到瓶颈,这个时候就需要有内在驱动的业务创新。数据是指导组织二次创业的好依据。by 山水

主要的流程

简单的来说,就是包括:数据源、ODS、DW(DM)、报告这几部分。
主要有这么几个流程:

  1. 数据源到ODS,需要考虑:

    • 数据源的平台有哪些,比如Oracle,MySQL,文本文件,每个平台有哪些可用的同步工具
    • 数据有哪些,数据字典有没有
    • 哪些表全量同步
    • 哪些表增量同步,如何取增量数据
    • 同步周期,按小时,按天,按周,按月?
    • 数据量评估:存量数据有多大,增量数据每天有多少
    • 历史保留多久
    • 数据正确性校验
    • 调度、监控、报警
  2. ODS到DW(DM),刚开始可以考虑建立数据集市(DM),待对数据,对业务足够理解,人足够多的时候,考虑建立数据仓库(DW),需要考虑:

    • 熟悉数据字典,理解业务,理解数据
    • 事实表要建哪些
    • 维度表要建哪些
    • 更新周期,按小时,按天,按周,按月?
    • 数据量评估:存量数据有多大,增量数据每天有多少
    • 历史保留多久
    • 验数
    • 调度、监控、报警
  3. 报告,这个是给业务、决策层看的,是体现价值的地方

    • 统计口径的确定
    • 验数:验证数据是否正确
    • 如何展示:是表格、图形,还是大屏?

用到的工具

在建设数据仓库的时候,需要使用一系列的工具。

  1. 数据源到ODS

    • ETL工具,比如kettle
  2. ODS到DW(DM)

    • SQL
  3. 报告

    • 报表平台

整个流程通过 调度工具 串起来
调度工具需要解决:

  • 任务依赖
  • 周期性执行
  • 监控,报警
  • 日志

后续的工作

迭代!
迭代!
迭代!

作者:https://yq.aliyun.com/u/huaheshang
更多精彩内容请关注袋鼠云微信微博:

搭建数据仓库的流程简介相关推荐

  1. 数仓dw怎么建_搭建数据仓库的流程简介

    如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...

  2. mysql数据仓库搭建_搭建数据仓库的流程简介

    如何搭建一个数据仓库? 下面大体说明了搭建的流程. 数据仓库的结构 用一幅图来表示: 数据仓库的好处 数据仓库是一套体系.可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体 ...

  3. 如何将项目发布到阿里云_尚硅谷基于阿里云搭建数据仓库(实时)项目视频发布...

    11月,尚大发布了基于阿里云搭建数据仓库离线项目视频,不少爱学习的小伙伴表示,对实时项目视频翘首以盼,听了大海哥的课,腰不酸了,腿不疼了,一口气从头听到尾还不过瘾,沉迷于学习无法自拔-- 说曹操,大海 ...

  4. Zookeeper+Hadoop+Hbase完全分布搭建数据仓库安装部署说明

    Zookeeper+Hadoop+Hbase 完全分布搭建数据仓库安装部署说明 ------------一个专注学习技术的不正经程序猿,像一颗海草,在技术的海洋里浪啊浪~ 网上一搜一大把这种文章,我这 ...

  5. SDSoC软硬件协同设计流程系列——1.基于SDSoC的软硬件协同设计流程简介

    基于SDSoC的软硬件协同设计流程简介 Software Define 的概念 近年来"Software Define"软件定义这个词持续火热,全球知名技术研究和咨询公司Gartn ...

  6. Python+大数据-知行教育(一)-环境搭建 数据仓库

    Python+大数据-知行教育(一)-环境搭建 数据仓库 1. 教育项目的数仓分层 回顾: 原有的基础分层 ODS层: 源数据层作用: 对接数据源, 和数据源的数据保持相同的粒度(将数据源的数据完整的 ...

  7. 数据仓库电商建模_真实电商数据仓库全流程开发详解,资源教程下载

    课程名称 Hadoop大数据视频教程-第一季:真实电商数据仓库全流程开发详解(共46讲),资源教程下载 课程目录 第一部分:数据仓库基础理论与技术圈 第一章:互联网电商大数据环境 第二章:商业智能与数 ...

  8. 浅谈IC前端后端的区别、以及流程简介

    数字前端后端的区别.以及流程简介 前端设计(也称逻辑设计)和后端设计(也称物理设计)并没有统一严格的界限,涉及到与工艺有关的设计就是后端设计. 个人理解是: 数字前端以设计架构为起点,以生成可以布局布 ...

  9. QT程序启动加载流程简介

    1. QT应用程序启动加载流程简介 1.1      QWS与QPA启动客户端程序区别 1.1.1   QWS(Qt Window System)介绍 QWS(Qt Windows System)是Q ...

最新文章

  1. SAP WM高阶之同一个货架上相同物料不同批次的库存可以有同一个SU号码?
  2. freemarker的${!}
  3. 第九周项目一-深体验复制(2)
  4. .NET : 通过配置文件指定跟踪(trace)选项
  5. python开发需要掌握哪些知识-研究深度学习的开发者,需要对 Python 掌握哪些知识?...
  6. 【Git入门之十二】DIY Git
  7. 针对于高频低频图像的理解
  8. 【多元域除法】多项式除法电路原理及MATLAB详解
  9. formidable上传文件时出错EXDEV, rename.....
  10. php网站 只显示sinsiu_sinsiu_cms_1_0_10
  11. 域用用户怎么允许共享_w7如何共享打印机 w7共享打印机步骤【详细介绍】
  12. css 类别选择器 并集,CSS常用选择器
  13. Linux下限制用户通过SFTP访问指定目录
  14. 使用MLM和TLM训练XLM
  15. 马哥python培训视频
  16. 解决ubuntu下firefox浏览器无法观看视频
  17. vue开发pc端支付方式(支付宝、微信、银联)
  18. (一)数字图像处理基础知识点
  19. 论文学习——多元时间序列相似性度量方法
  20. 吊打何同学?猛肝24小时,用6000元成本打造 AirDesk!

热门文章

  1. 集成底座与业务系统对接过程梳理
  2. Win10两个开始菜单路径
  3. 传统会计和计算机会计的职能,会计电算化对传统会计职能影响的研究
  4. 脑机接口应用和P300拼写器概述
  5. 如何打造高性能大数据分析平台
  6. 微信分享好友,朋友圈
  7. 无线局域网基础——WLAN
  8. 【NOIp2019模拟】题解
  9. Spire.Office获取免费版
  10. 微博咆哮体[Chrome Extension]