数仓数据处理与数据流向
文章目录
- 一、数据流向
- 数据运营层(ODS)数据采集
- 数据仓库(DW)
- DWD:data warehouse details 格式化预处理
- DWB:data warehouse base
- DWS:data warehouse service
- 数据服务层/应用层(ADS)
- 二、数据仓库数据处理流程
- 数据采集
- 日志类文件
- DB数据源数据采集
- 数据入库
- 数据清洗ODS
- 数据轻度聚合 DWS
一、数据流向
数据运营层(ODS)数据采集
ODS:Operation Data Store 数据准备区,也称为贴源层
数据仓库源头系统的数据表通常会原封不动的存储一份,这称为ODS层,是后续数据仓库加工数据的来源。
ODS的意义,在于保存最完整的数据现场,便于一些特殊场景下的问题排查使用。
点击、展现、订购、收视
数据仓库(DW)
Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它是一整套包括了etl、调度、建模在内的完整的理论体系。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 它是单个数据存储,出于分析性报告和决策支持目的而创建。
DW数据分层,由下到上为DWD,DWB,DWS。
DWD:data warehouse details 格式化预处理
DWD:data warehouse details 细节数据层,是业务层与数据仓库的隔离层。
主要对ODS数据层做一些数据清洗和规范化的操作。
预处理指将数据变成半格式化或者是格式化数据,例如存在HDFS上的标准格式,我们就用字符串的格式来统一存储。
处理一些脏数据,例如字段缺失、格式错误、乱码、空值,等等
- 数据清洗:去除空值、脏数据、超过极限范围的
统一预处理
DWB:data warehouse base
DWB:data warehouse base 数据基础层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。
DWS:data warehouse service
DWS:data warehouse service 数据服务层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据层,一般是宽表。用于提供后续的业务查询,OLAP分析,数据分发等。
- 用户行为,轻度聚合
- 主要对ODS/DWD层数据做一些轻度的汇总。
数据服务层/应用层(ADS)
- ADS:applicationData Service应用数据服务,该层主要是提供数据产品和数据分析使用的数据,一般会存储在ES、mysql等系统中供线上系统使用。
保证数据的一致性,保证需求响应的速度
二、数据仓库数据处理流程
数据采集
日志类文件
数据采集流程,以中兴cdn收视话单采集流程为例
DB数据源数据采集
DB数据源采集,常见的有Mysql、mongodb,主要使用datax作为数据抽取工具,以CMS内容数据抽取为例,介绍DB数据采集流程:
数据入库
数据入库流程,数据采集节点的Flume采集到数据之后,会向数据仓库节点Flume发送,数仓节点flume接收到数据后写入文件系统,文件写入完成后写入hdfs,账期数据到达hdfs后会通知调度系统,调度系统接收信令得知某类账期数据已入库。
数据清洗ODS
数据清洗操作,将hdfs文件加载到ods层数据,完成原始数据的ID统一化、异常值清洗、统一数据格式、关联维表进行维度属性补充等。
数据轻度聚合 DWS
DWS层数据轻度聚合,划分主题域,冗余尽可能多的维度信息,对于提高下游计算的速度、减少运算数据量、简化业务逻辑、合并计算单元等具有特别大的好处。聚合过程中,往往会将事实表关联一个或多个维度表,计算过程会生成大量中间数据,计算完成后清理中间过程数据,将结果数据写入目标表。
数仓数据处理与数据流向相关推荐
- 一文读懂数仓建设和数据治理
点击上方 "大数据肌肉猿"关注, 星标一起成长 点击下方链接,进入高质量学习交流群 今日更新| 950个转型案例分享-大数据交流群 本文分为两大节介绍,第一节是数仓建设,第二节是数 ...
- 1W字概括数仓建设和数据治理
点击上方 "大数据肌肉猿"关注, 星标一起成长 后台回复[加群],进入高质量学习交流群 2021年大数据肌肉猿公众号奖励制度 本文分为两大节介绍,第一节是数仓建设,第二节是数据治理 ...
- 关于数仓建设及数据治理的超全概括
进入主页,点击右上角"设为星标" 比别人更快接收好文章 本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读! 在谈数仓之前,先来看下面几个问题: 数仓为 ...
- 大数据架构详解_【数据如何驱动增长】(3)大数据背景下的数仓建设 amp; 数据分层架构设计...
背景 了解数据仓库.数据流架构的搭建原理对于合格的数据分析师或者数据科学家来说是一项必不可少的能力.它不仅能够帮助分析人员更高效的开展分析任务,帮助公司或者业务线搭建一套高效的数据处理架构,更是能够从 ...
- 爱奇艺数据中台建设组合拳:日志投递、统一数仓、大数据平台
本文根据马金韬老师在[deeplus直播第233期]线上分享演讲内容整理而成.首发于DBAplus社群,经授权转载(文末有获取本期PPT&回放的方式,不要错过) 马金韬 爱奇艺数据中台负责人 ...
- 谈笑间学会数仓—主题域数据域
谈笑间学会数仓-主题域&&数据域 在之前的文章里虽然没有按照顺序来,但是基本上都介绍了数据仓库建设的大概流程,比如技术架构方案设计.建模方法论.数仓分层.开发规范.数仓建设中的各种事实 ...
- 【数仓】数据仓库—数据集成
其实数据集成是数仓的一个基本特点,这里我们再回顾一下数仓的特性,或者说是我们再回顾一下数仓的定义,面向主题的(Subject Oriented).集成的(Integrate).相对稳定的(Non-Vo ...
- 我该建数仓、大数据平台还是数据中台?看完脑子终于清醒了
一.层出不穷的新名词 现在各种新名词层出不穷: 顶层的有数字城市.智慧地球.智慧城市.城市大脑: 企业层面的有数字化转型.互联网经济,数字经济.数字平台: 平台层面的有物联网,云计算,大数据,5G,人 ...
- 数据查询和业务流分开_传统数仓和大数据数仓的区别是什么?
概念与容器 为什么先说这个,其实很简单:因为绝大多数人都把这两个概念混为一谈.然后就会出现各种各样的问题:oracle不是数据库么,怎么又是数据仓库?Hive不是数据仓库么?怎么又是数据库? 数据仓库 ...
最新文章
- 港口物流系统设计与优化-SMU在线学习笔记
- ​​​​​​​Git学习笔记与IntelliJ IDEA整合
- 关于保存状态的Fragment,setRetainInstance(true)
- 大道至简,大数据的小窍门
- php json函数参数传递,JSON作为函数参数时应该如何使用
- 使用JMeter进行接口压力测试
- Python中计算二重积分
- 集团企业税务管理浅析
- 最新资讯:iPhone 11显示模块更换计划,用于解决触摸问题
- matlab自动运行,自动运行matlab的方法步骤
- 被字句15个_小学语文必考知识:15类句式转换解题方法与练习(附答案)
- MFC画带箭头的直线
- 正则表达式-包含数字和字母的组合
- 示波器常用的13个概念
- 微软软件测试部门裁剪,Windows 10稳定性太差是因为测试团队被裁撤?微软发布博客进行回应...
- 聚类kmeans案例
- 开源中国源码学习(六)——ButterKnife的使用
- DaoCloud丨云原生边缘计算产业发展现状与趋势展望
- 主控是sm2259xt,求量产工具,固态硬盘是七彩虹sl500 250G的
- 计算机网络基础知识合集