ODS (原始数据层)
主要完成:

(1)保持数据原貌不做任何修改,保留历史数据,储存起到备份数据作用;
(2)压缩采用gzip,压缩比是100g数据压缩完10g左右;
(3)创建分区表,防止后续的全表扫描,减少集群资源访问数仓的压力,一般按天存储在数仓中。

DWD(Data WareHouse Detail)数据明细层,主要是将从业务数据库中同步过来的ODS层数据进行清洗和整合成相应的事实表。事实表作为数据仓库维度建模的核心,需要紧紧围绕着业务过程来设计。

DWD主要完成:
    采用维度模型方法,按照主题建立各种数据模型,构建最细粒度的明细事实表
    数据清洗:去除空值、脏数据、枚举值转换,超过极限范围的,使用hive sql数据清洗
    数据脱敏:对身份证,手机号等敏感信息脱敏,加*,使用spark 脱敏
    
 
1. 数据清洗
(1)空值去除
(2)过滤核心字段无意义的数据,比如订单表中订单 id 为 null,支付表中支付 id 为空
(3)将用户行为宽表和业务表进行数据一致性处理

2. 脱敏
        对手机号、身份证号等敏感数据脱敏

3. 维度退化

将维度退化至事实表中,减少事实表和维度表的关联
        对业务数据传过来的表进行维度退化和降维。(商品一级二级三级、省市县、年月日)

4. 压缩

snappy
5.存储
     orc列式存储

去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式)、规范化、维度退化、脱敏等操作。
基于每个具体的业务过程特点,构建最细粒度的明细层事实表

但在数据仓库只产品中,一旦涉及到 join 关联操作,会消耗大量的资源,且降低运行的速度。所以会选择增加几余,将这些维度表合并到主表中形成宽表。这种操作被称为维度退化。

星星模型 所有维表都直接连接到事实表上时,整个图解就像星星一样,故将该模型称为星型模型

雪花模型是对星型模型的扩展
雪花模型使得维度分析更加容易
多个星型构成一个星座

去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式)、规范化、维度退化、脱敏等操作。

ODS+DWD层详细介绍相关推荐

  1. PCB板-叠层详细介绍

    目录: 一.PCB板叠层介绍 二.PP片介绍 ----------------------------------------------------------------------------- ...

  2. 数据仓库各层到底在做什么?(ODS,DWD,DWM,DWS,ADS)

    文章目录 源数据层(ODS) 数据仓库层(DW) DWD明细层 DWM 中间层 DWS 业务层 数据应用层(ADS或DA或APP) 维表层(DIM) 源数据层(ODS) 此层数据无任何更改,直接沿用外 ...

  3. 数据仓库之【用户行为数仓】06:【dwd层】明细数据层:清洗ods层之后的数据

    一.dwd层分析 下面我们来创建dwd层: 针对ods层表中的数据进行清洗,参考数据清洗规则,按照实际情况对数据进行清洗. 注意:如果清洗规则使用SQL可以实现,那么就使用SQL实现数据清洗,如果清洗 ...

  4. 3.项目记录将ODS层的数据处理成DWD层

    将ODS层的数据通过清洗转换处理成DWD层的数据,保存成parquet格式 主要工作: 数据规范处理,将一些字段处理成同一的规范(时间,日期,空字符统一...) 将设备id,和用户账号同时为空的记录过 ...

  5. 数仓ODS,DWD,DWS层

    数据仓库中的数据表,往往是分层管理.分层计算的: 所谓分层,具体来说,就是将大量的数据表按照一定规则和定义来进行逻辑划分: ADS层: 应用服务层 DWS层:数仓汇总层 DWD层:数仓明细层 ODS层 ...

  6. 【实时数仓】DWD层需求分析及实现思路、idea环境搭建、实现DWD层处理用户行为日志的功能

    文章目录 一 DWD层需求分析及实现思路 1 分层需求分析 2 每层的职能 3 DWD层职能详细介绍 (1)用户行为日志数据 (2)业务数据 4 DWD层数据准备实现思路 二 环境搭建 1 创建mav ...

  7. HIve数仓新零售项目DWD层的构建

    HIve数仓新零售项目 注:大家觉得博客好的话,别忘了点赞收藏呀,本人每周都会更新关于人工智能和大数据相关的内容,内容多为原创,Python Java Scala SQL 代码,CV NLP 推荐系统 ...

  8. 电商数仓(dwd 层)

    一.dwd 层介绍 1.对用户行为数据解析. 2.对核心数据进行判空过滤. 3.对业务数据采用维度模型重新建模,即维度退化. 二.dwd 层用户行为数据 2.1 用户行为启动表 dwd_start_l ...

  9. ODS DWD DWS ADS 数仓分层

    数仓分层 ODS:Operation Data Store 原始数据 DWD(数据清洗/DWI ) data warehouse detail 数据明细详情,去除空值,脏数据,超过极限范围的明细解析 ...

最新文章

  1. 为预测用户出行需求,ofo开始使用AI实现智能调度
  2. python 将图片转换成像素画_Canvas 实现位图转像素画
  3. 201671010135 2016--2017java程序设计对java的初步认识和对第一,二章的总结(0)
  4. data transformation python_Python数据分析(方睿)
  5. HDU2167 Pebbles(状压DP)
  6. 中缀表达式转换成后缀表达式(只适用于加减乘除运算)
  7. 调研了2000位CEO,67%的企业都在数字化转型,想做的无非这3点
  8. 005木桶缩放(比例非原始)
  9. 流水线合成材料依赖表的生成算法
  10. PHP 文件打开/读取
  11. 基于c语言实现bp算法,基于BP网络的自学习算法和C语言实现
  12. 住150平米以上的房子是怎样一种体验?
  13. 学习日志---hbase学习(最大版本查询)
  14. 每日一句090516
  15. 【2016 ACM-ICPC 曼谷区域赛 Gym-101161 G】Binary Strings【矩阵快速幂】
  16. 一台 ZXHN F650(GPON ONU) 学习小记
  17. 【Pytorch with fastai】第 3 章 :数据伦理
  18. 【winui3】轻量笔记本应用
  19. 机型增多,时间延长,华为一口价更换原装电池活动惊喜不断
  20. Layui layer弹层组件 子iframe大小比父iframe大,还可对父iframe进行操作

热门文章

  1. 【KDD 2020】Local Community Detection in Multiple Networks
  2. 1.2.位、字节、半字、字、内存位宽
  3. 【Social listening实操】用大数据文本挖掘,来洞察“共享单车”的行业现状及走势
  4. 数字货币系统平台开发商
  5. 3DAI安卓SDK发布--单照片极速建模
  6. Python基础(四)(列表、元组、字典、字符串、Python内置函数、切片、运算符、成员运算符)
  7. java框架 token_Java安全框架(三):JWT(Json Web Token)
  8. verilog学习记(学习设计cpu)
  9. python-获取UUID
  10. Mysql数据库分页查询及优化