[原创]ETL开发流程随笔

  • ETL开发
    • ETL工作目标
      • ETL工作目的主要有:
    • ETL工作流程
      • 准备工作
    • ETL开发上线包
    • ETL开发模版统一和规范
    • ETL设计
    • ETL开发
    • ETL测试
    • 自动调度系统配置

ETL开发

数据仓库ODS到DWD的ETL工作流程记录

ETL工作目标

目前我们做销售主题域下的ODS-DWD层的ETL工作,我准备把 工作中遇到的问题和想法记录下来,好的开始我们的主题

ETL工作目的主要有:

     1.源系统ERP各城市库的整合2.每个城市不同规则的统一、数据转换3.数据缺失值的处理(填充的规则怎么定)4.异常值的处理5.内容中不该出现或者存在的字符处理(寻找我们应用的数据的前端校验设计是否良好)6.去重处理还有个问题是 例如 房源表在其他系统中是否存在我们想要的数据

ETL工作流程

准备工作
逻辑设计
ETL脚本开发
脚本自测
  • 准备工作-ETL设计-脚本开发-脚本自测

准备工作

1.各城市库整合,按城市分区过程中收集各城市系统存在的数据格式不统一的问题ETL设计-数据格式需求.doc
2.准备好 数据仓库dwd层建表DDL -->销售主题域DW层定版-20191119.xlsx其中包含维度表、事实表的数据字典、修改日志、字段的ddl 构成语句数据仓库数据字典0802.xlsx为源系统的数据字典
3.审核确定事实维度表的加载策略,变更内容、变更记录
4.清洗规则说明.doc
5.脚本规范说明
6.脚本模版说明

ETL开发上线包

主要任务介绍上线包文件组成

ETL开发模版统一和规范

  • 统一出事和周期开发脚本模版
  • 统一数据处理变更脚本模版
  • 统一应用开发脚本模版
  • 统一Sql 文件脚本模版
  • 统一ETL逻辑设计文档模版
  • 规范类型转换
  • 规范脚本测试和自测
  • 规范自动调度系统配置

ETL设计

  • 主要任务:
    完成ETL过程设计
    (数据整合、转换、清洗、数据勘查的设计)

    • 输出:
      数据缺失异常值校验.xlsx
      ETL映射表.xlsx
      ETL实施方案.xlsx
    • 此表中包含
      ods层到dwd 或者中间表的 映射
      ETL工作者归属
      每个表的清洗、整合逻辑记录在此表

ETL开发

  • 主要任务:
    根据ETL设计的逻辑开发脚本

    • 输入:
      数据仓库数据字典0802.xlsx
      ETL映射表.xlsx
      ETL实施方案.xlsx
      销售主题域DW层定版-20191119.xlsx
    • 输出:
      初始化/周期/数据处理/代码表/sql脚本/mapreduceJob/sparkJob

ETL测试

自动调度系统配置

待完善

ETL开发流程小记(1)相关推荐

  1. python接外包项目_微信外包项目,接口开发流程小记

    近期帮朋友做了几个用到微信公众号接口的活,所以总结下. 一.微信公众号后台配置 公众号分订阅号,服务号,企业号,可以调用的接口权限各不相同,这里就不赘述,参考官方说明. 登陆公众号后台,有接口权限,做 ...

  2. 微信外包项目,接口开发流程小记

    近期帮朋友做了几个用到微信公众号接口的活,所以总结下. 一.微信公众号后台配置 公众号分订阅号,服务号,企业号,可以调用的接口权限各不相同,这里就不赘述,参考官方说明. 登陆公众号后台,有接口权限,做 ...

  3. ETL工具Informatica开发流程 综合应用 电信通话计费系统开发项目案例10

    一.准备数据源 在Oracle数据库中创建 OLTP用户导入源数据 oracle_oltp_data.sql 在Mysql数据库中创建表,插入产品相关数据 mysql_product_data.sql ...

  4. BI开发流程和ETL介绍

    BI开发流程和ETL介绍 BI开发过程 1.       构建维度-事实模型 2.       根据维度-事实模型搭建数据仓库(维度.事实) 3.       数据抽取(ETL) 4.       构 ...

  5. Informatica保障江苏电信规范化ETL开发

    文章讲的是 Informatica保障江苏电信规范化ETL开发, Informatica产品帮助江苏电信构建起一个统一集中管理ETL平台,管理人员不需再维护EDA中多个系统的不同ETL平台,大大节约了 ...

  6. 3000字梳理大数据开发流程及规范(建议收藏)

    在大数据时代,规范地进行数据资产管理已成为推动互联网.大数据.人工智能和实体经济深度融合的必要条件.贴近业务属性.兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作.而 ...

  7. java etl 简单实例_东方通ETL开发实例

    东方通ETL开发实例 下面通过一个简单的"Oracle CDC增量抽取"实例,带大家感受一下TIETL的 开发思路和强大的数据处理能力. 功能需求: 同一数据库(localhost ...

  8. 第一天来到新公司的volg (ETL开发工程师)

    第一天来到新公司的volg (ETL开发工程师) 新的改变 首先自我介绍一下,我是一名刚刚大学毕业的程序猿,在大学完了两年,到最后大三一年才开始认真的去学习编程的各种知识,开源框架,看视频代码.现在是 ...

  9. Hadoop 开发流程

    今天来介绍一下大数据的开发流程,虽然是大数据,其实针对于数据开发大数据和传统的关系型数据开发流程是有类似之处的,无非就是存储的方式以及处理数据的方式上有不同之处而已. 1.数据采集:也可以说是原始数据 ...

最新文章

  1. js获取网页的各种高度
  2. 结构体排序二~1339: 考试排名(带技巧的输入)
  3. 用户暴增下的收入降低,AWS面临尴尬
  4. Python IO 基本编程示例
  5. Hbase导入、导出数据到本地文件
  6. python基础语法实验报告小结_Python基础小结
  7. Lesson 1 Hello World
  8. mdadm命令参数详解
  9. 2020软件设计师考试大纲
  10. python识图训练_使用tensorflow训练模式识别图片中的对象(object-detection)
  11. PWmat案例赏析:计算精度高、速度快的第一性原理计算,研究表面终端结构对NV色心影响
  12. 中级会计 科学计算机,听说中级会计机考系统计算器你还不会使用?还不快点关注...
  13. VFP下打印机的设置编程
  14. Android 实现一个计时器
  15. 实现图书馆检索图书功能
  16. java中的高内聚和低耦合和接口的简单理解
  17. Python基础刻意练习:魔方方法
  18. 使用NoneBot2可视化平台搭建QQ聊天机器人:本地和云部署教程
  19. 黑马程序员————IO流2(day19)
  20. cent os通过ssh安装图形桌面

热门文章

  1. crm虚拟服务器搭建,搭建CRM服务器
  2. Java自学视频整理(持续更新中...)
  3. 手把手讲解超详细python入门游戏项目‘打外星飞船’(一)
  4. 如何用Python对股票数据进行LSTM神经网络和XGboost机器学习预测分析(附源码和详细步骤),学会的小伙伴们说不定就成为炒股专家一夜暴富了
  5. 计算机中丢失cv110,msvcp110.dll一键修复
  6. 自定义报表工具的一些实践
  7. php常规笔试题(二)
  8. JSch简介以及jsch实现文件上传下载
  9. 电脑文件软件搬家迁移十大工具
  10. 弘辽科技:小伙退伍网上创业卖特产,教你免费如何开淘宝网店