主题域的划分

由于数据仓库跨部门,所以必然存在某些数据关系密切,而某些数据相互比较独立。于是相关的一组数据往往被划成一个个主题域。主题域是为了更好地组织数据仓库。

我们以一个普通的买卖为例,这里的主题域可以划分为:卖家(商家)、买家(客户)、商品、交易、营销等。每个域下面还可以根据业务的复杂程度设置自己的子域,例如交易域下还可以设置正向交易、逆向交易(退款)。

主题域和维度的迷惑

主题域和维度经常容易被混淆。一个主题域只会在它的主题范围内获得所需要的数据,而不会从其他域中获取。

举个例子,当我们要考察某个商品的销售数量时,它需要从交易域获取数据。因此商品销量并不属于商品域,而是交易域的数据。

商品是一个 维度,那么商品域的数据长什么样呢?例如,在售商品数是属于商品域的,它不需要考察交易的情况。

任务的组织方式

任务是组成工作流的最小单位,也是完成一次 数据流转 的最小开发单位,同时也是调度任务进行失败重试的最小单位。

熟悉Informatica的小伙伴可以把它看成mapping。一个表的导入是一个任务,一段带insert操作的Hive SQL也是一个任务。

应当尽可能做到一个任务只操作一张表。反之,一张表也只由一个任务进行写操作。也就是任务和表一一对应。多个任务操作一张表容易造成写入顺序不清晰,追加和覆盖不清晰,重跑任务易漏等风险。一个任务操作多张表则在并行度上就已经显示出劣势了,同时还存在耦合度高、失败重跑成本高等一系列问题。

单个任务的运行时间可以从几分钟到几百分钟不等,但基于失败重试的成本考虑,应当尽可能将单个任务的运行时间控制在1小时之内,30分钟之内是比较理想的单任务运行时间。

最后,在任务的命名上,强烈建议任务名中包含所操作的表名

工作流的组织方式

工作流是指具有相关性,并且组织在一起调度的一组任务。有了主题域,那么将同一主题同一调度周期的任务组织成一个工作流就显得很自然了。工作流可以类比为Informatica中的workflow。

一个值得考虑的问题是:在同一主题同一调度周期的情况下,落地层的导表任务和依赖它的ETL任务是否应该分工作流组织?我们的建议是分工作流组织。首先,这会让数据仓库的分层更清晰;其次,正如前面所提到的,大数据平台下的数据仓库已经不仅仅是为了BI分析所使用。那么如果我们有大量的导表任务,且并不一定会在后续的ETL中被使用的话,不拆分工作流将会使整个ETL工作流变得臃肿。

工作流的命名可以分为三类:导表类、后续ETL类和各粒度聚合类。同一类工作流除了表示主题域的关键字不同以外,应当有相同的命名格式。

例如导表类工作流叫xxx_loading_stg或者stg_xxx,ETL类工作流叫dws_xxx,聚合类工作流叫dwa_xxx等等。

大数据环境下数据仓库的实践(四)—— 主题域的划分及任务和工作流的组织方式相关推荐

  1. 大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

    导读: 整体架构 数据采集 数据存储与分析 数据共享 数据应用 实时计算 任务调度与监控 元数据管理 总结 一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧.我一直是在互联网行业,就以互联网行业 ...

  2. 【知识图谱】大数据环境下知识工程的机遇和挑战

    导读:知识图谱已经成为推动人工智能发展的核心驱动力之一.本文选自清华大学计算机科学与技术系教授.清华-青岛数据科学研究院科技大数据研究中心主任李涓子老师于2017年12月20日在阿里联合中文信息学会语 ...

  3. 机器智能加速器:大数据环境下知识工程的机遇和挑战 | 清华李涓子教授

    导读:知识图谱已经成为推动人工智能发展的核心驱动力之一.本文选自清华大学计算机科学与技术系教授.清华-青岛数据科学研究院科技大数据研究中心主任李涓子老师于2017年12月20日在阿里联合中文信息学会语 ...

  4. 李涓子 | 机器智能加速器:大数据环境下知识工程的机遇和挑战

    本文转载自公众号:数据派THU. 导读:知识图谱已经成为推动人工智能发展的核心驱动力之一.本文选自清华大学计算机科学与技术系教授.清华-青岛数据科学研究院科技大数据研究中心主任李涓子老师于2017年1 ...

  5. 大数据环境下数据科学的知识体系

    数据科学概论 随着互联网的飞速发展,大数据(Big Data)的概念和技术成为当下流行的领域. 数据科学(Data Science)这一体系也随着大数据的崛起成为讨论热点.在各大招聘网站上," ...

  6. 如何保障大数据环境下的数据安全

    大数据正在为安全分析提供新的可能性,对海量数据的分析有助于更好地跟踪网络异常行为,对实时安全和应用数据结合在一起的数据进行预防性分析,可防止诈骗和黑客入侵.网络攻击行为总会留下蛛丝马迹,这些痕迹都以数 ...

  7. 大数据环境下的多维分析技术

    引言 之前我们有一篇文章<一文读懂多维分析技术(OLAP)的进化过程>为大家介绍了多维分析技术(即联机分析处理(On-Line Analytical Processing),简称OLAP) ...

  8. 大数据环境下的地税预算执行审计

    看起来纷繁复杂的海量数据资料,通过分析,可以发现很多有用的信息,可以告诉我们很多隐藏在数字背后的秘密,并有效提高决策的准确性.淘宝根据购物记录可以推荐买家可能会喜欢的商品,餐厅根据用餐记录可以推荐消费 ...

  9. 大数据环境下中国网络剧商业模式新特征

    摘要:近年来,网络剧作为传统媒体和新媒体融合发展的产物,在市场及政策的双重支持与驱动下,逐渐成为"互联网+"大潮中的佼佼者.依托互联网平台,网络剧发挥其投资少.周期短.见效快.效益 ...

最新文章

  1. Opencv卷积滤波cvFilter2D-高通与低通
  2. CS231n 学习笔记(1)——神经网络 part1 :图像分类与数据驱动方法
  3. 全网最详细SpringBatch读(Reader)混合文件讲解
  4. C# 3.0 扩展方法
  5. Android之AIDL服务
  6. comcerter无法识别串口_基于FPGA 的MXN维字符识别的实现
  7. SVG_text.动态创建换行显示(横)
  8. des 向量 java_在JAVA中使用DES算法
  9. 关于电商网站购物车功能如何与登录账号相关联的一点想法
  10. oracle sql的正则表达式,Oracle SQL 语句中正则表达式的应用
  11. 华为机试HJ40:统计字符
  12. Nginx启动报[10013]错误
  13. 日本现代数学发展历程及其启示
  14. 感受吴军博士的见识(一)
  15. 【转自Testerhome】iOS 真机如何安装 WebDriverAgent
  16. python socket
  17. 国内首家专注影视文化产业的数藏平台“神缘”即将上线
  18. macOS_Monterey_12.6.1_21G217可引导可虚拟机安装的纯净版苹果OS系统ISO镜像安装包免费下载
  19. excel文件损坏修复绝招_优盘显示文件或目录已损坏,无法读取,怎么办?!
  20. 关机时候计算机更新,电脑关机时提示更新,能否强制关机?

热门文章

  1. excel表格的上传和下载
  2. ICCV 2021 | 视觉Transformer中的相对位置编码
  3. 最新版 苹果 IOS AppStore证书申请全流程 包括p12文件
  4. Java提供的进制转换
  5. Python脚本25:将两张图片拼在一起
  6. CSS系列之详解overflow
  7. 1.MySQL数据库 2.SQL语句
  8. 正交设计——实战【转】
  9. Linux 4.15亮点特性
  10. git报错 git libpng warning: iCCP以及fatal: Authentication failed for ‘https://git.weixin.qq.com‘