为什么会有域的概念呢?

首先来看看数据仓库的定义吧,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

主题域已经体现出来了

主题域用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分至不同的主题域。

当然,还有另外一种说法。

数据仓库是面向主题(数据综合、归类并进行分析利用的抽象)的应用。数据仓库模型设计除横向的分层外,通常也需要根据业务情况进行纵向划分数据域。数据域是联系较为紧密的数据主题的集合,通常是根据业务类别、数据来源、数据用途等多个维度,对企业的业务数据进行的区域划分,将同类型数据存放在一起,便于快速查找需要的内容。不同使用目的数据,分类标准不同。例如,电商行业通常分为交易域、会员域、商品域等。

数据域划分原则:全局性、可理解性和数量适中。

主题域

主题域通常是 联系较为紧密的数据 主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。

主题域、主题、实体间关系

主题设计是对主题域进一步分解,细化的过程。主题域下面可以有多个主题,主题还可以划分成更多的子主题,而实体则是不可划分的最小单位。主题域、主题、实体的关系如下图所示:

可以显而易见的看出,主题域是一个更大的概念,主题是略次之,实体最小,这里的实体表示的是实体对象(对应企业中某一宏观分析领域所涉及的分析对象)。

主题域划分

主题域是对某个主题进行分析后确定的主题的边界。分析主题域,确定要装载到数据仓库的主题是信息打包技术的第一步。而在进行数据仓库设计时,一般是一次先建立一个主题或企业全部主题中的一部分,因此在大多数数据仓库的设计过程中都有一个主题域的选择过程。

确定主题边界实际上需要进一步理解业务关系,因此在确定整个分析主题后,还需要对这些主题进行初步的细化才便于获取每一个主题应该具有的边界。对于四个主题及其在企业中的业务关系可以确定边界。

主题的使用

由于数据仓库的设计是一个螺旋发展的过程。在刚开始,没有必要在数据仓库的数据库中体现所有的主题,选择最重要的主题作为数据仓库设计的试金石是很有必要的。因此使用主题首先是找到需要分析的主题域。

例如在 AdventureWorks DW 数据仓库的概念模型设计中,在对需求进行分析后,认识到“商品”主题既是一个销售型企业最基本的业务对象,又是进行决策分析的最主要领域,因而把“销售分析”主题域定义为要首先建立的主题。通过“商品”主题的建立,经营者就可以对整个企业的经营状况有较全面的了解。先实施“商品”主题可以尽快地满足企业管理人员建立数据仓库的最初要求,所以先选定“商品”主题进行实施。

通过将主题边界的划分应用到已经得到的关系模型上还能形成原始的概念模型。这一模型是把主题域的划分和事务处理数据库中的表结合起来的模型,例如在上面的例子中,商品主题可能涵盖的关系表有商品表、供应关系表、购买关系表和仓储关系表;仓库主题可能涵盖的关系表有仓库关系表、仓库表、仓库管理关系表和管理员表。

数据域

数据域是指面向业务分析,将业务过程或者维度进行抽象的集合。为保障整个体系的生命力,数据域需要抽象提炼,并长期维护更新。

在划分数据域时,既能涵盖当前所有的业务需求,又能让新业务在进入时可以被包含进已有的数据域或扩展新的数据域。数据域的划分工作可以在业务调研之后进行,需要分析各个业务模块中有哪些业务活动。

数据域是 CDM 层的顶层划分,是对企业业务的抽象提炼,面向业务分析,包含当前所有业务需求,也便于未来扩展。

数据域的使用

数据域可以按照用户企业的部门划分,也可以按照业务过程或者业务板块中的功能模块进行划分。例如在线教育公司可以划分为如下数据域,数据域中每一部分都是实际业务过程经过归纳抽象之后得出的。

数据域和主题域到底有什么区别呢?

主题域是针对数据集市提出的概念,数据集市是面向主题,从业务驱动进行分析场景的建设。

数据域是阿里数据中台 CDM 层建设中提出的,是数据驱动业务,是对数据的分类,更好的数据赋能业务。

总结

数据域是对数据的分类,主题域和业务域是对业务的分类。

主题域和数据域最终都是对数据的分类,只是一个是数据视角,一个是业务视角。

根本的目的是:统一规则,方便管理,容易理解,有利于开发效率,有利于快速服务业务场景就可以了。

Tips

个人建议,在 DWD 层可以按照数据域进行分类,DWS 层可以按照主题域划分,ADS 层可以按照分析主题域(业务场景)划分。

数据域划分几点需要注意的地方

1.不重不漏,确保每个表都在一个域里,且只在一个域里(精确定位)

2.每个域下都可以根据需要再分子域,不限定层级(最自由方便)

3.如果分子域就不能放表,表只放在最底层的域中(树状目录管理时更方便)

4.最好保证每个域下的子域数量或表数量在20个左右(太多了不方便记忆管理,太少了没必要划分)

5.【其他】很好用,不好划分的都放里面(减少域层级数量有理由理解记忆)

6.数据团队分域可以作为分工的标准(数据不重、分工明确、界限清晰)

7.数据团队分域后,可以决定域内表的中间命名(看到表名时可以理解更多信息)

干货直达

数仓建设:数据域和主题域是什么关系?相关推荐

  1. 「数仓面试」如何确定主题域?

    作者:一哥 来源:数据社 全文共1759个字,建议7分钟阅读 大家好,我是一哥,前几天跟一个朋友聊了一些数据中台建设的内容,针对数据仓库中主题域如何划分这个话题聊了很多.其实数据仓库建设的理论大家已经 ...

  2. 大数据架构详解_【数据如何驱动增长】(3)大数据背景下的数仓建设 amp; 数据分层架构设计...

    背景 了解数据仓库.数据流架构的搭建原理对于合格的数据分析师或者数据科学家来说是一项必不可少的能力.它不仅能够帮助分析人员更高效的开展分析任务,帮助公司或者业务线搭建一套高效的数据处理架构,更是能够从 ...

  3. 一文读懂数仓建设和数据治理

    点击上方 "大数据肌肉猿"关注, 星标一起成长 点击下方链接,进入高质量学习交流群 今日更新| 950个转型案例分享-大数据交流群 本文分为两大节介绍,第一节是数仓建设,第二节是数 ...

  4. 1W字概括数仓建设和数据治理

    点击上方 "大数据肌肉猿"关注, 星标一起成长 后台回复[加群],进入高质量学习交流群 2021年大数据肌肉猿公众号奖励制度 本文分为两大节介绍,第一节是数仓建设,第二节是数据治理 ...

  5. 关于数仓建设及数据治理的超全概括

    进入主页,点击右上角"设为星标" 比别人更快接收好文章 本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读! 在谈数仓之前,先来看下面几个问题: 数仓为 ...

  6. 聊聊数据域和主题域的区别

    大家好,我是大D. 这篇文章跟大家一起聊下数仓中比较容易混淆的两个概念--数据域.主题域.有的公司对二者的界限并不明显,都统一称为数据域或者主题域:也有的公司两者是区分开使用的,那么数据域和主题域有什 ...

  7. 离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾

    原文链接:离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾 视频回顾:点击这里 课件获取:点击这里 一.离线数仓建设背景 离线数据是相对实时数据而言的数据产出,不同于实时数据,离线数据一般 ...

  8. 《美团数据平台及数仓建设实践》(209页).PDF

    7份有关数据化建设的资料都整理好了,包括数据仓库.数据中台.数据仓库等等,有需要的私信:"美团"领取 1.美团数据平台及数仓建设实践.PDF下载 美团技术团队的博客质量非常高,里面 ...

  9. 美团 数据实时化是广告行业数仓建设的主流趋势

    内容摘要 数据实时化是数仓建设的趋势,相对于离线数仓,实时数仓能够给管理者.业务分析人员提供反应业务变化的实时数据,监控收入等关键指标的波动,及时根据市场热点变化调整运营策略,通过实时算法决策,提供更 ...

最新文章

  1. Sharepoint COMException 0x81020037
  2. nnFormer (Not-aNother transFORMER): 基于交叉Transformer结构的3D医疗影像分割网络
  3. 算到怀疑人生!如何用并查集解决朋友圈个数问题?
  4. form表单提交和重置小结
  5. 火力发电行业三大知识图谱应用场景,助力火力发电厂清洁高效智慧化运营
  6. 紫光拼音输入法6.7.0.9 论坛测试版发布
  7. 京东用户行为数据分析——以Python为主要工具
  8. 自定义一个python日志类
  9. 短信宝发送短信验证码
  10. 小白的proxmox ve(pve)打造AIO(all in boom)折腾日记 (二)装机篇(爱国者m2装机不完全教程)
  11. 关于“小于/等于/大于”的英文缩写
  12. Python爬虫练习-查询lol隐藏分
  13. TX Text Control文字处理教程(4)标记文本域
  14. 极客日报第 73 期:Twitter 正谈判收购印度初创公司 ShareChat:欲打造 TikTok 竞品;华为 Mate X2 正式发布,17999 元起;爱奇艺员工10万“买”了个北京
  15. Flutter 启动外部浏览器
  16. Python集合—数据比较方式
  17. 超简单的魔幻霓虹灯文字特效 html+css
  18. 阿里巴巴 Java开发手册
  19. 【C++】memset函数
  20. 【c++】Scons|scons对比make

热门文章

  1. 血糖仪标准误差是多少?如何减少误差?
  2. Python中Json对象处理的jsonpath-rw
  3. javaweb学习,快速入门
  4. SourceInsight 4重启之后文件变只读无法编辑
  5. 习惯五 知彼解己---移情沟通的原则
  6. springBoot+mybatisPlus+springMvc+activiti6整合 Eclipse
  7. java泛型? extends Fruit 和? super Fruit的理解和区别
  8. PTA 快速排序(java/c++)
  9. 讽刺c语言,鲁迅先生评价《儒林外史》“婉而多讽”,达到我国古典小说讽刺艺术的高峰。请从小贴士中选择一项,结合作品具体内,赏析《儒林外史》的讽刺艺术:...
  10. LIDC肺结节的下载