作者:一哥 来源:数据社

全文共1759个字,建议7分钟阅读

大家好,我是一哥,前几天跟一个朋友聊了一些数据中台建设的内容,针对数据仓库中主题域如何划分这个话题聊了很多。其实数据仓库建设的理论大家已经都知道了不少,也看过不少书,那么在实际建设数据仓库中,我们还是会遇到各种问题。

前段时间招人,面试了几个简历上都写了有3年以上数仓开发的,当我问他“如何确定主题域?”,他却说“我来公司的时候已经都搞好了……”,再问他“如果进入一个新领域,从0到1搭建数仓,怎么确定主题域呢?” 他就蒙了……

今天一哥带你一起聊聊主题域如何划分?

01

什么是主题

主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

简单说,一个主题对应一个分析对象。分析对象就是在决策、分析时重点关注的东西,这个东西其实是非常主观的,在不同的企业,或者企业的不同发展时期,所关注的点会不一样,从而影响有些主题可能存在或者不存在。

数据仓库是面向主题的应用,主要功能是将数据综合、归类并进行分析利用。数据仓库模型设计除横向的分层外,通常还需要根据业务情况纵向划分主题域。主题域是业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。

02

如何划分主题

划分主题域方法

在业务调研之后,可以进行主题域的划分。划分主题域,需要分析各个业务模块中有哪些业务活动。通常我们按照以下方法划分主题域,可以按照用户企业的部门划分,也可以按照业务过程或者业务板块中的功能模块划分。

  • 按照系统划分:业务系统有几种,就划分为几类

  • 按业务过程划分:比如业务系统中有商品、交易、物流等

  • 按部门规划:比如公司内的生产、供应链、研发、销售等

目前有些成熟的行业,比如电信、银行,他们也是最早用数据仓库的行业,已经形成了一些规范,可以直接按照规范来就行了。其中IBM金融数据模型数据存储模型FSDM,是金融行业应用极为广泛的数据模型,可以作为我们构建企业级数据仓库主题域模型划分的重要依据。

对于新兴的一些行业,或者业内没有形成标准的话,那么就可以参照上面的几类方法,进行分类,先从边界清晰的系统入手进行建设,形成经验后逐步推到各个系统中。

个人比较推荐通过业务系统来进行一级主题域划分,这样边界就会很明显,数据仓库开发过程中不会因为模型主题的归属“扯皮”,然后根据各个系统中的业务过程划分二级主题域目前我参与过的两个数据仓库建设项目也都是这样搞的。

主题域的核心

为保障整个体系的生命力,主题域需要抽象提炼,并长期维护更新,但不轻易变动。划分数据域时,需满足以下两点:

  • 能涵盖当前所有的业务需求。

  • 能在新业务进入时,无影响地被包含进已有的主题域中和扩展新的主题域。

一次能划分好主题域吗

首先,主题域是无法一次划分完整的,一般是一次先建立几个明确的主题,在大多数数据仓库的设计过程中都有一个主题域的选择过程。业务是一直发展的,因此设计之初不要想着一次把所有主题全部划分完整。我们可以遵循上面说的划分主题域的两个要点,后续采用迭代的方式补充。

03

总结

数据仓库建设是一套方法论,但并不是一个“定理”,可能不会有完全符合你实际公司业务的“公式”,我们需要学习这些方法论,然后结合自己公司实际的业务场景来实现,只要能有序的把数据管控起来,同时又能高效的帮助数据分析,实现业务价值就好了,不必一味的追求“行业标准”。

欢迎加入 数据分析|数仓技术交流群

进群方式:请加微信(微信号:dataclub_bigdata),回复:加群,通过审核会拉你进群。

企业级数据仓库建设最新版(附16页文档)

数据体系的要义:贴源、规范、建模、标签、设计、建设....(82页PPT)

数仓建设OneData体系

Q: 关于大数据,你还想了解什么?

欢迎大家订阅「数据社」内容并推荐给更多数据方向的朋友,希望有更多机会和大家交流。

关注不迷路~ 各种福利、资源定期分享

「数仓面试」如何确定主题域?相关推荐

  1. 从首个「数实融合」公益球场,看元宇宙奏响创新「三重奏」

    作者 | 曾响铃 文 | 响铃说 2022年的元宇宙,一半是海水,一半是火焰. 一边是刮起元宇宙热潮的Roblox股价跌去大半,Meta也因元宇宙亏损深陷泥潭.另一边,经过2021年元宇宙概念落地和普 ...

  2. 数仓面试|四个在工作后才知道的SQL密技

    SQL是大数据从业者的必备技能,大部分的大数据技术框架也都提供了SQL的解决方案.可以说SQL是一种经久不衰.历久弥新的编程语言.尤其是在数仓领域,使用SQL更是家常便饭.本文会分享四个在面试和工作中 ...

  3. sql order by 降序_数仓面试|四个在工作后才知道的SQL密技

    SQL是大数据从业者的必备技能,大部分的大数据技术框架也都提供了SQL的解决方案.可以说SQL是一种经久不衰.历久弥新的编程语言.尤其是在数仓领域,使用SQL更是家常便饭.本文会分享四个在面试和工作中 ...

  4. 大数据/数仓面试灵魂30问

    1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问) 2.如何建设数据中台?可简单说下理解与思路 3.数据仓库.数据中台.数据湖的理解 4.传统数仓的程度(建模工具 ...

  5. 大数据/数仓面试灵魂30问(转)

    1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问) 2.如何建设数据中台?可简单说下理解与思路 3.数据仓库.数据中台.数据湖的理解 4.传统数仓的程度(建模工具 ...

  6. 大数据面试3分钟自我介绍_面试真经 | 大数据/数仓面试灵魂30问(附答案 | 已斩offer)...

    作者:7.7 编辑:紫霞仙子 云神原文: 作者寄语: 最近正好在找工作,看到社区发的面试文章受益匪浅().梳理文章每一个题目后,顺利拿到offer,故总结梳理答疑整理了这篇文章,以表感激,同时希望能帮 ...

  7. 「湖仓一体」释放全量数据价值!巨杉数据库亮相2022沙丘大会

    近日,由数字化研究与知识服务平台沙丘社区主办的2022·沙丘大会成功举办,巨杉数据库受邀出席大会,并在湖仓一体专场进行<湖仓一体释放全量数据价值>的主题演讲. 近日,由数字化研究与知识服务 ...

  8. 字节跳动数仓面试 三道题-JAVA编程+hive窗口

    2020.5.18 面试的小姐姐非常温柔,总共出了三道题,还会引导,我基本上说了思路,但是实现起来有差距,今天整理一下: 题目一:给定一个字符串,找到这个字符串中的第一个只出现一次的字符. 思路: 首 ...

  9. “不挣钱”的小鹏G3中期改款,又一场硬战「数观车市」

    6月19日,小鹏汽车官宣新车小鹏G3i,这也是这家新势力第一款车型G3的中期改款车型,预计将于今年7月发布. G3作为一款紧凑型智能电动SUV,于2018年12月12日正式上市.在2019年取得了1. ...

最新文章

  1. 【原】概率论——第一章第1节
  2. How to find root cause of creation navigation failure
  3. 竞赛奇葩队名,学编程的人都是隐藏的段子手 | 今日最佳
  4. 计算机上的usb设备是什么东西,联接一个USB的线在电脑桌上方便插U盘的东西叫什么?...
  5. Caused by: java.lang.ClassNotFoundException: javax.servlet.jsp.jstl.core.LoopTag
  6. 第五节:一个令人兴奋的ES6新特性:解构赋值
  7. 从Scratch到C++ 从Scratch到python书籍
  8. Docker 镜像优化:减小镜像尺寸
  9. js一键批量打印_前端连接打印机批量打印pdf格式的文件
  10. iOS 数据归档解档
  11. 华为畅享20为什么没有计算机,华为畅享20有没有红外线?华为畅享20有NFC功能吗...
  12. 神经生物学博士就业前景,神经网络硕士就业前景
  13. 【音视频】技术提升2.0
  14. mapbox-gl提升建筑渐变效果(视频)
  15. mysql 编码错误_【分享】MySQl操作系统提示错误编码
  16. 计算机视觉——双目视觉匹配计算视差深度
  17. 计算机网络摩尔定律芯片运算速度,在计算机网络领域的“摩尔定律”,芯片的运算速度每48个月翻一番...
  18. git extensions 设置成中文
  19. “有源传感器”和“无源传感器”
  20. 计算机启动报警,电脑开机报警怎么办 电脑开机报警声类型总结

热门文章

  1. [VN2020 公开赛]TimeTravel(guzzlehttp/guzzle使用以及HTTPOXY漏洞)
  2. Easyx-----c语言实现斗地主
  3. 仿迅雷播放器教程 -- 总结(14)
  4. RK3568平台开发系列讲解(音频篇)Android音量控制流程
  5. linux的shell进化简史
  6. sqlserver连接池Min Pool Size
  7. USB转422_485_TTL驱动
  8. 南瓜科学好奇盒子上新 打造新时代玩具总动员
  9. Android 手机GPRS 上网和彩信设置教程
  10. 二重积分转换成极坐标_二重积分转换公式注意将直角坐标系的二重积分化为极坐标.PPT...