作者:By Gilad David Maayan

翻译:王雨桐

校对:丁楠雅

本文约1600字,建议阅读10分钟

本文从基本定义入手分析数据集市和数据仓库的差异,并分析了各自的适用情况。

当一家企业开始应用商业智能(Business Intelligence,BI)的战略和技术时,首先需要明确数据集市和数据仓库的区别。理解这种差异将决定你采用何种BI架构和数据驱动决策。

商业智能的目标是运用技术将数据转化为可执行的想法,并帮助终端用户在信息更完备的情况下做出商业决定,不论是理论战略还是实际战略。在阐述各自的实例和结构特点前,本文将先对各自的重要概念进行定义。

数据集市定义

数据集市是一个面向主题的数据存储库,其服务于特定的业务领域,如金融或销售。以下是数据集市的一些重要的典型特征。

  • 仅包含与特定业务或功能单元相关的源数据。

  • 数据集市的规模通常是几十GB的数量级。

  • 通常只保存汇总数据,一些数据集市可能会包含完整的细节。

  • 数据集市的搭建要花费不少于一万美元,以及3-6个月的时间。

  • 基于数据集市工具得到的决策是影响特定部门运营方式的战术决策。

 

数据仓库定义

数据仓库是用于一个企业内的存储库,包含来自不同业务、系统和部门的集成数据。关于数据仓库类型,请参照如下文章。

附链接:

https://blog.panoply.io/i-choose-you-criteria-for-selecting-a-data-warehouse-platform

以下是数据仓库的特征:

  • 包含来自业务中的多个单元/主题区域的数据。

  • 数据仓库的大小通常为TB量级,至少也要超过100GB。

  • 存储的详细信息级别很高,包括原始数据、汇总数据和元数据。

  • 然而,搭建内部系统的成本通常要超过10万美元,而随着数据仓库服务的普及,云计算模式降低了成本。

  • 特定工具的业务用户想通过数据仓库信息来做出更明智的战略业务决策,这会影响整个公司。


经典的Inmon 和 Kimball争论

区分数据集市和数据仓库是非常重要的,这源于数据仓库先驱Bill Inmon和Ralph Kimball提出的两种截然不同的数据建模方法之间的争论。

Ralph Kimball认为,最好的方法是从最重要的业务方面或部门入手,从这些方面可以产生面向特定业务线的数据集市。随着时间的推移,企业可以根据需要合并其数据集市以形成数据仓库。Kimball的方法被称为自下而上(bottom-up)。

Bill Inmon认为仅仅将数据集市结合起来是不够的。他提倡创建数据仓库,作为企业数据模型的物理表示,可以根据需要为特定的业务单元创建数据集市。

每种方法都有各自的优点,许多因素会影响你的决定。应该从数据集市入手,还是从数据仓库入手,要基于你从事的行业考虑。

例如,保险公司显然需要从一开始就有一个高层次的概述,包括所有影响其业务模型和战略选择的因素,包括人口统计数据、股票市场趋势、索赔历史、统计概率等,因此采用Inmon方法并从数据仓库开始是最有意义的。

对于中小型营销企业来说,从数据集市入手更合适。如果该业务扩展,未来会包括多个子部门和业务线,可以在以后将每个业务线的数据集市合并到数据仓库中,就像Kimball方法一样。

结构化细节

大多数数据库都是规范化的,这样优化可以使事务处理的速度更快,比如添加或删除数据。规范化的工作方式是重新组织数据,使其不包含冗余数据,并将相关数据分离到表中,在指定关系的表之间使用连接。

数据仓库/市场通常使用非规范化的数据结构,其中管理员通过向规范化数据添加冗余数据来减少分析查询的运行时间,从而提高查询性能。

一个重要的概念是提取、转换和加载(ETL)。ETL从多个数据源提取数据,基于特定的规则对数据进行转换以满足业务需求,最后将数据加载(写入)到目标系统中。

如果从数据仓库入手,通常使用ETL将数据直接从源系统获取到数据仓库,然后根据需要从数据仓库获取到数据集市。如果采用Kimball方法并从数据集市入手,只需将相关源系统中的数据写入适当的数据集市,然后再执行ETL过程,以便从数据集市创建数据仓库。

小结

由于时间限制和资源限制,除了最成熟的企业之外,所有企业都应该从数据集市开始,并随着时间的推移逐步开发数据仓库。然而,云计算缩短了时间并降低了构建企业数据仓库的成本,企业数据仓库可以提供对组织数据的单一视图的访问。

原文标题:

The Difference Between a Data Mart and a Data Warehouse

原文链接:

http://www.dataversity.net/difference-data-mart-data-warehouse/

译者简介

王雨桐,UIUC统计学在读硕士,本科统计专业,目前专注于Coding技能的提升。理论到应用的转换中,敬畏数据,持续进化。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

点击“阅读原文”拥抱组织

独家 | 一文盘点数据集市和数据仓库的差异(附链接)相关推荐

  1. 独家 | 一文盘点数据行业的动态演变(附链接)

    作者:Deepesh Nair 翻译:王雨桐 校对:丁楠雅 本文约5800字,建议阅读15分钟. 本文从多个角度盘点数据行业近年来的变化,并对当前数据行业现状进行了分析和评价. 近年来,数据行业不断涌 ...

  2. 独家 | OpenCV1.12 对极几何和立体视觉简介(附链接)

    作者:Kaustubh Sadekar 翻译:黄瑞迪 校对:张玲本文约6500字,建议阅读15分钟本文将使用OpenCV和立体视觉来赋予计算机这种深度知觉能力. 你是否曾经好奇过,为什么你带上特制的3 ...

  3. 独家 | 全面!手把手教你决策树可视化(附链接代码)

    作者: Terence Parr, Prince Grover 翻译:王雨桐 校对:詹好 本文长度约为9500字,建议阅读10+分钟 本文分析了决策树可视化中的关键因素,比较了现有的可视化工具.并通过 ...

  4. 独家 | 一文盘点AutoML 库(附PPT等链接)

    作者:Xu LIANG 翻译:王雨桐 校对:王威力 本文长度约为1300字,建议阅读5分钟 本文是Masashi Shibata针对AutoML演讲中的摘要. 自动化程度 Jeff Dean在ICML ...

  5. 独家 | 一文盘点AutoML 库

    作者:Xu LIANG 翻译:王雨桐 校对:王威力 本文长度约为1300字,建议阅读5分钟 本文是Masashi Shibata针对AutoML演讲中的摘要. 自动化程度 Jeff Dean在ICML ...

  6. 独家 | 一文读懂PySpark数据框(附实例)

    作者:Kislay Keshari 翻译:季洋 校对:倪骁然 本文约1900字,建议阅读8分钟. 本文中我们将探讨数据框的概念,以及它们如何与PySpark一起帮助数据分析员来解读大数据集. 数据框是 ...

  7. 独家 | 一文读懂自然语言处理NLP(附学习资料)

    前言 自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科.在此领域中探讨如何处理及运用自然语言. 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起.基于统计的自然语 ...

  8. 独家 | 一文读懂社交网络分析-上(附学习资源)

    本文主要阐述: 社交网络的结构特性与演化机理 社交网络群体行为形成与互动规律 社交网络信息传播与演化机理 浏览后四章的内容请见下篇(2017年9月26日二条). 前言 社交网络在维基百科的定义是&qu ...

  9. 一文盘点三大顶级Python库(附代码)

    来源:开源最前线 本文约1500字,建议阅读5分钟. 本文为你分享最受数据科学青睐的3个顶级的Python库. Python在许多方面有着强大的吸引力 - 例如效率.代码可读性和速度方面,也正因为如此 ...

最新文章

  1. Oracle简单脚本演示样例
  2. webview重新加载(reload)或者发起 redirect request导致js和objc代码之间的bridge失联解决方案(亲测有效)...
  3. ⑧javaWeb之在例子中学习(过滤器Filter)
  4. 0320互联网新闻 | 网易《明日之后》全球营收突破1.25亿美元;阿里AI labs宣布投入1亿元进行方言保护...
  5. php的range函数
  6. 期待已久!iPhone 13将使用带LTPO技术的OLED屏幕
  7. java命令行参数args_Args4J (Java 命令行参数控制开源项目) 使用指南
  8. 随机对偶动态规划 SDDP,报童模型的一个 python 例子
  9. Vue使用emoji表情包
  10. 使用Markdown如何修改图片大小
  11. wps使用endnote报告参数错误
  12. 首位华人女数学家获拉马努金奖!北大数院校友,陶哲轩恽之玮曾得过此奖
  13. 图计算的黄金时代 知识图谱背后的数据价值
  14. 教资科目二重点简答题总结
  15. 谈一谈Java中的“静态”
  16. 模式识别c语言isodata算法,《模式识别-黄庆明》第二章(ISODATA算法实例).doc
  17. iphone到android手机通讯录,苹果手机通讯录怎么导入到新手机
  18. 软件测试(基础知识)
  19. 用Tera Term取代Windows上的超级终端
  20. ntp服务器udp协议,windows2003 2008 2012 2016 2019封UDP协议服务器自动同步时间

热门文章

  1. 机器学习中目标函数、损失函数、代价函数之间的区别和联系
  2. Maven中的profile和spring boot中的profile进行结合
  3. 学习笔记:cache 和spring cache 技术(1)
  4. JDeveloper开发环境设置
  5. 关于JAVA的String类的一些方法
  6. sqlalchemy(一)基本操作
  7. Android 侧划菜单
  8. java排序——桶排序
  9. 【转】二层交换机之间的跨网段访问
  10. 关于ADAM中自定义Class Schema后不能创建该Class的实例的问题