1. 什么是数仓

1.1. 基本概念

英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环 境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。

数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放 给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因

1.2. 主要特征

数据仓库是面向主题的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volatile)和时 变的(Time-Variant )数据集合,用以支持管理决策

1.2.1. 面向主题

传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库 则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析 利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

操作型处理(传统数据)对数据的划分并不适用于决策分析。而基于主题组织的数据则不同,它们被划 分为各自独立的领域,每个领域有各自的逻辑内涵但互不交叉,在抽象层次上对数据进行完整、一致和 准确的描述。一些主题相关的数据通常分布在多个操作型系统中。

1.2.2. 集成性

通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保 证了数据仓库内的数据关于整个企业的一致性。

数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过 统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:

  1. 要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。
  2. 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是 在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

下图说明一个保险公司综合数据的简单处理过程,其中数据仓库中与“保险” 主题有关的数据来自于多个不同的操作型系统。这些系统内部数据的命名可能不同,数据格式也可能不同。把不同来源的数据存储到数据仓库之前,需要去除这些不一致。

1.2.3. 非易失性(不可更新性)

操作型数据库主要服务于日常的业务操作,使得数据库需要不断地对数据实时更新,以便迅速获得当前 最新数据,不至于影响正常的业务运作。在数据仓库中只要保存过去的业务数据,不需要每一笔业务都 实时更新数据仓库,而是根据商业需要每隔一段时间把一批较新的数据导入数据仓库。

数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及 基于这些快照进行统计、综合和重组的导出数据。

数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘, 一旦数据进入数据仓库以
后,一般情况下被较长时间保留。数据仓库中一般有大量的查询操作,但修改 和删除操作很少。因此,数据经加工和集成进入数据仓库后是极少更新的,通常只需要定期的加载和更 新。

1.2.4. 时变性

数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年 份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数 据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情 况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。 从这个角度讲,数据仓库建设是一个项目,更是一个过程 。数据仓库的数据随时间的变化表现在以下 几个方面。

  1. 数据仓库的数据时限一般要远远长于操作型数据的数据时限。
  2. 操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。
  3. 数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。

大数据-数据仓库的概念相关推荐

  1. 从0开始学大数据-数据仓库建模

    为什么要数据仓库建模 数据模型是数据组织和存储方法,它强调从业务.数据存取和使用角度合理存储数据.有了适合业务和基础数据存储环境的模型,那么大数据就能获得以下好处: 性能:良好的数据模型能帮助我们快速 ...

  2. 大数据数据仓库建设方案

    大数据数据仓库建设方案 互联网行业,除了数据量大之外,业务时效性要求也很高,甚至很多是要求实时的,另外,互联网行业的业务变化非常快,不可能像传统行业一样,可以使用自顶向下的方法建立数据仓库,一劳永逸, ...

  3. 数据中台和大数据数据仓库的区别

    看了很多数据中台的介绍,感觉和传统数仓有一些区别,但是和大数据数据仓库的几乎无区别. (1)从用途上看:都是为了,数据分析,数据挖掘,AI,数据可视化等等 (2)从存储上看:都是解决大数据量的问题 ( ...

  4. 《大数据管理概论》一2.2 大数据融合的概念

    本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.2节,作者 孟小峰,更多章节内容可以访问云栖社区"华章计算机"公众号查看 2.2 大数据融合的概念 众所周 ...

  5. 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

    作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...

  6. 万字详解大数据架构新概念

    随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性. ...

  7. 大数据数据仓库 Hive (三)

    大数据技术之Hive 一 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据 ...

  8. 大数据--数据仓库1--电商数据仓库项目最全总结1

    目录 一:项目来源: 二:数据仓库概念 2.1 业务数据 2.2用户行为数据 2.3数据仓库结构图 三:项目需求及架构设计 3.1项目需求分析 3.2.1 技术选型 3.2.2 系统数据流程设计 3. ...

  9. 【采用】风控模型评估方法以及大数据风控模型概念

    更新一下有效性指标中的区分能力指标: KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估,指标衡量的是好坏样本累计分部之间的差值.好坏样本累计差异越大,KS指标越大,那么模 ...

  10. 大数据体系【概念认知】系列-1:一致性 (未完)

    2019独角兽企业重金招聘Python工程师标准>>> 前言: 毫无疑问,一致性是大数据体系最为关键的几个技术要点之一,要设计,架构,实施一个大数据的组件,首先就先需要把 基本的几个 ...

最新文章

  1. POJ-2251 Dungeon Master
  2. nodejs常用指令
  3. 定量遥感:计算地方时和太阳高度角(C++代码)
  4. java导致native非法指令,Java代码引起的NATIVE野指针问题(上)
  5. python安装路径查看_查看python安装路径及pip安装的包列表及路径
  6. linux c语言 延迟,linux下写个C语言程序,要求有0.5微秒以下的延时,要怎样写
  7. 【手指识别】基于matlab GUI指尖图像采集与检测【含Matlab源码 585期】
  8. oracle查看所有用户6,CSS_Oracle 用户权限查询,1.查看所有用户:nb - phpStudy
  9. 支持javascript的ppt软件_把PPT放入浏览器中——12款用于演示的JS库
  10. next.js页面跳转
  11. Bootstrap---dateTimePicker时间控件配置与应用
  12. 高通平台开发系列讲解(AI篇)高通神经网络处理引擎 SNPE SDK架构
  13. vue2-element,vue3-element-plus 的列表翻页的序号
  14. 周鸿祎:江湖最后一个大佬
  15. jQuery中的append()方法
  16. 【视觉SLAM十四讲】第八讲 光流法与直接法
  17. 基于JSP动漫论坛的设计与实现(含源文件)
  18. 千万不要照着镜子洗头发
  19. python控制步进电机转动_用Python编程:控制步进电机+ Raspberry Pi零+ L293D IC
  20. 一起来捉妖 灵石秒开过程 IOS版(越狱与不越狱都可以)

热门文章

  1. 2016计算机奥林匹克小学,NOIP2016复赛数据
  2. 宝尚简讯-短期震荡在蓄势
  3. AR实战开源项目——Miku和“极乐净土”
  4. 基于SSM的境外电商后台管理系统(含word论文文档)
  5. 超有用的word宏代码——批量裁剪图片
  6. 基于udp端口转发程序设计(一)
  7. 最新| ClickHouse入门、调优、实战一条龙全解秘籍
  8. iOS 模拟器调试web/h5代码
  9. 工厂软件支持及测试是什么,工厂测试指南.pdf
  10. java-php-python-ssm校园流浪猫图鉴管理系统的设计与实现计算机毕业设计