定义
  数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
  数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
  特点
  1、数据仓库是面向主题的;
  2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;
  3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
  4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求,他在商业领域取得了巨大的成功。
  实现方式
  数据仓库是一个过程而不是一个项目。
  数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
  从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。
  企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
  数据仓库与数据库的区别
  数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。
  数据库是面向事务的设计,数据仓库是面向主题设计的。
  数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
  数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。

一、数据仓库技术的发展历程

  (1)萌芽阶段。数据仓库概念最早可追溯到20世纪70年代,MIT的研究员致力于研究一种优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则,MIT的研究员认为这两种信息处理的方式具有显著差别,以至于必须采取完全不同的架构和设计方法。但受限于当时的信息处理能力,这个研究仅仅停留在理论层面。

  (2)探索阶段。20世纪80年代中后期,DEC公司结合MIT的研究结论,建立了TA2(Technical Architecture2)规范,该规范定义了分析系统的四个组成部分:数据获取、数据访问、目录和用户服务。这是系统架构的一次重大转变,第一次明确提出分析系统架构并将其运用于实践。

  (3)雏形阶段。1988年,为解决全企业集成问题,IBM公司第一次提出了信息仓库(InformationWarehouse)的概念,并称之为VITAL规范(VirtuallyIntegrated Technical Architecture Lifecycle)。VITAL定义了85种信息仓库组件,包括PC、图形化界面、面向对象的组件以及局域网等。至此,数据仓库的基本原理、技术架构以及分析系统的主要原则都已确定,数据仓库初具雏形。

  (4)确立阶段。1991年Bill Inmon出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。该书指出,数据仓库(DataWarehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策(Decision-Making Support)。该书还提供了建立数据仓库的指导意见和基本原则。凭借着这本书,Bill Inmon被称为数据仓库之父。

  数据仓库的概念确立之后,有关数据仓库的实施方法、实施路径和架构等问题引发了诸多争议。1994年前后,实施数据仓库的公司大都以失败告终,导致数据集市的概念被提出并大范围运用,其代表人物是Ralph Kimball。由于数据集市仅仅是数据仓库的某一部分,实施难度大大降低,并且能够满足公司内部部分业务部门的迫切需求,在初期获得了较大成功。但随着数据集市的不断增多,这种架构的缺陷也逐步显现。公司内部独立建设的数据集市由于遵循不同的标准和建设原则,以致多个数据集市的数据混乱和不一致。解决问题的方法只能是回归到数据仓库最初的基本建设原则上来。1998年,Inmon提出了新的BI架构CIF(CorporationInformation Factory,企业信息工厂),新架构在不同架构层次上采用不同的构件来满足不同的业务需求。

比尔·恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。

  比尔·恩门的思想与见识在所有重量级的计算机协会、许多产业会议、技术研讨会上,都博得了无比的敬重。他写过650多篇文章,大多发布在世界最知名的IT刊物里,DMReview杂志每期都有恩门先生的专栏文章,他写了46本书籍,最著名的要数“Building the Data Warehouse”(《建立数据仓库》),这本数据仓库精典读物倍受读者喜爱,一而再再而三地升级出版发行,到目前已经是第三版本,发行量达50多万册。也正是这本《建立数据仓库》为恩门赢得“数据仓库之父”的殊荣,国内机械工业出版社也分别将第2第3版本引进翻译,恩门先生的著作也一直是亚马逊电子商务网站的畅销书,都深受广大数据仓库技术读者喜欢。同时恩门又是最知名的数据仓库咨询顾问专家,他为许多名列《财富》1000排行榜的公司提供过数据仓库设计和数据库管理方面的咨询服务。恩门这些年还创立过公司办过网上教育,1995创建了现在的Ambeo公司。

  恩门先生在上世纪80年代,其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。而不是一种可以购买的产品。正是他当初对数据仓库的这个定义,已成为了业界引用最多、说得最广的名言,每一个启蒙的数据仓库学习者都是从这一句名言开始的。

比尔·恩门的对头

  随着拉尔夫·金博尔(Ralph Kimball)博士出版了他的第一本书“The DataWarehouse Toolkit”(《数据仓库工具箱》),数据仓库行业就开始喧哗起来,恩门的“Building the Data Warehouse”主张建立数据仓库时采用自上而下(DWDM)方式,以第3范式进行数据仓库模型设计,而他生活上的好朋友Ralph Kimball在“The DataWarehouse Toolkit”则是主张自下而上(DMDW)的方式,力推数据集市建设,以致他们的FANS吵闹得差点打了起来,直至恩门推出新的BI架构CIF(Corporation information factory),把Kimball的数据集市包括了进来才算平息。

  在过去的15年中,Ralph Kimball和Bill Inmon一直是商业智能领域中的革新者,开发并测试了新的技术和体系结构。他们都撰写了关于数据仓库的多本书籍,这些书也经常被参考。Kimball 和 Inmon 都同意组织需要一个与遗留系统和联机事务处理(OLTP)系统分开的数据仓库,以捕获组织的有关信息并且使之可用。他们也同意数据仓库中的数据应该是净化的、一致的,并且不受到其来源的遗留系统和 OLTP 系统设计的牵制。

  在开始第一个数据集市之前,他们还同意用针对整个体系结构的思想重复构建数据仓库。到这里,他们的意见就发生了分歧。Bill Inmon将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”(Building the data warehouse,第 2 版,第 33 页)。Inmon通过“面向主题”表示应该围绕主题来组织数据仓库中的数据,例如客户、供应商、产品等等。

  每个主题区域仅仅包含该主题相关的信息。数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市。换言之,某个特定数据集市中的所有数据都应该来自于面向主题的数据存储。Inmon 的方法包含了更多上述工作而减少了对于信息的初始访问。但他认为这个集中式的体系结构持续下去将提供更强的一致性和灵活性,并且从长远来看将真正节省资源和工作。Ralph Kimball说“数据仓库仅仅是构成它的数据集市的联合”(Figure 2,The Data Warehouse Lifecycle Toolkit,第 27 页)。

  他认为“可以通过一系列维数相同的数据集市递增地构建数据仓库”。每个数据集市将联合多个数据源来满足特定的业务需求。通过使用“一致的”维,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素。Kimball的方法将提供集成的数据来回答组织迫切的业务问题并且要快于Inmon的方法。Inmon的方法是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市。而Kimball认为该方法缺乏灵活性并且在现在的商业环境中所花时间太长。

  从Inmon被人尊称为数据仓库之父,就可以看出,inmon对于数据仓库领域的技术发展作起的作用的巨大的,无数数据仓库爱好者甚至把《建设数据仓库》看作是数据仓库的“圣经”。inmon自己创建的网站上的文章被广为传颂,每当有inmon公开演讲的时候,很多用户和技术人员都把能够聆听inmon的最新成果为荣。在企业信息工厂的设计蓝图中,inmon清除地描述了如何从各种业务系统当中捕获需要的数据,并在随后的流程中,为适应不同的需求,而逐渐演变为各种不同的形态,所有的这一切都围绕着一个最重要的部件来运转,这就是企业数据仓库。

  在国内数据仓库领域,inmon和kimball的理论也一度争论不休,但是随着数据仓库建设的逐步深化,把企业数据仓库作为企业数据整合平台的思路深得人心,越来越多的企业开始强调在企业内部建立一个企业级别的数据仓库来支持整个企业的发展和运作。

比尔·恩门的重点著作

  以下列出恩门的几本重点著作:

  1、“Building the Data Warehouse ”(《建立数据仓库》)

  2、“Corporation information factory”(《企业信息工厂》)

  3、“Govment information factory”《政府信息工厂》

  4、“The Data Model Resource Book: A Library of Logical Data and Data Warehouse Designs”(《数据仓库建模》)

  5、“Managing the Data Warehouse”(《数据仓库管理》)

  6、“Data Warehousing for E-Business”(《电子商务中的数据仓库技术》)

数据仓库技术的发展历程相关推荐

  1. SDN — 网络虚拟化技术的发展历程

    目录 文章目录 目录 网络虚拟化技术 网络虚拟化技术的类型 网络虚拟化的发展历程 网络虚拟化技术 网络虚拟化是指虚拟网络节点之间的连接并不使用物理线缆连接,而是依靠特定的虚拟化链路相连.其主要是对网络 ...

  2. 关于人工智能与深度学习技术的发展历程和未来展望

    引言 自2016年AlphaGo击败围棋冠军李世石后,人工智能话题逐渐火热起来.究竟什么人工智能呢?从上世纪人工智能诞生以来,都被赋予神秘的面纱.1950年,现代计算机科学之父阿兰·图灵提出了图灵测试 ...

  3. 表格检测识别技术的发展历程

    近年来,随着计算机技术的飞速发展,越来越多的研究者开始关注表格检测识别技术.表格检测识别技术是一种利用计算机自动处理表格的技术,它可以实现从文本中检测出表格,并进行识别和提取.这种技术有助于提高文本处 ...

  4. 数据管理技术的发展历程

    人工管理阶段 文件系统阶段 数据库阶段 人工管理阶段 数据不保存在计算机内. 没有专用软件对数据进行管理 只有程序的概念,没有文件的概念 数据面向程序 由于在这一阶段,计算机主要用于计算,并不存储数据 ...

  5. CDN技术的发展历程

    在互联网上,悄然生长出一张时刻为人们服务的网络,它像一位隐形的快递员,将各种各样的内容交付给用户,这就是内容分发网络(CDN,Content Distribute Network). CDN的基本概念 ...

  6. 视频监控技术的发展历程和方向

    视频监控技术自20世纪80年代在我国兴起以来,先后经历了模拟视频与近距离监控.模拟视频与远距离联网监控.数字视频与IP网络监控.数字视频与光纤网络监控四个发展阶段.随着"平安城市" ...

  7. (转载)软件架构技术的发展历程总结及思考(骆金松)

    1   软件架构技术产生的背景 1.1     软件危机的出现 20 世纪60年代以前,计算机刚刚投入实际使用,软件设计往往只是为了一个特定的应用而在指定的计算机上设计和编制,采用密切依赖于计算机的机 ...

  8. MBD 技术的发展历程

    近几年,MBD 技术取得了飞跃式的发展,从模拟建模到数字建模,从数字建模到物理建模,从物理建模到混合建模,从混合建模到智能建模,MBD 技术已经发展成为一个全面的系统,涵盖了整个工程设计.制造流程和产 ...

  9. 高速软件加密锁技术的发展历程

    加密锁是一种插在计算机并行口上的软硬件结合的加密产品(新型加密锁也有usb口的).一般都有几十或几百字节的非易失性存储空间可供读写,现较新的狗内部还包含了单片机.软件开发者可以通过接口函数和加密锁进行 ...

最新文章

  1. zxing 源码笔记
  2. Linux很有用的根据字符串查找符合条件的命令
  3. python表示语句块采用_python中什么是语句块?
  4. 【数据结构与算法】之深入解析“求根节点到叶节点数字之和”的求解思路与算法示例
  5. Java中装箱与拆箱
  6. 任务并行VS数据并行
  7. 源码级别的广播与监听实现
  8. 前端开发者必备的20个文档和在线工具
  9. 每天一个linux命令(13):tail 命令
  10. 高程三(1):简介、使用、严格模式
  11. 软件工程之信息系统集成
  12. Android中的Drawable(一)
  13. PostgreSQL数据库备份还原全攻略
  14. 删除Windows10在语言栏出现“未知区域设置(qaa-latn)”
  15. 卡贴机变无锁教程_如何让“有锁”iPhone变“无锁”?“有锁”iPhone变“无锁”设置教程...
  16. 云计算学习路线教程大纲课件:部署论坛系统Discuz
  17. IE6中常见兼容性问题及浏览器显示难题
  18. 全新的Uber App设计
  19. VS2017 -error LNK1104: 无法打开文件“msvcprtd.lib”
  20. 介绍一下ROS常用的命令<rosnode和rostopic实操>(一)

热门文章

  1. 大数据增量采集OGGAdapter的安装部署与相关配置
  2. 抽象类和接口 应用场景
  3. Matlab中dir函数使用小技巧
  4. 对于查不到sql server代理(mssqlserver),sql server服务器连接不上的解决方法
  5. 一文读懂 | 消灭梦魇:XFS的完美防御
  6. 【信息检索】文档评分和概率检索模型
  7. Docker Kafka
  8. dayz官服换服务器位置,DAYZ官服关于更换服务器
  9. Android UI之QMUI_Android(腾讯ui库)
  10. 奈奎斯特 带宽 码元 比特