【数据仓库】数据仓库的发展史
数据仓库的起源可以追溯到计算机的发展初期,并且数据仓库是信息技术长期发展的产物,在以后也会一直发展。
(1)主文件、报表
20世纪60年代初期,计算机领域的主要工作是创建运行在主文件上的单个应用。这些应用是以报表处理和程序为特征的,一般是以某种早期的程序设计语言如Fortran或COBOL编写的。主文件存储在廉价的磁带上面,其缺点是只能顺序访问。比如我们想得到磁带上第20分钟处的数据,那时必须顺序访问完前面的19分钟。磁带在提供廉价存储的同时,也带来了数据的大量冗余。
20世纪60年代中期,大量的主文件带来了诸多问题,如:
☆ 更新数据时需要保持数据的一致性。
☆ 程序维护的复杂性。
☆ 开发新程序的复杂性。
☆ 支持所有主文件需要增加大量的硬件。
(2)DASD和DBMS的出现
到了1970年,出现了一种新的存储和访问技术,也就是磁盘存储器,或者称之为直接存取存储设备(Direct Access Storage Device,DASD)。磁盘存储与磁带存储的根本不同在于磁盘上的数据能够直接访问。DASD要访问第n+1条记录,不再需要顺序访问第1、2、3......n条记录,而是一旦知道了第n+1条记录的地址,就可以直接访问它。
随着DASD的发展,出现了一种称为数据库管理系统(Database Management System,DBMS)的新型系统软件。这种新型软件目的是使程序员可以方便的在DASD上面进行存储和访问。伴随着DBMS,出现了“数据库”的概念。
到了20世纪70年代中期,在线事务处理(Online Transaction Processing,OLTP)使得访问数据可以更快速的进行,采用在线事务处理可以完成许多过去无法完成的事情。
(3)个人计算机和第四代编程语言技术
到了20世纪80年代,涌现了一些更为新颖的技术,比如个人计算机(PC)和第四代编程语言(Fourth-Generation Language,4GL)。随着PC和4GL的发展,除了高性能的在线事务处理之外,人们可以利用数据做更多的事情,比如早期的管理信息系统(Management InformationSystem,MIS),如今这种技术成为DSS。
(4)抽取程序
随着大型在线事务处理系统问世不久,出现了抽取程序。抽取程序可以通过设置参数,在文件中搜索满足条件的数据,然后把这些数据传送到其他文件或者数据库中。抽取程序在当时特别流行的原因如下:
通过抽取技术,可以实现把想要的数据从在线事务处理系统中分离出来,这样就可以解决数据分析性能方面的问题;
抽取出来的数据,给人们在使用数据方面带来了极大的灵活性,我们可以使用这些数据做各种分析。
(5)抽取之上的抽取
起初,只是对在线事务处理系统中的数据进行抽取。慢慢的人们发现在抽取结果中,加上一些条件限制可以更方便的得到想要的数据,于是就出现了基于抽取之上的抽取。这样就造成了如下问题:
☆ 数据时间不统一
☆ 抽取程序的差异
☆ 外部数据加载问题
☆ 无公共起始数据源
以上问题就会有可能导致,当使用不同抽取程序的两个部门,在分析同一个问题的时候产生很大差异。
(6)数据仓库
当人们意识到无休止的抽取带来诸多问题后,开始思考是否可以建立成体系的机构化环境,以减少数据的差异。这也就是数据仓库出现的原因。数据仓库从操作型数据库中抽取数据,通过规范的加工过程,得到粒度化数据,并且这些数据时面向主题、集成、不易失、随时间变化的数据。在数据仓库的基础上,可以建立不同分析角度的BI报表系统。
【数据仓库】数据仓库的发展史相关推荐
- 数据仓库-数据仓库的简介(由来、与关系数据库的区别、数据仓库模型)
数据仓库的基本概念 数据仓库泛化.合并多维空间的数据.构造数据仓库涉及数据清理.数据集成和数据变换,可以看做数据挖掘的一个重要预处理步骤.此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的 ...
- 【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )
文章目录 一.数据仓库简介 二.操作型数据与分析型数据对比 三.数据仓库 特征 与 定义 四.特征一 : 面向主题 数据组织方式 五.面向应用 数据组织方式 六.面向主题 组织数据 七.数据 从 面向 ...
- 数据仓库—数据仓库—Sybase IQ 介绍
http://blog.itpub.net/8128313/viewspace-895289/ 软件厂商: Sybase 授权方式: 商用软件 版本号: 无 版本类型: 企业版 语言版本: 中文 软件 ...
- [数据仓库]数据仓库建模的目标
建模的目标 访问性能:能够快速查询所需要的数据,减少I/O 数据成本:减少不必要的数据冗余.实现计算结果的复用:降低大数据系统中的存储成本和计算成本 使用效率:改善用户使用数据的体验,提高使用数据的效 ...
- [数据仓库]数据仓库和数据库的区别
数据仓库和数据库 数据仓库是面向主题的.集成的.稳定的,反映历史变化数据集合,用于分析场景,支持管理决策过程等. 面向主题:在较高层次对企业的数据进行综合归并而进行的抽象概念.数据仓库都是基于某个明确 ...
- 数据仓库——数据仓库基础
数据仓库基础 1. *数仓中是如何划分主题的? 主题(Subject)是在较高层次上将企业信息系统中的数据进行综合,归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域.在逻辑意义上,它 ...
- 企业级数据仓库:数据仓库概述;核心技术框架,数仓理论,数据通道Hive技术框架,HBase设计,系统调度,关系模式范式,ER图,维度建模,星型/雪花/星座模式,数据采集同步,业务数据埋点,数据仓库规范
文章目录 第一章 数据仓库概述 1.1 数据仓库简介 1.1.2 什么是数据仓库? 1.1.3 OLTP 与 OLAP 1.2 数据仓库技术架构 1.3 课程目标 第二章 核心技术框架 2.1 数据仓 ...
- 数据仓库——数据仓库架构、维度数据建模、雪花模型和星型模型
文章目录 一.数据仓库架构 1. 自顶向下 2. 自底向上 二.维度数据建模 三.星型模型和雪花模型 1. 星型模型 2. 雪花模型 本篇文章主要介绍了数据仓库的整体架构.数仓中常用的维度数据建模方法 ...
- 数据挖掘与数据仓库——数据仓库、 OLAP及数据立方体计算
数据仓库. OLAP及数据立方体计算 什么是数据仓库 有多种但并不严格的定义 与操作数据库相隔离并单独维护的一个用来支持决策过程的数据库. 一个用来对整理过的历史数据进行分析以便支持信息处理的固定平台 ...
- 数据仓库-数据仓库元数据管理
目录 数据仓库元数据管理 数据仓库元数据管理 元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及ETL的任务运行状态.一般会通过元数据资料库(Me ...
最新文章
- apache log4j-1.2.15的使用
- 过年回家抢票不求人,试试这个开源抢票神器吧!
- mysql日期/时间转换为字符串
- MATLAB高光谱图像构建KNN图
- win7纯净版系统锁定系统时间的设置方法
- 关于PHPExcel 导出下载表格,调试器响应乱码
- Android的Fragment中onActivityResult不被调用的解决方案
- FFmpeg中AVFrame中width与linesize的关系
- mysql金钱默认字段格式化_在SQL数据库中,设置了一个字段的类型为money,但是money类型数据保留的是四位小数,如何设置为两位小数?...
- matlab设计匹配滤波器,[转载]利用MATLAB实现匹配滤波器的仿真验证
- python图像数字识别
- PS中放大图片不失真的方法
- Gradle报 skkiped gradle skipped due to earlier error
- 侯圣文大数据体验课笔记,大数据基础,离线数仓,实时计算
- IcedTea6版本1.7.1
- 网站被攻击,用CDN有用吗?
- 计算机驱动恢复出厂设置在哪里,Windows系统恢复出厂设置在哪?怎么恢复出厂设置?...
- 5种方案实现订单30分钟未支付,则自动取消
- 题解 | Guessing ETT-2019牛客暑期多校训练营第三场C题
- 密码管理方案之SafeInCloud+坚果云同步
热门文章
- zabbix 5.0所有依赖包_Zabbix“专家坐诊”第82期问答汇总
- class中函数的this指向
- poj 2378 树型dp
- win7下jdk+eclipse android应用开发环境建立
- 在Android平台上发现新的恶意程序伪装成杀毒软件挟持设备
- mysql show slave_MySQL show slave status 参考
- Maven+Eclipse+SparkStreaming+Kafka整合
- pfSesne 使用IPv6与隧道代理
- 4.Node.js 微信消息管理
- 8个超炫酷的jQuery相册插件欣赏