数据仓库简介---概况
1、数据仓库的定义
数据仓库是一个面向主题的、集成的、稳定的、反映历史变化的、随着时间的流逝发生变化的数据集合。它主要支持管理人员的决策分析。
数据仓库收集了企业相关内部和外部各个业务系统数据源、归档文件等一系列历史数据,最后转化成企业需要的战略决策信息。
- 面向主题:根据业务的不同而进行的内容划分;
- 集成特性:因为不同的业务源数据具有不同的数据特点,当业务源数据进入到数据仓库时,需要采用统一的编码格式进行数据加载,从而保证数据仓库中数据的唯一性;
- 非易失性:数据仓库通过保存数据不同历史的各种状态,并不对数据进行任何更新操作。
- 历史特性:数据保留时间戳字段,记录每个数据在不同时间内的各种状态。
2、数据仓库的特点
- 面向主题的:普通的操作型数据库主要面向事务性处理,而数据仓库中的所有数据一般按照主题进行划分。主题是对业务数据的一种抽象,是从较高层次上对信息系统中得数据进行的归纳和整理。面向主题的数据可以划分成两部分----根据原系统业务数据的特点进行主题的抽取和确定每个主题所包含的数据内容,例如客户主题、产品主题、财务主题等;而客户主题包括客户基本信息、客户信用信息、客户资源信息等内容。分析数据仓库主题的时候,一般方法是先确定几个基本的主题,然后再将范围扩大,最后再逐步求精
- 集成性:面向操作型的数据库通常是异构的、并且相互独立,所以无法对信息进行概括和反映信息的本质。而数据仓库中的数据是经过源数据的抽取、清洗、切换、加载得到的,所以为了保证数据不存在二义性,必须对源数据进行编码的统一和必要的汇总,以保证数据仓库内数据的一致性。数据仓库在经历数据集成阶段后,使数据仓库中得数据都遵循统一的编码规则,并且消除许多冗余数据。集成一般有如下两种形式:
- ①数据的集成,当数据从操作型数据传向数据仓库时,数据被集成,例如:
- ②当数据仓库是从原有分散的源数据库抽取出来的时候,为了消除编码的不一致性,需要将这些来自不同数据源的数据编码集成起来,使之遵循统一的编码规则,例如:
- 稳定性:数据仓库中得数据反映的都是一段历史时期的数据内容,他的主要操作是查询、分析而不进行一般意义上得更新(数据集成前的操作型数据库主要完成数据记录的增加、删除、修改、查询),一旦某个数据进入到仓库后,一般情况下数据会被长期保留,当超过规定的期限时才会被删除。通常数据仓库需要做的工作就是加载、查询和分析,一般不进行任何修改操作,是为了企业高层人员决策分析之用。
- 反映历史变化:数据仓库的目标就是对企业的发展趋势作出分析和预测。数据仓库不断从操作型数据库中获得变化的数据,从而形成分析和预测需要的历史数据,所以一般数据仓库中数据表的键码都含有时间键,以表明数据的历史时期信息,然后不断增加新的数据内容。数据仓库中的数据也含有数据期限(一般5-10年),当超出规定的期限时,需要删除这些过时的数据。通过这些历史信息可以对企业的发展历程和趋势作出分析和预测。数据仓库的建设需要大量的业务数据作为积累,并将这些宝贵的历史信息经过加工、整理,最后提供给决策分析人员,这是数据仓库建设的根本目的。
3、数据仓库和数据库的区别
数据仓库和数据库的不同:数据库生产系统主要是面向应用的、事物型的数据处理,一般来说具有实时性较高,数据检索量较小,普通用户的数量较大等特点。而数据仓库系统主要面向主题的、分析型的数据处理,具有实时性要求不高,数据检索量较大,主要针对特殊的用户群体,用户数量较小的特点。其中事务型和分析型处理数据是有区别的:
- 事务型处理数据一般来说对性能的要求较为严格,数据是事务驱动的,主要面向应用,存储的一般都是即时性、细节性的数据,数据是可更新的。
- 分析型处理数据一般来说对性能要求不高,数据是分析驱动的,主要面向决策分析,存储的一般都是历史、汇总性的数据,数据一般不会更新。
4、数据仓库建设
数据仓库开发应用过程主要包括:规划分析阶段、设计实现阶段、使用维护阶段。
①规划分析阶段
- 确定数据仓库的开发目标。从用户角度分析,给用户提供那些分析内容和功能。从技术角度分析,在划分的各个主题中需要那些业务数据源,确定使用那种ETL工具去抽取数据,使用什么工具构建数据模型,确定数据仓库的实现范围,然后定制数据仓库目标和工程计划。
- 编写文档,说明该系统对企业发展的作用,内容包括对工作任务概要的说明、重点支持的项目业务部门和设计开发的工作计划。
- 开始概念模型的设计工作,包括用户需求调研、模型的定义和需求分析等内容。先明确用户的需求;然后理解用户需求的基础上,进行数据仓库模型的设计,还包括撰写详细的用户需求分析调查表和针对概念模型的评审报告。
- 在概念模型的基础上进行逻辑模型的分析和设计。包括所要分析的主题域、主题域包含的主题和实体,实体粒度层级定义。除此之外,还需要撰写逻辑模型的评审报告和定义数据仓库的抽取流程。
②设计实现阶段
- 设计阶段主要包含数据模型的设计,元数据的设计,ETL数据抽取、转换、加载的设计,报表展现的设计内容。其中元数据包括业务元数据和技术元数据。
- 在实现阶段,需要确定数据仓库系统选择了那些业务数据源,实现从源系统中抽取数据、清洗数据、装载数据的设计和编码过程,使用报表展现工具开发报表。
③使用维护阶段
- 备份和恢复:数据仓库数据的定期备份和恢复是数据仓库项目一个必不可少的运维步骤。保证用户使用的同时,也对数据仓库中的数据进行妥善处理,以应对将来历史数据的增加和数据仓库规模的扩大。
- 数据归档:历史数据大量的增加使数据仓库需要增加额外的存储设备来存储这些数据,也差生额外开销。正是因为如此,数据仓库需要将历史细节性数据归类当离线的存储设备上,从而降低运维的难度。
- 性能管理和监控:性能管理主要包括---针对业务系统响应的时间,文件传输的时间、数据备份和恢复的时间、ETL的时间和报表展示的时间等方面。
- 用户培训:目的让用户对数据仓库系统的结构、功能和操作流程有一个比较清晰的认识,用户能够依靠培训手册学会基本的操作和了解该系统提供的各种功能。
数据仓库的开发周期可以划分为规划分析阶段、设计实现阶段以及使用维护阶段。这3个阶段是不断循环和完善的过程,经过多次循环设计、开发和改进,不断为系统增加新的功能,使数据仓库系统的应用得到进一步的加强。
数据仓库简介---概况相关推荐
- 【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )
文章目录 一.数据仓库简介 二.操作型数据与分析型数据对比 三.数据仓库 特征 与 定义 四.特征一 : 面向主题 数据组织方式 五.面向应用 数据组织方式 六.面向主题 组织数据 七.数据 从 面向 ...
- 【Kay】1 数据仓库简介
一.数据仓库简介 一.为什么有数仓 1.业务数据存在数据库里面:如MySQL.Oracle.SQL Server里面.但业务数据可能形成挤压,产生大量冷数据,为了避免对业务数据库产生影响,需要将冷数据 ...
- Hive数据仓库简介
文章目录 Hive数据仓库简介 一.数据仓库简介 1. 什么是数据仓库 2. 数据仓库的结构 2.1 数据源 2.2 数据存储与管理 2.3 OLAP服务器 2.4 前端工具 3. 数据仓库的数据模型 ...
- hadoop构建数据仓库实践 数据仓库简介和数据仓库设计基础章节 读书笔记
1.数据仓库简介 1.0演变 1.1什么是数据仓库 本质:数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型. 要解决的问题:多重数据复制带来的高成本问题(在没有数据仓库的时代,需要大量的 ...
- 数据仓库简介、数据仓库的发展、数仓理论简介
数仓理论简介 数据仓库解决方案诞生至今,也有2.30年的发展历史了,在这个过程中,数仓理论不断被更新和完善,逐步形成了目前大家普通遵守的数仓开发理论(概念). 数据仓库的发展 阶段1 以解决数据孤岛为 ...
- Greenplum 实时数据仓库实践(1)——数据仓库简介
目录 1.1 什么是数据仓库 1.2 操作型系统与分析型系统 1.2.1 操作型系统 1.2.2 分析型系统 1.2.3 操作型系统和分析型系统对比 1.3 抽取-转换-装载 1.3.1 ...
- 电商数仓项目系列一:数据仓库简介
一.数仓定义 数据仓库顾名思义就是存储数据的仓库,不同于业务数据库用作业务支撑,数据仓库是分析系统最核心的组成部分,使用这些数据为我们的报表分析(各种销售指标),广告推广(在什么地方.什么渠道投放广告 ...
- 数据仓库简介-ODS、DW和DM概念区分
目录 一.什么是数据仓库 二.数据仓库与数据库的区别 三.数据仓库的应用 四.数据仓库的业务层级 1 ODS层 2 DW层 3 DM层 一.什么是数据仓库 数据仓库是决策支持系统(dss)和联机分析应 ...
- 北海市卫生学校计算机教室,北海市卫生学校简介-概况
北海市卫生学校创办于1958年9月,创办时名"广东省合浦医学专科学校",随辖属及其他情况的变化,先后改为"广东省合浦县卫生学校"."广东省合浦卫生学校 ...
最新文章
- 调用存储过程时报错:There is no ‘username’@'host’ registered
- NYOJ 614 纸牌游戏
- 用户体验分析: 以 “南通市图书馆微信公众号” 为例
- 网站后台admin修改故事
- 【渝粤题库】国家开放大学2021春2096经济法学题目
- 刻录光盘(信息学奥赛一本通-T1383)
- Effective C++ 精要(第五部分:实现)
- this与$(this)的区别
- 童鞋们,颜色采色器,实用工具
- linux MySQL数据备份
- Fedora 14 x64 试用手记
- 数据库学习——SQL之SELECT查询语句
- 实现网站的国际化语言切换
- spark GBT算法
- uniapp的navigateTo页面跳转参数传递问题
- html标签不使用css样式,html – 忽略CSS样式
- 按图搜索商品获取数据测试
- Python初探(四,五)
- [Android Input系统]MotionEvent的序列化传送
- 破解微信小游戏-动物餐厅之无限小鱼干
热门文章
- 电影解说文案写作技巧
- 【面试总结】小灰灰求职进行曲(二)C++语言方向
- Java 集成开发环境——Eclipse JEE的安装和配置Tomcat
- filter过滤函数的使用
- vue echarts 三维折线图
- 论如何退出学生端······
- Microsoft Excel不能访问文件,不能保存,不能单击打开文件的解决方法
- 【GPS】经纬度DMS格式与DDD格式在线互换
- This was likely an oversight when migrating to django.urls.path().
- Java核心技术基础知识学习之面向对象(下)