数据仓库1-数仓的意义
在进行数据分析的时候,我们总会遇到一些名词,比如数据仓库。数据仓库是数据分析中一个比较重要的东西,数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。下面就说一下数据分析中的数据仓库。
对数据分析的理解大家应该都是比较熟悉的,数据分析的流程有很多,首先需要进行对业务的理解,然后就是对数据的理解,挖掘数据,数据处理,数据分析,数据展现,这些步骤就能够给大家带来一个不错的数据分析结果。
但是数据分析中的工作最重要的就是数据处理工作,由于数据分析对数据质量、格式的要求比较高,对数据的理解也必须非常深刻,使得数据契合业务需求也要一定的过程,根据我做数据分析的经验,在整个数据分析流程中,用于数据处理的时间往往要占据70%以上。所以,如何高效、快速地进行数据理解和处理,往往决定了数据分析项目的进度和质量。而数据仓库具有集成、稳定、高质量等特点,基于数据仓库为数据分析提供数据,往往能够更加保证数据质量和数据完整性。
如果要做好数据分析的时候,要使用ETL工具构建数据仓库提升数据分析效果需要从三个方面。分别是数据理解、数据质量、数据跨系统关联。
一、数据理解
数据仓库是面向主题的,所以其自身与业务结合就相对紧密和完善,更方便数据分析师基于数据理解业务。而数据仓库是有很多的主题组成,包括了很多的数据。当需要对数据进行分析的时候,如果理解数据仓库的模型,数据理解也就水到渠成了。
第二、数据质量
数据分析的时候要求数据是干净、完整的,而数据仓库已经对源系统的数据进行了业务契合的转换,以及脏数据的清洗,这就为数据分析的数据质量做了较好的保障。
第三、数据跨系统关联
数据跨系统关联数据仓库的一个简单架构,各业务源系统的数据经过ETL过程后流入数据仓库,当不同系统数据整合到数据仓库之后,至少解决了数据分析中的两个问题:
第一,跨系统数据收集问题
在金融分析中同一个客户的储蓄交易和理财交易我们在同一张事实表就可以找到;
第二,跨系统关联问题
进行数据整合时,总是需要找到共同点来关联来自不同系统的信息,而数据仓库在ETL过程中就会整合相关客户信息,完美解决跨系统关联问题。
数据仓库1-数仓的意义相关推荐
- 数据仓库(二) 数仓理论(重点核心)
文章目录 数据仓库(二) 数仓理论(重点核心) 数仓分层 数据仓库分层 ODS层 DWD层 DWS层 DWT层 ADS层 数据仓库分层的好处 关系建模与维度建模 关系建模 维度建模 星型模型 雪花模型 ...
- 数据仓库(9)数仓缓慢变化维度数据的处理
数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一.缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快 ...
- 数据仓库(3)数仓建模之星型模型与维度建模
维度建模是一种将数据结构化的逻辑设计方法,也是一种广泛应用的数仓建模方式,它将客观世界划分为度量和上下文.度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称 ...
- 数据仓库(5)数仓Kimball与Inmon架构的对比
数据仓库主要有四种架构,Kimball的DW/BI架构.独立数据集市架构.辐射状企业信息工厂Inmon架构.混合Inmon与Kimball架构.不过不管是那种架构,基本上都会使用到维度建模. Kimb ...
- 数据仓库(1)什么是数据仓库,数仓有什么特点
本文原链接:什么是数据仓库,数仓有什么特点 数据仓库,简称数仓,英文名称为Data Warehouse,可简写为DW或DWH.数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战 ...
- 数据仓库(7)数仓规范设计
规范设计在这里取<大数据之路:阿里巴巴大数据实践>中的定义,这里记录一下本人对这一块自己的理解. 规范定义指以维度建模作为理论基础 构建总线矩阵,划分和定义数据域.业务过程.维度.度量 原 ...
- 数据仓库(6)数仓分层设计架构
目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构. 分别为数据贴源层(ods).数据仓库明细层(dw).多维明细层(dws)和数据集市层(dm). 下面是架构图: ...
- 【数据仓库】数仓到底要分多少层
0.前言 初学数仓的同学都喜欢问一个很有意思的问题:数据仓库到底要分几层?我一般的回答都是:你想分几层就分几层.很显然, 虽然我是很认真的在回答,但是提问题的人会感觉非常不认真.还是完完整整的阐述一下 ...
- 数仓潮汐猎人 | 数据仓库企业数仓拉链表制作
拉链表 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史.记录一个事物从开始,一直到当前状态的所有变化的信息. 下面就是一张拉链表,存储的是用户的最基本信息以及每条 ...
- 数据仓库建设-数仓分层
数据仓库能够帮助企业做出更好的决策,提高业务效率和效益:在数据仓库建设时,绕不开的话题就是数仓分层. 一.数据分层的好处 1. 降低数据开发成本 通用的业务逻辑加工好,后续的开发任务可以基于模型快速使 ...
最新文章
- 使用bert或者xlnet做预测类的事情
- Asp.net MVC调试-使用IP监听
- SSH2+Daoz项目中的分页查询
- Java TheadLocal
- /dev/null Read-only file system 系统无法启动
- 常用浏览器修改User-Agent的方法
- linux securefx 传输文件失败,解惑:如何使用SecureCRT上传和下载文件、SecureFX乱码问题...
- [Axis2与Eclipse整合开发Web Service系列之一] 生成Web Service Client(将WSDl 转化成 Java代码)
- 突发,Spring框架发现重大漏洞!
- 打卡1 谭浩强c语言程序设计第三章
- 【游戏开发创新】上班通勤时间太长,做一个任意门,告别地铁与塞车(Unity | 建模 | ShaderGraph | 摇杆 | 角色控制)
- BOSS直聘自动投简历
- WIN7 旗舰版已激活但还是黑屏的解决方法
- 量化交易中N字型技术形态的实现,天勤,mindgo,python版同花顺,okex,huobi,binance等平台都可正常使用
- 头条/抖音小程序内容安全检测(违规词过滤)
- SAP HANA HDBTable定义table语法
- 解决虚拟机拼不通物理机的网络问题
- 如何查看glibc版本
- 3.24下午 王希伟5.12福利课上完 剑7-95,剑7-98, 剑8-22,剑8-25
- 用计算机来唱歌,一种利用计算机软件自动教学乐器和唱歌的方法与流程
热门文章
- 十一、捕鱼达人的鱼儿游泳动画
- 诺兰回归,方舟渡劫——短信登录京东青龙
- 第7章 项目成本管理
- 网页电话/手机号码识别
- 营销物料(内容)可复用,别忽视了这个神器的作用!
- 数据分析之numpy基础/matplotlib绘图/numpy常用函数/杂项功能
- 软件测试笔记_09_自动化相关概念【重要】
- Pre-Upgrade Utility---下载并运行Oracle数据库预升级实用程序 (文档 ID 1577379.1)
- 甲骨文数据库购买的价格(二)
- Failed to execute goal org.apache.maven.plugins:maven-checkstyle-plugin:2.17:check (checkstyle-vali