数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。

  数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。

  01数据仓库的特点

  面向主题的,按照一定的主题进行组织,主题是指用户使用数据仓库进行决策时所关心的重点方面,后面会重点举例说明。

  数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工和集成之后,进入数据仓库。

  数据仓库是不可更新的,数据仓库主要是为决策分析供数据,所涉及的操作主要是数据的查询;

  02数据仓库有如下要求

  效率足够高:数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高。

  数据质量:由于数据仓库流程通常分为多个步骤,包括数据清洗,转换,装载等,那么由于脏数据会导致数据失真,就可能导致做出错误的决策。

  可扩展性:主要体现在数据建模的合理性。

  数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——数据获取、数据仓库、数据应用:

  数据分析必不可少之数据仓库_大数据视频_数据分析视频_数据管理视频_课课家

  数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra,转化Transfer,装载Load)的过程。ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。

  03数据仓库

  1.数据获取

  对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,其他是网站内外部可能其它各类对于公司决策有用的数据。

  2.数据仓库

  2.1数据模型:

  数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。

  数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型

  通过上图,我们能够很容易的看出在整个数据仓库的建模过程中,我们需要经历一般四个过程:

  业务建模:生成业务模型,主要解决业务层面的分解和程序化。

  领域建模:生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。

  逻辑建模:生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。

  物理建模:生成物理模型,主要解决,逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术问题。

  因此,在整个数据仓库的模型的设计和架构中,既涉及到业务知识,也涉及到了具体的技术,我们既需要了解丰富的行业经验,同时,也需要一定的信息技术来帮助我们实现我们的数据模型,最重要的是,我们还需要一个非常适用的方法论,来指导我们自己针对我们的业务进行抽象,处理,生成各个阶段的模型。

  2.2数据主题:

  数据模型的建设,维度的选择,是为了满足数据主题的需求。数据主题通常就是业务需求的提炼。

  2.3数据报表:

  报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。

  这里的数据汇总指的是基于特定需求的简单汇总(基于多维数据的聚合体现在多维数据模型中),简单汇总可以是网站的总Pageviews、Visits、Unique Visitors等汇总数据,也可以是Avg.time on page、Avg.time on site等平均数据,这些数据可以直接地展示于报表上。

  2.4数据集市和开放API

  数据集市(Data Mart),也叫数据市场,可以理解为字段非常多的宽表,比如销售表,除了包含订单和金额等必需的字段,还包含可能使用的产品信息集合、用户信息集合、甚至销售人员的信息,是数据仓库的核心组成部分。

  提升数据准确性:因为建立面向主题的数据表之后,不用再根据需求的不同,建立不同的结果表,自然发生错误的几率会大大降低

  提升效率:由于是面向主题的,所以需要的任何数据都可以从数据集市表直接简单获取。

  开放API,指对外开放的查询等接口。

  数据质量中心:

  元数据管理

  元数据(meta Date),其实应该叫做解释性数据,或者数据字典,即数据的数据。主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。

  识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。

大数据分析必不可少之数据仓库相关推荐

  1. 【2017年第2期】税务大数据分析的技术和典型应用

    汪疆平1,肖戎2 1. 北明软件有限公司技术研究院,广东 广州 510663:2. 广东省地方税务局纳税服务处,广东 广州 510630 摘要:基于某省税务局大数据分析项目的实践,结合税务机关的信息化 ...

  2. mmTrix大数据分析平台构建实录--转

    在数据分析中,有超过90%数据都是来自于非结构化数据,其中大部分的是日志,如运维.安全审计.用户访问数据以及业务数据等,但随着互联网快速的发展,数据规模也是水涨船高,从早前的GB级到现在的TB级,甚至 ...

  3. 什么是大数据分析 主要应用于哪些行业?以制造业为例

    大数据作为IT行业最流行的词汇,围绕大数据的商业价值的使用,随之而来的数据仓库.数据安全.数据分析.数据挖掘等,逐渐成为业界所追求的利润焦点.随着大数据时代的到来,大数据分析也应运而生. 1.大数据分 ...

  4. 什么是大数据分析 主要应用于哪些行业?

    大数据作为IT行业最流行的词汇,围绕大数据的商业价值的使用,随之而来的数据仓库.数据安全.数据分析.数据挖掘等,逐渐成为业界所追求的利润焦点.随着大数据时代的到来,大数据分析也应运而生. 1大数据分析 ...

  5. 学习大数据分析要什么基础,零基础入门ok吗?

    CDA数据分析师原创作品 身处21世纪的今天,数据分析行业急剧发展,越来越多的企业已经意识到大数据分析的重要性和发展潜力,同时越来越多的传统行业公司开始转型升级,开始引入并发展专属自己的大数据分析部门 ...

  6. 电子商务中的大数据分析——数据平台和人工智能

    作者 | Ayn de Jesus 编译 | CDA数据分析师 ​数字原生电子商务企业习惯于帮助处理其客户提供的数据,以便为营销活动编写副本,运行PPC广告,计算客户生命周期价值以及基于CRM仪表板内 ...

  7. mmTrix大数据分析平台构建实录

    在数据分析中,有超过90%数据都是来自于非结构化数据,其中大部分的是日志,如运维.安全审计.用户访问数据以及业务数据等,但随着互联网快速的发展,数据规模也是水涨船高,从早前的GB级到现在的TB级,甚至 ...

  8. 拿不到 Offer 免费学,廖雪峰的“大数据分析全栈工程师”课程第11期即将封班!...

    随着大数据.人工智能的发展,企业每天会产生海量数据,而BAT等大厂日均数据更是达到了PB级别.企业则需要大量"数据人才"来处理这些复杂数据,帮企业精细化运营.因此,"大数 ...

  9. 大数据分析中使用关系型数据库的关键点

    相当一部分大数据分析处理的原始数据来自关系型数据库,处理结果也存放在关系型数据库中.原因在于超过99%的软件系统采用传统的关系型数据库,大家对它们很熟悉,用起来得心应手. 在我们正式的大数据团队,数仓 ...

最新文章

  1. 浙大计算机科学基础题型,浙江大学878计算机学科专业基础(含数据结构)考研复习经验...
  2. 每日一皮:这设计师真有才...
  3. python sqlite数据库一对多_Python:使用sqlite3进行多处理
  4. hive中建立“按天分区“的外表+存储为ORC文件+指定元数据
  5. Social Media Modify case - still about attribute_ref
  6. Precision-Recall Curve
  7. 悲观锁 引起死锁_悲观锁定时如何避免可怕的死锁-以及Java 8的一些用法!
  8. 建立单链表 单链表的插入_单链列表插入
  9. 计算机培训三下乡实践报告,暑期“三下乡”社会实践心得体会范文
  10. 标准模板库(STL)之 priority_queue 列传
  11. 随机数生成器python_Python中的随机数生成器
  12. linux设备驱动之PCIE驱动开发
  13. cartographer CSM理解
  14. Android手机录制屏幕及转GIF
  15. 小程序数据怎么传输到服务器,微信小程序怎么将数据传输到Java后台
  16. 圆圈中最后剩下的数字 ----《剑指offer》面试题45
  17. Saleae Logic 16 逻辑分析仪
  18. 用 Elasticsearch 统计做了几次核酸检测?怎么破?
  19. 使用计算机正确坐姿,电脑族的正确坐姿
  20. 二十一世纪大学英语读写教程(第四册)学习笔记(原文)——3 - How to Change Your Point of View(如何改变你的观点)

热门文章

  1. 《.NET应用架构设计:原则、模式与实践》新书博客-2.1.1-设计原则简述
  2. 【To Do!】程序员面试金典——18.8子串判断
  3. Flask开发服务器
  4. PTA--Reversing Linked List
  5. 02(d)多元无约束优化问题-拟牛顿法
  6. Numpy的学习6-深浅赋值(copydeep copy)
  7. android上传图片失败问题
  8. mysql服务器io等待高定位与分析
  9. (转)Ubuntu10.04编译FFmpeg
  10. 傻瓜式硬盘重装win7系统图文加视频教程