实例构建过程与分析

1.现在以一个比较简单的实例来分析和探讨MS SQL SERVER 数据仓库的构建过程。实际上数据仓的构建是相当复杂的,他结合了数据仓库的前端技术和很强的业务要求。在这儿只是以一个简单的实例来说明他大致的构建流程。

2.构建数据仓库模型,他包括两部分,一是要考虑原来的数据源能够提供哪些有用的数据,也就是经过数据的筛选之后能够为数据仓库所用。二是要看公司业务层需要什么样的分析结果。这要和公司的高级决策层紧密配合,完全了解他的业务需求,因为数据仓库的使用者主要是公司的高级决策者。[U1]

在这一阶段要做好很多前期的工作,因为你的原始数据库中的数据也许和你的正要建立的数据仓库的需求也许有很大的出入,结构完全是两马事。你如何才能将你的原始数据提取出来,作为数据仓库的有用数据呢,你的原始数据库中存储的是零碎的事务数据,而你的数据仓库中要的是经过转化和提炼过的统计数据,比如说,你的原始数据库中存储这每天的所有存款和取款记录,而你的数据仓库并不关心你的每条记录的数据,而是希望在最短的时间内,以最快的速度统计出这个月的所有存款和取款的总数量,如果这种查询放在原来的数据库上来做的话,也就失去了数据仓库的意义,超大规模的数据使你无法查询下去,这时候你就要将对这个查询有意义的数据转化到数据仓库,这就是数据清洗,即ETL。实现数据清洗有很多的方法,也有很多的细节问题,比如,数据类型的匹配,数据格式的转换,异地数据表数据集中到一起时有主键重复,以及你如何定期,按时的将数据加工到数据仓库中来等等。在我的示例中没有严格的经过着一步,因为我没有规范的原始数据库,也没有规范的业务需求。我只是运用星型模型和雪花模型做了几个典型的数据仓库表。其表关系如下:

窗口中FACT为事实表,TIME,ADDRESS,DETAIL分别为时间维,地址维,详细地址维,DETAIL又是ADDRESS的子维。他们又构成雪花模型。其中都有部分数据。

3现在,数据仓库已经建立成功,下一步就是在OLAP服务器上建立元数据数据库。这个数据库和我们以前所说的数据库不同,他是存放元数据的数据库,比如我们下一步要创建的多维数据集、角色、数据源、共享维度和挖掘模型等。然后需要和早期在 ODBC 数据源管理器中建立的数据源连接,使其与数据仓库连接上。

我创建了数据库MMM和数据源TEST,如下:

这些工作做好了之后,就可以用数据仓库中的维表来建立共享维度,现在以时间维和地址维为例。其创建过程一样。

依此点下一步即可创建时间维(TIME),下面用ADDRESS和DETAIL建立雪花模型共享维度

点下一步即可创建DETAIL维。创建完成之后都要进行处理才能生效

维度创建好了之后就该创建多维数据集了。多维数据集是一种基于维表和事实表的数据集,以他来对数据仓库进行快速的访问。我们的多维数据集结构如下:

DETAIL(SREET)

DETAIL(MARK)

ADDRESS(PROVINCE,CITY)

TIME(YEAR,DAY)

多维数据集STUDY的创建过程如下:

点下一步即可创建成功(STUDY),处理如下:

紧接着我门就应该创建挖掘模型

完成后处理如下:

到现在一个简单的数据仓库架构已经建立成功,我们利用前端分析工具来对建立的数据仓库做查询,看能否实现我们的简单的业务要求,先以EXCEL作为查询工具:

我们除了用EXCEL,ENGLISH QUERY 等现成工具做查询外,还可以用MDX函数直接对OLAP做查询

到现在为止,一个简单的数据仓库已经创建成功,可以实现一些简单的业务查询。这个实例主要是分析数据仓库的创建过程以及进一步加深对数据仓库的认识和了解,进一步理解其中的基本概念。


[U1]Qianti

转载于:https://www.cnblogs.com/yunhuasheng/archive/2007/03/14/674383.html

SQLSERVER数据仓库的构建与分析相关推荐

  1. 如何从 0 到 1 设计、构建移动分析架构

    作者:处厚,目前主要负责支付宝数据分析组件开发和通过移动开发平台 mPaaS 对外输出工作.本专题主要围绕 mPaaS 移动分析服务 MAS 展开分享如何从 0 到 1 设计.构建移动分析架构. 直播 ...

  2. 案例讲清如何构建“What-if分析”,教你轻松玩转动态参数

    在一般的数据分析中,我们用到最多的就是筛选.聚合.排序.对比这些常规分析方法.然而在某些情况下,我们也会遇到一些需要通过调参来实现数据的动态调整,进而根据不同结果来采取最优决策的分析场景. 有一个专有 ...

  3. 3个案例讲清如何构建“What-if分析”,教你轻松玩转动态参数

    在一般的数据分析中,我们用到最多的就是筛选.聚合.排序.对比这些常规分析方法.然而在某些情况下,我们也会遇到一些需要通过调参来实现数据的动态调整,进而根据不同结果来采取最优决策的分析场景. 有一个专有 ...

  4. 云原生数据仓库AnalyticDB Mysql(ADB分析型数据库)-DML语法之新增插入数据详解

    云原生数据仓库AnalyticDB Mysql(ADB分析型数据库)-DML语法之新增插入数据 ADB分析型数据库,是阿里云平台上资源,原名叫云原生数据仓库AnalyticDB Mysql,俗称ADB ...

  5. HashData助力销售易构建智能分析云平台

    背景 销售易是融合新型互联网技术的企业级CRM开创者,支持企业从营销.销售到服务的全流程自动化业务场景.相较于传统CRM软件以管理销售人员为核心,深受企业用户欢迎的新一代CRM--销售易致力于利用社交 ...

  6. ISME:微生物网络构建与分析面临的挑战

    关注我们 一起探索微生物领域的奥妙 摘要 微生物网络作为当下一种流行的数据分析方法被广泛应用于微生物群落研究.虽然目前已有许多并不断有新的微生物网络构建方法被开发出来,但与数据预处理.混杂因素.网络评 ...

  7. R语言构建生存分析(survival analysis)模型示例

    R语言构建生存分析(survival analysis)模型示例 生存分析处理的是预测特定事件将要发生的时间.它也被称为失败时间分析或死亡时间分析.例如,预测癌症患者存活的天数,或者预测机械系统将要失 ...

  8. 【开发环境】Ubuntu 中使用 VSCode 开发 C/C++ ④ ( 创建 tasks.json 编译器构建配置文件 | tasks.json 编译器构建配置文件分析 )

    文章目录 一.创建 tasks.json 编译器构建配置文件 二.tasks.json 编译器构建配置文件分析 可以参考官方提供的文档 : https://code.visualstudio.com/ ...

  9. 【Android 高性能音频】hello-oboe 示例解析 ( Oboe 源代码依赖 | CMakeList.txt 构建脚本分析 | Oboe 源代码构建脚本分析 )

    文章目录 一.Oboe 源码路径 二.阅读 CMakeList.txt 查看依赖 三.hello-oboe 中 NDK 的 CMakeList.txt 构建脚本 四.Oboe 源码 的 CMakeLi ...

最新文章

  1. python pandas 读写 csv 文件
  2. 自定义定时器的一点总结
  3. syslinux引导扇区不支持ntfs文件系统_实战 FAT12 文件系统
  4. 浅析Block的内部结构 , 及分析其是如何利用 NSInvocation 进行调用
  5. shmmax单位_kernel.shmmax ,kernel.shmmni 和kernel.shmall
  6. 【JavaWeb】数据库基础复习
  7. 【Leetcode】101. 对称二叉树
  8. Atitit.prototype-base class-based  基于“类” vs 基于“原型”
  9. 形式语言与自动机 第五章 课后题答案
  10. 全国重点城市建筑物矢量数据合集一(Shp格式+带高度)
  11. 解决Rstudio打开空白
  12. 游戏开发毛星云离世,他一直有个梦想:国产游戏能领跑世界
  13. image失败 安装scikit_安装SciKitImage错误127
  14. Excel批量导出当前工作表所有图片的快捷操作
  15. HTB靶场系列 Windows靶机 Optimum靶机
  16. 关于测试的一篇论文, 基于web端selenium的自动化测试设计与实现(有需要的联系我 此论文内容缺失,不要直接用 一经发现,后果自负)
  17. python分析红楼梦出现的虚词词频统计,python对红楼梦的每一章节进行词频统计
  18. 华为设备端口操作命令
  19. java 整数的立方和_java编程题目:编写一个程序,输入一个三位正整数,输出个、十、百位数字的立方和。新手,请详细一点...
  20. html给文字添加音标

热门文章

  1. 深度学习在CV领域的进展以及一些由深度学习演变的新技术
  2. 【Clion-Ubuntu-dlib】运行一个dlib案例(一)(如何在clion编译器中配置CMakeLists)
  3. CSDN移动博文集锦之Android核心分析 (Z)
  4. python 拾遗(一)
  5. 亚马逊训练alexa的方法_Alexa对话是AI驱动的对话界面新方法
  6. 设计数据密集型应用程序_设计数据密集型应用程序书评
  7. cloud 部署_使用Google Cloud AI平台开发,训练和部署TensorFlow模型
  8. Linux shell:shell 命令的返回值和输出
  9. stepinto stepout stepover的区别
  10. 一篇文章普及各种ios基本知识(防止奸商忽悠、鉴别假冒翻新机、知识入门必备)