数据仓库与数据挖掘 4(上)
SqlServer 2012 创建数据仓库
开始实战!很简单的。没有代码,没有代码,没有代码!
对OnRet数据库应用SSIS,创建ETL包,设计开发对应的数据仓库
hive版本请看:点击这里
实验环境
OS:win7
SqlServer2012
SQL Server Data Tools(SSDT) (SqlServer附带)
SSIS(SSDT的项目,是Microsoft SQL Server Integration Services的简称,是生成高性能数据集成解决方案(包括数据仓库的提取、转换和加载 (ETL) 包)的平台)。
数据来源
OnRet数据库:https://pan.baidu.com/s/1VFCbn9Dip3cRD4tHCBD-_Q
提取码:whn7
下载后,打开sqlserver2012(我的版本)对象资源管理器SSMS
OnRet 数据库为一个在线商城项目的数据库。表格为
【请忽略我的标记为1的表格】
这样就完成了数据库的导入了,教学较为简单,只用这一个数据库作为数据仓库的来源。
设计、创建数据仓库DW
选定一个感兴趣的主题,设计多维模型。例如:以商品的销售额和销售量为主题设计的星型模型。
需要五个维表:Dates(时间),Locates(地点),Products(产品),Education(教育程度),Age(年龄)
一个事实表:sales(销售)
在SqlServer中创建数据库SDW存放数据仓库。(这种方法较为简单)
创建以上几个表格
创建Integration Services项目
打开SSDT
SQL Server Data Tools(SSDT) 曾叫做Business Intelligence Development Studio(BIDS),是开发人员所需要的开发环境。它为SSIS,SSAS,SSRS的商业智能项目提供了可视的设计界面。从SQL Server 2014版本开始,该环境不再包含在SQL Server的安装包内,需要另行安装。
此外SSIS简易教程请看:点击这里
或者查找官网:https://docs.microsoft.com/en-us/sql/integration-services/sql-server-integration-services?view=sql-server-ver15
并添加OLEDB连接管理器连接OnRet和SDW数据库
最好使用sa账号,避免出错。
同样的,对于输出数据库也添加连接
ETL过程就是从OnRet数据库中抽取数据,转换,统一后存储到SDW中。
开始ETL
时间维表
点击SSIS右键创建SSIS包,设置数据流任务,添加OLEDB源,设置为OnRet数据库中的表。抽取Date数据,将表设置为Sales,并在列中添加日期。
第一步,创建数据流任务
第二步,设计数据流任务,双击数据流任务,转到数据流设计页面:增加数据源(把对应数据源的控件拖过来),双击进入编辑页面
订单中的日期即为对应的时间,需要将其抽取出来,划分层次。
第三步 派生列
因为只有一个列(属性),我们希望时间是多层次的,所以添加派生列,并如图配置。
双击组件进入编辑,添加对应的维成员。
第五步、 添加排序,去除时间维表的重复行
为了时间的唯一性,添加排序,去除重复行(多个订单可能是同一天的)
同样的方法,把排序组件拖过来,双击编辑
第六步 输出到目标仓库维表中
添加OLEDB目标(拖过来),设置输出表为SDW的Dates表,并设置映射,部署之后就能得到结果。
映射中一一对应。
输入是数据来源,目标列是SDW中Dates维表的属性列,他们设置的数据类型必须一致。
第七步 点击部署,即可。
地理维表
和上述过程基本一样。
需要确定地理维度的来源:选取OnRet数据库的Area表。
第一步 创建SSIS包,设置数据流任务,添加OLEDB源。
双击数据流任务进入数据流设计页面,新增数据源(还是原来的设置)
添加OLEDB源后,选取OnRet数据库的Area表,勾选除编号外所有可用外部列。
因为这里已经包含了地区维层次,不必增加新成员,所以不需要派生。
添加OLEDB目标,设置输出表为SDW的Locates表,并设置映射,部署之后就能得到结果。
部署即可。
其他的维表和事实表操作请看下一个数据仓库与数据挖掘 4(下)。
参考
https://docs.microsoft.com/en-us/sql/integration-services/sql-server-integration-services?view=sql-server-ver15
https://baike.baidu.com/item/SSIS/5351898?fr=aladdin
数据仓库与数据挖掘 4(上)相关推荐
- 数据仓库与数据挖掘的一些基本概念
下面内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line T ...
- 《数据仓库与数据挖掘教程》ch01绪论 章节整理
数据仓库概述 从传统数据库到数据仓库 计算机数据处理有两种主要方式 事务型处理 分析型处理 传统数据库与事务处理 传统数据库是长期存储在计算机内的.有组织的.可共享的数据集合 有严格的数学理论支持,并 ...
- 数据仓库与数据挖掘(全英文)期末复习
MOOC地址数据仓库与数据挖掘_北京理工大学_中国大学MOOC(慕课) (icourse163.org)https://www.icourse163.org/course/BIT-1464031178 ...
- 数据仓库与数据挖掘教程 || 警务数据仓库“犯罪_ETL”,“地址_ETL”和“派出所_ETL”数据流任务配置说明
本文主要是关于清华大学出版社,黄德才老师<数据仓库与数据挖掘教程>第四章中关于警务数据仓库"犯罪_ETL","地址_ETL"和"派出所_E ...
- 计算机三级数据库数据仓库与数据挖掘(二)、数据仓库、面向主题、不可直接修改、批量访问、数据的粒度级设计、决策支持、元数据、封锁粒度、维护策略、实时维护、延时维护、快照维护、
14.在具有数据仓库的企业数据环境中,数据仓库数据一般都具有许多特点,下列都属于其特点的是 A.面向主题.不可直接修改.批量访问 B.面向主题.可直接修改.性能要求较为宽松 C.集成的.可直接修改.批 ...
- 《数据仓库与数据挖掘》期末复习总结
<数据仓库与数据挖掘>期末复习总结 适用教材:<数据挖掘概念与技术(第3版)>,Jiawei Han,Mieheline Kamber,Jian Pei著,机械工业出版社 提示 ...
- 《数据仓库与数据挖掘教程》ch02数据仓库原理 章节整理
数据仓库原理 多数据源问题 多数据源 数据仓库和数据挖掘的数据通常来自多种数据库或计算机应用系统或数据文件.web页面 多数据源在集成的问题 数据不一致:数据的不一致性主要指数据之间的矛盾性和不相容性 ...
- 【数据库系统工程师】6.4数据仓库和数据挖掘基础知识
目录 一.思维导图 二.知识点 1.数据仓库 (1)数据仓库与数据库比较 (2)数据仓库的基本特性 (3)数据仓库的数据模式 (4)数据仓库体系结构 2.数据挖掘 (1)数据挖掘分类 (2)数据挖掘常 ...
- 计算机三级数据库数据仓库与数据挖掘(一)、快照方式、元数据、数据仓库中数据特征、机器学习、聚类方法、分类算法、决策支持系统、表数据的粒度级、分布式数据库、
1.在建立数据仓库的数据集成工作中,需要采用适当的策略从数据源获取变化数据.下列数据表中,一般情况下不适宜采用快照方式从业务系统获取数据的是 A.门店表.销售人员表 B.商品清单.商品类别表 C.顾客 ...
- 《数据仓库与数据挖掘》期末复习总结(1)
<数据仓库与数据挖掘>期末复习总结(1)-(第一章 引论) 第一章 引论 1.OLAP 2.大数据的5V特征 3.数据挖掘 4.数据挖掘实验基本步骤 5.数据挖掘过程 6.数据的基本形式 ...
最新文章
- iptables防火墙设置实例
- 利用多项式特征生成与递归特征消除解决特征组合与特征选择问题
- hibernate_day03_多对多关联映射
- 计算机课搞事情检讨,上微机课玩游戏检讨书
- mysql的timestamp类型_MySQL数据库中的timestamp类型与时区
- field-symbols的用法[转]
- 简明python教程最新版价格_《简明Python教程》【价格 目录 书评 正版】_中国图书网...
- python图像分类实验总结_第4章 图像分类(image classification)基础
- java 调度_几种任务调度的Java实现方法与比较
- win10+ubuntu16双系统卸载流程及问题总结
- android五线谱播放器,口袋五线谱app下载
- 微信分享图标设置,以及wx.config配置
- mininet和ryu简单实现自定义topo
- 2022-2028年中国微创治疗行业市场运行态势及发展战略研究报告
- 存了半年工资去旅游,结果公司不批假!
- Uefi ABL读取XBL设置的标志位
- jQuery实现平年闰年判断
- CSS——此css非彼css
- 做电影出品人的秘密,你知道多少!
- 机房安全监控设备连接图及指令发送