2019独角兽企业重金招聘Python工程师标准>>>

一、摘要

随着物联网的告诉发展,数据量呈现井喷式的增长,如何来分析和使用这些数据,使数据产生商业价值,已经变得越来越重要。值得高兴的是,当前越来越多的人已经意识到了用数据分析决定商业策略的重要性,也都在进行着各行各业的数据分析。众所周知数据分析的核心是数据,为了更容易的分析数据,数据模型的设计需要遵循一定的规范。当前最流行的联机分析处理(OLAP)的规范为维度建模规范。本文介绍Quick BI如何进行维度建模,基于维度模型如何来自动化的生成分析查询的SQL语句,从而使数据分析变得更容易。

关键字: Quick BI、OLAP、维度建模、SQL

二、维度模型的分类

OLAP(On-line Analytical Processing,联机分析处理)根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。ROLAP表示基于关系数据库存储的OLAP实现(Relational OLAP),以关系数据库为核心,以关系型结构进行多维数据的表示和存储;MOLAP表示基于多维数据存储的OLAP实现(Multidimensional OLAP);HOLAP表示基于混合数据存储的OLAP实现(Hybrid OLAP),如低层用关系型数据库存储,高层是多维数组存储。接下来主要介绍基于关系型数据库的ROLAP的建模原理。

ROLAP将多维数据库中的表分为两类:事实表和维度表。事实表用于存储维度关键字和数值类型的事实数据,一般是围绕业务过程进行设计,例如:销售事实表,一般来存储用户在什么时间、地点购买了产品,销量和销售额等信息。维度表用于存储维度的详细数据,例如销售事实表中存储了产品维度的ID,产品维度表中存储产品的名称、品牌信息,两者通过产品ID进行关联。

ROLAP根据事实表、维度表间的关系,又可分为星型模型(Star Schema)、雪花模型(Snowflake Schema)。

1.星型模型

星型模型它由事实表(FactTable)和维表(DimensionTable)组成。事实表中的维度外键分别与相对应的维表中的主键相关联,关联之后由于形状看起来像是一个星星,所以形象的称为星型模型。以下示例为星型模型:其中sales_fact_1997为事实表,存储客户在某个时间、某个商店、购买了某个产品,购买量和销售额的信息,记录的是一个下单过程。事实表sales_fact_1997通过外键product_id、customer_id、time_id、store_id分别与维度表product(产品维表)、customer(客户维表)、time_by_day(时间维表)、store(商店维表)相关联,关联关系为多对一关联。

2.雪花模型

雪花模型是当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像一个雪花,故称雪花模型下面示例product(产品)维度表与product_class(产品类别)维度表通过product_class_id相关联,关联关系为多对一。product_class没有与sales_fact_1997事实表直接关联。

三、基于ROLAP模型的SQL生成原理

模型构建好了后,接下来的重点就是针对分析需求来生成满足分析需要的SQL语句,然后将SQL语句下发到DB中来查询数据,返回分析结果。下面通过具体的需求场景来介绍如何生成SQL语句。

1.基于星型模型(或雪花模型)生成SQL

需求场景:

按日期、产品查看总的销售额、销售量,日期限定在1997年,总销售额限定在1000元以上,结果按照总的销售额倒序排列,看前5个。

2.生成SQL思路

1.分析需要用到的字段和表,目标是明确查询需要用到哪些表、表间关系、表上分组字段、聚合字段,确定SQL中select和from信息。

2.分析筛选条件,目标是明确SQL中where中需过滤的值。

3.分析分组维度,目标是明确SQL中group by的字段。

4.分析聚合后的筛选条件,目标是明确having中需要过滤的值。

5.分析需要排序的列和排序类型(升序还是降序)。

6.生成结果个数限制条件

7.根据以上信息生成查询SQL:

select 分组字段、聚合字段 from 表(含表关联) where 筛选条件 group by 分组维度 having 聚合后的筛选条件 order by 排序信息 结果条数限制。

3.生成SQL 

按照上面的步骤,和本例子中的需求,分析查询中的关键信息(以下步骤与生成SQL思路中的步骤一一对应)

1.用到的分组字段:the_date、product_name, 其中分组字段the_date为日粒度,需处理为年粒度:DATE_FORMAT(`the_date` , '%Y')

聚合字段:store_sales、unit_sales,聚合方式都为sum;

用到的表:sales_fact_1997、product、time_by_day;

表间关系:sales_fact_1997. product_id= product. product_id

sales_fact_1997. time_id= time_by_day .time_id

2.筛选条件:

the_date`= STR_TO_DATE('1997-01-01 00:00:00' ,'%Y-%m-%d %H:%i:%s')

3.分组维度:DATE_FORMAT(`the_date` , '%Y')、product_name

4.聚合后的筛选条件:SUM(`store_sales`) > 1000

5.排序:order by 聚合后的别名 desc

6.限制结果个数:limit 0,5

7.生成的SQL如下

SELECT

DATE_FORMAT(TIME_T_4_.`the_date` , '%Y') AS TIME_THE_5_ ,

PRODUCT_T_2_.`product_name` AS PRODUCT_PRODUCT_6_ ,

SUM(SALES_T_1_.`store_sales`) AS SALES_STORE_7_ ,

SUM(SALES_T_1_.`unit_sales`) AS SALES_UNIT_8_

FROM

`quickbi_test`.`sales_fact_1997` AS SALES_T_1_

LEFT JOIN `quickbi_test`.`product` AS PRODUCT_T_2_ ON SALES_T_1_.`product_id` = PRODUCT_T_2_.`product_id`

LEFT JOIN `quickbi_test`.`time_by_day` AS TIME_T_4_ ON SALES_T_1_.`time_id` = TIME_T_4_.`time_id`

WHERE

四、附录-用到的表

下面罗列出以上示例中用到的表的建表语句,需要在 MySQL数据库下执行,其他类型数据库需要做一些调整。

1.sales_fact_1997表

CREATE TABLE `sales_fact_1997` (

`product_id` int(11) DEFAULT NULL,

`time_id` int(11) DEFAULT NULL,

`customer_id` int(11) DEFAULT NULL,

`promotion_id` int(11) DEFAULT NULL,

`store_id` int(11) DEFAULT NULL,

`store_sales` decimal(19,4) DEFAULT NULL,

`store_cost` decimal(19,4) DEFAULT NULL,

2.product表

CREATE TABLE `product` (

`product_class_id` int(11) DEFAULT '0',

`product_id` int(11) NOT NULL,

`brand_name` varchar(255) CHARACTER SET utf8 DEFAULT NULL,

`product_name` varchar(255) CHARACTER SET utf8 DEFAULT NULL,

`SKU` double DEFAULT NULL,

`SRP` decimal(19,4) DEFAULT '0.0000',

`gross_weight` float DEFAULT '0',

`net_weight` float DEFAULT '0',

`units_per_case` smallint(6) DEFAULT '0',

`cases_per_pallet` smallint(6) DEFAULT '0',

3.product_class表

CREATE TABLE `product_class` (

`product_class_id` int(11) NOT NULL,

`product_subcategory` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`product_category` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`product_department` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`product_family` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

4.time_by_day表

CREATE TABLE `time_by_day` (

`time_id` int(11) NOT NULL,

`the_date` date DEFAULT NULL,

`the_day` varchar(15) CHARACTER SET utf8 DEFAULT NULL,

`the_month` varchar(15) CHARACTER SET utf8 DEFAULT NULL,

`the_year` varchar(10) CHARACTER SET utf8 DEFAULT NULL,

`day_of_month` smallint(6) DEFAULT NULL,

`week_of_year` double DEFAULT NULL,

5.customer表

CREATE TABLE `customer` (

`customer_id` int(11) NOT NULL DEFAULT '0',

`account_num` double DEFAULT '0',

`lname` varchar(100) CHARACTER SET utf8 DEFAULT NULL,

`fname` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`mi` varchar(20) CHARACTER SET utf8 DEFAULT NULL,

`address1` varchar(100) CHARACTER SET utf8 DEFAULT NULL,

`city` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`state_province` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`postal_code` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`country` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`customer_region_id` int(11) DEFAULT '0',

`phone1` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`occupation` varchar(50) CHARACTER SET utf8 DEFAULT NU

6.store表

CREATE TABLE `store` (

`store_id` int(11) NOT NULL,

`store_type` varchar(255) CHARACTER SET utf8 DEFAULT NULL,

`region_id` int(11) DEFAULT '0',

`store_name` varchar(255) CHARACTER SET utf8 DEFAULT NULL,

`store_number` double DEFAULT NULL,

`store_street_address` varchar(255) CHARACTER SET utf8 DEFAULT NULL,

`store_city` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`store_state` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

`store_postal_code` varchar(50) CHARACTER SET utf8 DEFAULT NULL,

原文链接
更多技术干货 请关注阿里云云栖社区微信号 :yunqiinsight

转载于:https://my.oschina.net/u/3827390/blog/3006008

Quick BI 的模型设计与生成SQL原理剖析相关推荐

  1. 让数据中台飞起来—— Quick BI性能优化解决方案及实践

    Quick BI"数据门户"在企业数据中台建设中的重要性 企业在数据中台初步建设完成以后,怎样让客户直观感受到数据中台的价值?企业决策者.各部门管理人员.业务运营人员如何通过统一的 ...

  2. 让数据中台“飞“起来— Quick BI性能优化解决方案及实践

    1 引言 Quick BI"数据门户"在企业数据中台建设中的重要性 企业在数据中台初步建设完成以后,怎样让客户直观感受到数据中台的价值?企业决策者.各部门管理人员.业务运营人员如何 ...

  3. Quick BI:降低使用门槛,大东鞋业8000家门店的数据导航

    简介:通过引入MaxCompute和Quick BI,大东解决了以往数据查询即刻导致数据库闪崩的状况,还搭建起完善的报表体系,稳定应对高频.高并发的数据分析. 大东鞋业一季大约有500款的新品.大区下 ...

  4. 一文带你了解企业上云数据分析首选产品Quick BI

    简介:阿里云Quick BI再度入选,并继续成为该领域唯一入选魔力象限的中国企业,文章将为大家详细介绍上云数据分析首选产品 Quick BI的核心能力. 日前,国际权威分析机构Gartner发布202 ...

  5. Quick BI电子表格: 新手亦可表格自由

    简介: 随着企业业务快速增长,单纯的表或交叉表展现的数据模式相对固定,已不能满足企业中不同角色用户.不同业务场景数据可视化分析展现的诉求.在满足业务人员可视化需求层面,Quick BI不仅提供了丰富的 ...

  6. 电商项目_使用Quick BI 可视化工具进行展示

    五.使用阿里云产品进行数据可视化(Quick BI) 结果看板 https://bi.aliyuncs.com/token3rd/dashboard/view/pc.htm?pageId=404598 ...

  7. 国内唯一连续入选Gartner,Quick BI是如何做到的?

    简介:阿里云Quick BI凭借灵活的公共云部署,私有化独立部署能力.无缝对接各类云上数据库和自建数据库.可视化搭建分析.高效数据处理能力与强大数据计算能力,使得在2022年持续入选Gartner A ...

  8. Quick Bi经验总结

    Quick Bi经验总结 Quick Bi简介 ​ Quick BI是阿里云的产品,是一个专为云上用户(数据量特别大,借助阿里云进行数据托管)量身打造的新一代智能BI服务平台,当然也支持线下用户(即我 ...

  9. 运营也用的起来的数据分析工具:Quick BI即席分析详解

    简介: 数据部门是一个容易被投诉的"高危"部门,需求响应慢.数据准确性不高会影响业务的发展. 然而数据分析师每周动辄就有几十个需求在手,无限的加班也无法解决所有问题,到底怎样才能改 ...

最新文章

  1. java重要基础知识点_必看 | 新人必看的Java基础知识点大梳理
  2. 金字塔式梯度方向直方图(PHOG)
  3. Qt实现拖动一个lineEdit同时拖动mainwindow
  4. 文计笔记2: 计算机硬件知识
  5. 概念辨析:工厂模式 工厂方法模式 简单工厂模式 抽象工厂
  6. php如何识别快手广告预览,快手广告如何进行精准投放?快手官方广告位有哪些...
  7. Silverlight通过Wcf Data Service访问数据库之ADO.NET Entity Framework篇
  8. aix查看oracle用户密码,AIX详细查看用户/进程使用内存
  9. ARMv6 ARMv7 架构 整体介绍
  10. 快递100 快递公司编码-标准国际
  11. turbo编译码c语言,Turbo码的编译码原理及仿真.pdf
  12. Map集合常见面试题
  13. Hyper-V虚拟机启动报错:IDE/ATAPI 帐户没有足够的权限
  14. 图片去水印方法(不用下载任何东西)
  15. 【Chrome】浏览器控制台设置成中文
  16. python re 中文_python处理中文编码
  17. 靶机渗透练习25-Funbox4-CTF
  18. python爬虫汽车之家全车型及基本参数入数据库(截止50524个数据)(详解)
  19. 操作系统【用户接口】命令解释程序的主要功能、系统调用与一般过程调用的不同之处、系统调用的参数传递方式、系统调用的处理步骤
  20. Modeling in Blender: Low Poly Car

热门文章

  1. SpringBoot无法书写主启动类的情况之一
  2. 重读ORB_SLAM之Tracking线程难点
  3. WKWebView中经常用到的操作
  4. linux中yum命令详解
  5. RxJava 和 RxAndroid 三(生命周期控制和内存优化)
  6. 数据存储之属性列表Plist
  7. FreeBsdb FAMP Lamp环境
  8. PowerDesigner使用总结(转)
  9. Mac 新建unix可执行文件
  10. 加密移动硬盘解决方案