我将整理文章分享数据工作中的经验,因为业务内容上的差异,可能导致大家的理解不一致,无法体会到场景中的诸多特殊性,不过相信不断的沟通和交流,可以解决很多问题。前面我们分析了职场基本功、数据指标体系,今天我们来就前面文章中的指标体系,聊一下数据仓库的搭建和数据可视化

历史导读:

小进阶:数据指标体系和数据治理的管理

小诀窍:不妨尝试从交付质量上打败对手

以下,Enjoy:

0x01 为什么基于指标体系搭建数据仓库

前面文章中我们提到过为什么要搭建指标体系,如果还无法体会指标体系的作用和意义,可以通过历史导读重温前面的2篇文章,或者加入我们的微信群,同大家一起交流。这里简单的在换2句话描述一下做指标体系的重要性。

  • 搭建指标体系实际上是同需求方达成一种协议,可以有效地遏止不靠谱的需求,让需求变得体系且有条理;
  • 数据指标体系是指导数据仓库搭建的基石,稳定且体系的数据需求,有利于数据仓库方案优化,效率提升。

没有数据指标体系的团队内数据需求经常表现为“膨胀”现象。每个人都有看数据的视角和诉求,然后以非专业的方式创造维度/指标的数据口径。数据从业人员被海量的数据需求缠住,很难抽离出业务规则设计好的解决方案,最终滚雪球似的搭建难以维护的“烟囱式”数据仓库。

提供数据可视化方案的过程,依然存在像搭建数据仓库一样的问题。数据可视化报表数量膨胀但使用率低,好似再多的数据报表都远远不够满足数据需求一样。长久下来维护成本居高不小,效益率不够高。这让数据从业者很苦恼,如果大家还有其他苦恼的问题,希望继续深入的沟通了解,欢迎评论留言或者加入我们的微信群聊共同交流。

0x02 基于指标体系搭建数据仓库思考

我们简单回忆下的数据仓库分层问题,做“又宽又薄”的数据仓库分层,让数据能够有序的流转。数据全链路的整个生命周期只有通过层次才能清洗明确的被使用者感知和消费。任何跨层依赖,循环依赖,多重依赖都会导致数据问题的多发且不可维护。

  • 数据仓库常见分层方式
  • 数据仓库分层和跨层依赖、循环依赖、多重依赖的不同表现形式

因此,我们需要有效的组织和管理数据,让它更有秩序。

  • 每层都有作用域和职责,清晰每层数据的目标定位和理解。
  • 规范工作方式,做标准数据分层,开发通用性强(健壮)的数据中间层,避免耦合重复计算问题。
  • 提供统一的数据服务,输出统一认知的数据口径
  • 将复杂的数据任务拆解,标准步骤每层解决场景问题。

从数据仓库的分层来看,ODS层是贴业务,形态主要依赖业务数据形式;APP层是贴使用场景,取决于数据怎么呈现和消费,DW层是中间层,负责发挥重要的扩展作用,肩负大量的数据加工计算责任。

鉴于以上数据仓库的分层逻辑,我们不难得出结论。

  • ODS层的搭建不需要过多思考,依赖业务库的表现形式;
  • APP层的更多依赖数据最终的场景搭建,考虑场景因素居多,比如多维、速度、口径。

只有DW层让数据生产者有极大的发挥空间,如何设计出好的(扩展性强)DW层是数据仓库的重点标准,相信很多同学在DW层搭建的过程都出现过类似问题“理想很丰满,现实很残酷”,搭建的数据“不接地气,不实用”,还是不能解决数据需求问题,总是跟不上业务的发展变幻。

那么,从现在开始不妨首先建立指标体系,基于指标体系搭建数据仓库。我们常见的指标体系大致包含以下内容:

  1. 产品框架
  1. 数据矩阵

说明:

根据产品框架梳理出可靠的数据矩阵效果最佳,单现实的情况是在产品框架下的不同报表的指标口径或是计算逻辑可能存在差异,因此数据矩阵可以是根据某个报表单独针对性小矩阵。

  1. 数据口径

说明:同数据矩阵一样不同的数据报表中,相同的指标名称可能存在不同的数据口径或者计算逻辑 ,因此指标的口径定义方面也可以做一些调整,例如口径和计算逻辑不同,必须区分出不同的指标名称,或者是相同的指标名称,做好指标口径定义的说明,告知受众群体差异点在哪里。

0x03 基于指标体系搭建数据仓库

常见的数据仓库搭建,实现数据分层大致分为两种模式:

  • A模式:基于业务实体或者数据的应用场景,从应用层向底层推导过程。
  • B模式:基于已有的数据,从底层分类整理数据,向应用层逐步搭建。

以底层向应用层搭建数据仓库,侧重在于需求尚且不清晰的情形下开展数据开发工作,首先实现数据预处理,做好数据的采集对接和数据主题分类。以备数据消费场景落地的时候,快速实现功能的开发。这种模式通用型强,使用广泛,同时也会造成很多冗余和设计不合理,实际响应需求的时候出现扩展性差,重构几率高的现象。

另一种模式则是在需求明确的前提下,以需求向底层推导数据仓库建模。通过需求让参与项目的各方快速理解业务诉求,统一目标的认知。高质量的梳理出业务需求和数据仓库之间的关系,针对性强的搭建数据仓库。但是这依然有诟病,就是数据建设容易出现“烟囱式”搭建,满足场景有限,复用性差。

基于指标体系搭建数据仓库,主要解决的是“A模式”中的数据场景考虑不全面的问题。如果数据的使用场景考虑不全面就会造成“烟囱式”数据搭建,复用性差。数据需求如果以“点状”碎片的形式提出,没有全局的认知和规划,数据仓库的搭建只能针对性的以“点状的烟囱式”搭建。如果需求能体系化的产出,梳理出业务场景中所需要的维度、指标。那么就可以最大限度的解决数据建模过程中的“烟囱式”,从而让数据的搭建“又宽又薄”。

例如,我们有如下数据矩阵

那么,我们可以选择的数据仓库分层建模方式如下

说明库.表1:通过APP层的数据表服务数据可视化,数据应用服务,多维查询;库.表2:实时明细表,通过与其他的实时表(库.表3)或者维度表(库.表4、5)关联生成APP层的数据表;库.表6:埋点数据产生的日志表,或者是从业务库对接过来的业务数据(比如订单数据)

0x04 数据可视化报表

小尝试:基于指标体系的数据仓库搭建和数据可视化相关推荐

  1. 层 数据仓库_小尝试:基于指标体系的数据仓库搭建和数据可视化

    关于作者:小姬,某知名互联网公司产品专家,对数据采集.生产.加工有所了解,期望多和大家交流数据知识,以数据作为提出好问题的基础,挖掘商业价值. 0x00 前言 我将整理文章分享数据工作中的经验,因为业 ...

  2. 企业级大数据项目建设之数据仓库搭建与数据治理概况版

    本文分为数据仓库建设和数据治理,篇幅比较长,耐心看完. 数据模型 不管是从计算成本,易用性,复用性,还是一致性等方面,我们都必须避免烟囱式的开发模式,而是以中间层的方式去建设实时数仓,烟囱式架构有很大 ...

  3. Java初学小项目--基于awt库,swing库的可视化电影管理系统(三)

    前言 这是电影管理系统项目的第三篇博客,也是该程序最后一篇博客,前面两篇博客已经介绍了管理系统的可视化实现,看了前面博客的朋友对于各个功能可视化的实现应该都可以完成了,最后一步就是将我们要执行的指令传 ...

  4. 这个数据集同时记录了血糖值和PPG 数据, 试图用CNN找到他们之间的关联关系,尝试基于PPG的无创连续检测血糖!

    本文作者联系方式:392625227@qq.com This data set records the blood glucose and PPG data at the same time, try ...

  5. 基于表格存储的高性能监控数据存储计算方案

    概述 随着软件架构的愈发复杂,了解系统现状.调查问题的困难度也增加了很多.此时,一套完善的监控方案能够让开发和运维工程师快速排查问题,更好的维护系统的稳定性. 开源监控方案中,Zabbix.Nagio ...

  6. 6.数据仓库搭建之数据仓库设计

    数据仓库搭建之数据仓库设计 1.数据仓库的分层规划 本项目的分层规划如下图所示: 对于原始数据层(ODS):该层我们存放的是未经处理的原始数据,结构上与源系统保持一致,这是数据仓库的数据准备区. 对于 ...

  7. 基于EasyExcel锁定指定列导出数据到excel

    基于EasyExcel锁定指定列导出数据到excel 大家好,我是llp.最近在做系统报表时中有一个需求时这样的,需要查询系统数据导出excel,并要求导出的excel列中有一些时锁定的有一些时不锁定 ...

  8. node.js+小程序基于微信小程序的校园失物招领系统毕业设计源码072343

    微信小程序的校园失物招领系统 摘  要 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,微信小程序的校 ...

  9. 一种基于物联网技术的能源物联网数据服务平台

    摘要:随着物联网技术的快速发展,同时考虑到能源互联网的重要性以及传统电力通信技术的不足,本文提出了一种基于物联网技术的能源物联网数据服务平台,可为分布广泛的互联网用户提供PAAS服务.用户完成安科瑞物 ...

最新文章

  1. B - 娜娜梦游仙境系列——跳远女王
  2. mysql 查询优化
  3. ES6 let与const基础用法笔记
  4. 表格列mouse经过时高亮显示
  5. Linux服务器安装svn
  6. java 显示服务器的图片,【JavaWeb】实现读取本地服务器路径下的图片
  7. Android Native 代码NDK开发学习笔记
  8. WLAN射频、信道与帧分类
  9. css居中对齐的几种方法
  10. c#(webapi)获取当前项目路径
  11. 使用PMOS管构建电源延时供电电路
  12. 关于适配器网络出现/键盘注册表损坏
  13. 如何用计算机测量图片景深,用比较仔细的测量搞清楚“景深”(1.实测景深与公式比较)...
  14. Windows利用系统自带的Dism命令挂载wim文件
  15. photoshop中如何在6寸相纸上打印1寸照片12张3X4模式(手动拖动模式)
  16. JVM:Java指令源码opcode
  17. 隧道安全管理八大系统
  18. 大神级DIY作品:运动跟随大眼睛,软件硬件结构一个都不能少
  19. Oracle12c DBCA方式创建数据库
  20. C语言-MSB/LSB大小端序

热门文章

  1. 汽车保养猫腻太多,名悦集团教你轻松养车省钱省力
  2. 智能家电项目Linux程序,基于ARM-Linux的无线智能家居系统
  3. 鼠标控制两台台式机_台式机和控制台上的真棒实时GI
  4. 制作导出App各尺寸图标:appicontemplace
  5. 视频去水印-视频去水印哪个软件好用
  6. 一步移民加拿大,BC省雇主担保移民项目
  7. 一个驱动无法加载的分析
  8. 看了这几个原创AI公众号,再也不担心错过前沿技术干货啦!
  9. Json和Json解析
  10. 项目总结 OTO项目