大家好,我是一哥,最近在做数据治理相关的工作,说下数据治理里面很重要的一块,同时也可以作为数据治理的一个成果—数据地图。

图:来自亿信

文章分为以下四个部分:

1. 背景

2. 数据地图需要解决的问题

3. 数据地图的能力

4. 数据地图长什么样

01

背景

讲好什么是数据地图,还有从数据治理说起,很多公司的数据治理搞的就仅仅是看了几篇网上了理论文章,就开干,最终不了了之。为什么?其中一个很重要的原因是没有做好数据地图。开始打仗了,才发现自己连一个作战地图都没有,怎么调兵遣将?数据治理同事做了大量的数据模型和指标,但是数据使用人员却不知道如何快速找到自己想要的数据模型和指标。

02

数据地图需要解决的问题

上面背景已经说了,数据地图至少应该解决两个问题:如何寻找数据如何用好数据

如何寻找数据

企业级的数据仓库会有上千个数据模型,对于分析师来说,怎么找到自己要用的模型呢?比如分析师在找销量数据时,可能会有很多销量的指标,所以数据地图需要对销量数据进行区分,以便能够指导是哪类商品的销量,同一类的销量可能还会来自不同系统,需要对不同系统的销量进行区分等等。

如何利用好数据

很多时候分析师或业务人员拿到数据后还会找数据工程师确认数据的来源,口径是否是自己想要的数据。有很多数据工程师都抱怨自己会花费很多时间“解释”指标。

只有让数据使用人员能够快速的找到数据并利用好数据,数据才能真正的发挥价值,而数据地图就是来解决这个问题的。

03数据地图的能力

根据上面说的数据地图需要解决的问题,那么数据地图应该具备数据搜索、数据推荐、数据解析、数据画像四大关键能力。

数据搜索

通过对数据的分类、打标签等,让用户快速的搜索出自己想要的数据,类似百度搜索,输入关键字,即可查询出相关的内容。比如搜索“手机销量”,能够精准的匹配出对应名称的指标和数据模型,还会带出符合关键字搜索规则的相关其他指标和模型。

数据推荐

如果你玩短视频平台,就会发现,每次APP都会给你推荐你感兴趣的视频,比如你喜欢看美女,点个赞就好,会一直给你推高质量的美女视频,我们也称之为“大数据杀熟”。

同样数据也一样,很多人都使用的数据,那必然是业务关键的数据,数据推荐可以让用户更容易找到自己相关业务的高质量、可食用的数据模型和指标,大家都不用的模型和数据,要么是错误的指标,要么是过期的指标,后面也方便对这些模型指标进行优化和下线。

推荐是系统自动实现的,同时我们也要提供一个手动实现的推荐,比如收藏功能,收藏了下次能够更高效的访问使用。

数据解析

数据解析可以帮助业务使用人员“读懂数据”,比如可以看到数据的指标口径,数据模型的描述、字段数据来源,数据模型的血缘关系,保存周期等等。

数据画像

用户画像这次我们了解的多一些,主要描述用户的特征,喜好等,数据一样也有画像,数据所属的业务,数据本书的标签,数据画像可以提高搜索的准确性。

04

数据地图长什么样

根据上面的数据地图能力总结,画了部分数据地图的功能图,大家请参考。

数据搜索

数据推荐

数据解析

数据画像

05总结

当然数据地图在每个公司和业务场景下理解可能还会有偏差,比如还有任务血缘、数据血缘等我没有提到。但是总的来说,数据地图的目的只有一个,就是解决“取数难”和“用数难”两大问题。

你的公司有建设数据地图吗,是什么样的,欢迎大家留言讨论~

欢迎加入 大数据 |数仓技术交流群

进群方式:请加微信(微信号:dataclub_bigdata),回复:加群,通过审核会拉你进群。

(备注:行业-职位-城市)

福利时刻

01. 后台回复「资料」,即可领取大数据经典资料。

02. 后台回复「转型」,即可传统数据仓库转型大数据必学资料。

03. 后台回复「加群」,或添加一哥微信IDdataclub_bigdata  拉您入群(大数据|数仓|分析)或领取资料。

 

关注不迷路~ 各种福利、资源定期分享

数仓治理:数据地图长什么样?相关推荐

  1. 从数仓到数据中台,谈技术选型最优解

    本文根据颜博老师在[Deeplus直播第218期]线上分享演讲内容整理而成. 颜博 马蜂窝数仓研发总监 现任马蜂窝数据仓库团队负责人,曾供职于京东.IBM.亚信等公司. 数据行业老兵一名,历经传统数据 ...

  2. 浅尝辄止:数据库--数仓大数据平台--数据中台

    很久没有更新博客了,今天主要是想谈一谈自己工作几年总结的心得. 1.浅尝辄止 数据库:基于mysql,oracle来实现数据库分析(存储在数据库,使用数据库语言直接分析,最后成报表形式). 数仓&am ...

  3. [数仓笔记]数据建模

    [数仓笔记]数据建模 1. 为什么需要数据建模 2. 典型的数仓建模方法论 2.1 关系建模 2.2 维度建模 3. 数据整合及管理体系 3.1 体系架构 3.2 指标体系 3.2.1 定义 3.2. ...

  4. 大数据演进简史:从数仓到数据中台,谈技术选型最优解

    大家好,今天分享的议题主要包括几大内容: 带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程: 我个人认为数据中台的核心组成,以及一些技术选型参考: 数据研发是数据中台很重要的一环, ...

  5. 看这篇就明白大数据实时数仓、离线数仓、数据湖之间的关系

    数仓架构演变 20世纪70年代,MIT(麻省理工)的研究员致力于研究一种优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则 ...

  6. 数仓实时数据同步 debezium

    数仓实时数据同步 debezium 背景 debezium 简介 架构 基本概念 例子 Router 目前遇到的问题 背景 数据湖将源库的数据同步到hive数仓ods层,或直接在kafka中用于后面计 ...

  7. 数仓和数据中台长期霸权,数据湖最稳

    随着信息化进程的加快,传统数仓越来越无法适应海量数据存储和分析的需求,天下苦数据仓库久矣! 只能存储结构化数据,无法采集存储非机构化数据: 无法存储原始数据,所有数据须经过ETL清洗过滤: 离线数仓的 ...

  8. 数仓建模—数据同步方案设计

    数据同步方案设计 通过前面的学习数据仓库的特性之一是集成,关于一点你可以参考我们前面的文章 数仓建模-数仓初识 数仓建模-数据集成 数据集成狭义上来说就是把未经过加工处理的.不同来源的.不同形式的的原 ...

  9. 谈笑间学会数仓—大数据建模过程

    谈笑间学会数仓-大数据建模过程 首先我们先来了解一下,大数据建模都需要遵循哪些原则呢?先来列举一下 建模原则 高内聚和低辑合 将业务相近或者相关.粒度相同的数据设计为一个逻辑或者物理模型:将高概率同 ...

最新文章

  1. mysql time_limit_mysql ---- limit使用方式
  2. 面试中有哪些经典的数据库问题?
  3. 前端学习(2943):vue结合bs搭建首页
  4. 安装云端服务器操作系统,安装云端服务器操作系统
  5. DataGridview动态添加列
  6. kotlin 类和对象_Kotlin程序| 类和对象的示例(带有学生数据)
  7. 扫地机器人电路原理图_扫地机有这一台就够了:石头扫地机器人T6 首拆
  8. CTS(10)---谷歌CTS测试之Verify简介
  9. C语言中指针的基类型,c – 将指针从一种基类型转换为另一种基类型
  10. linux终端快捷方式
  11. jquery自适应宽度轮播图
  12. 随机手机号查询易语言代码
  13. java生成类图_Java反向生成类图
  14. css挪动背景块位置的属性,CSS 背景位置 background-position属性
  15. WIN7 中 SMTP服务器的配置
  16. 初识Centos7.5
  17. OTP(OneTimeProgrammable)开发之义隆仿真器
  18. 拯救智慧城市:要智商还有生气
  19. MySQL数据库实现主从同步
  20. 目前国内可用的前端库及Zdir自建前端库

热门文章

  1. TFT_LCD 驱动芯片 SSD1963QL9
  2. 哈工大李治军老师操作系统笔记【10】:内核级线程实现(Learning OS Concepts By Coding Them !)
  3. 西门子1200plc485轮询读写28个测试仪表,包括plc程序和触摸屏程序
  4. 高新企业认定后的条件
  5. C#合并多个richtextbox内容时始终存在换行符的解决方法
  6. 泰山OFFICE技术讲座:Times New Roman的kerning研究
  7. React 基础学习
  8. AStar路径规划算法
  9. 2022/08/04、05 day01-2/02:Redis数据类型
  10. 读书笔记——寻找道德