小B是一名数据分析师,他问小A XXX的所有指标项给我一下,小A“鄙视的”给了我一份文档……

by小AA

元数据知多少

小B作为一名数据分析师,为什么自己没能去找到数据呢?

这就要说下数据仓库的元数据管理。我们都知道传统的数据库中每张表都有注释,包括表注释,字段注释,你拿到一个不熟悉的表肯定要先看注释,然后才知道每个字段的意思。就像你学习英语的时候查那本牛津字典一样,你能很快查到每个单词的意思,不久你还能看单词“猜出”一个单词的意思。同样数据仓库也有这样一套“注释”,我们称之为元数据。

数据仓库的元数据是负责记录和管理数据的含义、格式、血缘关系等。

作为数据分析师,做分析之前,你都要先知道自己需要什么数据,去哪找到这些数据。没错,就是数据仓库的元数据管理系统。所以,理解数据仓库,需要从元数据开始。

数据分析师看的元数据

  • 模型说明,模型的业务含义,所属主题,数据分析师可以通过说明知道模型存储的是什么数据

  • 模型字段,模型中每个字段代表的意思,数据分析师可以了解模型中有哪些指标数据和维度信息

  • 模型需求来源,这个模型的需求谁提出来的,还是建模人员自己规划的,可以帮助数据分析师了解模型建立的初衷

  • 模型开发者,就像你代码一样,最上面都是author 。数据分析师可以找到对应的模型开发者了解一切他想要的信息。

  • 模型存储信息,包括分区信息,数据大小信息,数据波动情况等,数据分析师了解后,不至于一个SQL把即席查询搞死。

  • 血缘关系,数据分析师可以了解模型里面字段的来龙去脉,在出现数据问题时,进行追踪溯源,找出“始作俑者”。

  • 变更记录,数据分析师后续进行大时间范围的分析时,方便确定数据的有效可用范围。比如,20200101变更模型,增加注释“2020增加字段a,2020年之前无该字段数据”。

模型开发者看的元数据

上面的元数据很大意义上是给数据分析师看的,其实还有一部分元数据是给模型开发人员看的。

  • 模型中字段的合法值类型、范围等

  • ETL程序使用的转换规则

  • UDF(自定义函数)说明

  • ETL报错代码含义

  • ……

模型开发人员除了做好“数据分析师眼中的”元数据,还要管理好“开发的”元数据。

元数据承担着数据治理的重任,完整的元数据管理系统是数据仓库建设成功的根基,也是数据仓库发挥作用大小的决定项之一。

最为数据分析师,使用好元数据,可以快速帮助你更快的构建特征工程。

大家的元数据建设都是怎样的,有什么困惑,可以留言分享下。

面试,数据仓库的元数据包含哪些?相关推荐

  1. qstring 属于元数据类型吗_数据仓库的“元数据管理”

    作者 | 李谦恒 数据工程师.逻辑重于代码,高效胜过勤奋.崇尚life work balance. 引言 元数据管理是企业数据治理的基础,是数据仓库的提升:作为一名数据人,首要任务就是理解元数据管理. ...

  2. 数据仓库与元数据管理

    数据仓库与元数据管理 1. 前言 在事务处理系统中的数据,主要用于记录和查询业务情况.随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据.数据仓库中的数据是从许多业务处理系统中抽取 ...

  3. WCF编程]WCF使用Net.tcp绑定时候出现错误:元数据包含无法解析的引用

    在WCF服务编程中,客户端添加引用服务时,出现如下错误: 元数据包含无法解析的引用:"net.tcp://192.168.1.105:1314/LoginService". 套接字 ...

  4. 大数据开发超高频面试题!大厂面试必看!包含Hadoop、zookeeper、Hive、flume、kafka、Hbase、flink、spark、数仓等

    大数据开发面试题 包含Hadoop.zookeeper.Hive.flume.kafka.Hbase.flink.spark.数仓等高频面试题. 数据来自原博主爬虫获取! 文章目录 大数据开发面试题 ...

  5. 数据仓库-6.元数据管理

    元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及 ETL 的任务运行状态.一般会通过元数据资料库(Metadata Repository)来统一 ...

  6. 数据仓库(五)元数据管理

    概述 元数据通常定义为"关于数据的数据",在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息.元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数 ...

  7. 腾讯近三年软件测试工程师面试笔试题目精选(包含答案)

    目录 1.什么是兼容性测试?兼容性测试侧重哪些方面? 2.我现在有个程序,发现在 Windows 上运行得很慢,怎么判别是程序存在问题 还是软硬件系统存在问题? 3.测试的策略有哪些? 4.正交表测试 ...

  8. 软件测试面试刷题app包含了各种难题

    软件测试的生命周期: V模型:与软件开发阶段呼应 软件开发:需求分析-->概要设计-->详细设计-->编码阶段 软件测试:单元测试-->集成测试-->系统测试--> ...

  9. WCF关于svcutil生成关于TCP绑定出现 元数据包含无法解析的引用:“net.tcp://127.0.0.1:9999/xxxx/”的解决方案...

    最近在学习WCF,在使用SVCUTil生成代理类的时候出现了如下错误 解决方案: 在配置文件中添加红色矩形框中的配置 运行结果 转载于:https://www.cnblogs.com/h2006452 ...

最新文章

  1. 一套图 搞懂“时间复杂度”
  2. MySQL探秘(七):InnoDB行锁算法
  3. c语言 蓝屏,C:WINDOWSMinidump文件 导致蓝屏请问是什么問題呢?
  4. COG、XR、X5R、Y5V电容器分类
  5. java对称加密,java异或加密,Java高性能对称加密
  6. SpringMVC——Maven项目依赖包
  7. 使用postman创建Marketing Cloud的Contact
  8. android 自定义view画表格,Android自定义View实现课程表表格
  9. Rational Rose及RequisitePro安装注意事项
  10. UVA 10534 Wavio Sequence DP LIS
  11. ArcGIS Maritime Server 开发教程(四)Maritime Service 开发实践
  12. PP点点通畸形文件溢出漏洞0Day
  13. efs+pro+for+三星android设备,【极光ROM】-【三星S8/S8+ G9550/G9500】-【V30.0 Android-PIE-TL2】...
  14. 汉语数字转换成阿拉伯数字
  15. teamviewer JAVA,安装teamviewer失败 更换本地源
  16. handsome主题添加服务器信息,全屏响应式精美typecho主题handsome
  17. 插入外部dwg文件,避免外部参照
  18. 7.0.高等数学四-隐函数存在定理
  19. python过滤敏感词汇_利用Python正则表达式过滤敏感词的方法
  20. oracle 表空间管理

热门文章

  1. 常见用户名密码正则校验
  2. ABI Research产业研究:ZiFiSense如何革新物流货物及运输包装追踪
  3. FFmpeg 推送摄像头 rtsp 流
  4. 计算机组装与维护 听课记录,《计算机组装与维护》之“机箱和电源”说课稿...
  5. 综合消防视频云服务系统 加快推进消防物联网建设
  6. 网络安全-Cisco Packet Tracer Student软件
  7. 【教程】kiftd 为账户设置上传文件的最大体积限制
  8. 性能优化之FPS实践报告。
  9. 集合(Set、Collections、Map、集合嵌套)
  10. U盘文件打不开了怎么恢复