面试,数据仓库的元数据包含哪些?
小B是一名数据分析师,他问小A XXX的所有指标项给我一下,小A“鄙视的”给了我一份文档……
by小AA
元数据知多少
小B作为一名数据分析师,为什么自己没能去找到数据呢?
这就要说下数据仓库的元数据管理。我们都知道传统的数据库中每张表都有注释,包括表注释,字段注释,你拿到一个不熟悉的表肯定要先看注释,然后才知道每个字段的意思。就像你学习英语的时候查那本牛津字典一样,你能很快查到每个单词的意思,不久你还能看单词“猜出”一个单词的意思。同样数据仓库也有这样一套“注释”,我们称之为元数据。
数据仓库的元数据是负责记录和管理数据的含义、格式、血缘关系等。
作为数据分析师,做分析之前,你都要先知道自己需要什么数据,去哪找到这些数据。没错,就是数据仓库的元数据管理系统。所以,理解数据仓库,需要从元数据开始。
数据分析师看的元数据
模型说明,模型的业务含义,所属主题,数据分析师可以通过说明知道模型存储的是什么数据
模型字段,模型中每个字段代表的意思,数据分析师可以了解模型中有哪些指标数据和维度信息
模型需求来源,这个模型的需求谁提出来的,还是建模人员自己规划的,可以帮助数据分析师了解模型建立的初衷
模型开发者,就像你代码一样,最上面都是author 。数据分析师可以找到对应的模型开发者了解一切他想要的信息。
模型存储信息,包括分区信息,数据大小信息,数据波动情况等,数据分析师了解后,不至于一个SQL把即席查询搞死。
血缘关系,数据分析师可以了解模型里面字段的来龙去脉,在出现数据问题时,进行追踪溯源,找出“始作俑者”。
变更记录,数据分析师后续进行大时间范围的分析时,方便确定数据的有效可用范围。比如,20200101变更模型,增加注释“2020增加字段a,2020年之前无该字段数据”。
模型开发者看的元数据
上面的元数据很大意义上是给数据分析师看的,其实还有一部分元数据是给模型开发人员看的。
模型中字段的合法值类型、范围等
ETL程序使用的转换规则
UDF(自定义函数)说明
ETL报错代码含义
……
模型开发人员除了做好“数据分析师眼中的”元数据,还要管理好“开发的”元数据。
元数据承担着数据治理的重任,完整的元数据管理系统是数据仓库建设成功的根基,也是数据仓库发挥作用大小的决定项之一。
最为数据分析师,使用好元数据,可以快速帮助你更快的构建特征工程。
大家的元数据建设都是怎样的,有什么困惑,可以留言分享下。
面试,数据仓库的元数据包含哪些?相关推荐
- qstring 属于元数据类型吗_数据仓库的“元数据管理”
作者 | 李谦恒 数据工程师.逻辑重于代码,高效胜过勤奋.崇尚life work balance. 引言 元数据管理是企业数据治理的基础,是数据仓库的提升:作为一名数据人,首要任务就是理解元数据管理. ...
- 数据仓库与元数据管理
数据仓库与元数据管理 1. 前言 在事务处理系统中的数据,主要用于记录和查询业务情况.随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据.数据仓库中的数据是从许多业务处理系统中抽取 ...
- WCF编程]WCF使用Net.tcp绑定时候出现错误:元数据包含无法解析的引用
在WCF服务编程中,客户端添加引用服务时,出现如下错误: 元数据包含无法解析的引用:"net.tcp://192.168.1.105:1314/LoginService". 套接字 ...
- 大数据开发超高频面试题!大厂面试必看!包含Hadoop、zookeeper、Hive、flume、kafka、Hbase、flink、spark、数仓等
大数据开发面试题 包含Hadoop.zookeeper.Hive.flume.kafka.Hbase.flink.spark.数仓等高频面试题. 数据来自原博主爬虫获取! 文章目录 大数据开发面试题 ...
- 数据仓库-6.元数据管理
元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及 ETL 的任务运行状态.一般会通过元数据资料库(Metadata Repository)来统一 ...
- 数据仓库(五)元数据管理
概述 元数据通常定义为"关于数据的数据",在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息.元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数 ...
- 腾讯近三年软件测试工程师面试笔试题目精选(包含答案)
目录 1.什么是兼容性测试?兼容性测试侧重哪些方面? 2.我现在有个程序,发现在 Windows 上运行得很慢,怎么判别是程序存在问题 还是软硬件系统存在问题? 3.测试的策略有哪些? 4.正交表测试 ...
- 软件测试面试刷题app包含了各种难题
软件测试的生命周期: V模型:与软件开发阶段呼应 软件开发:需求分析-->概要设计-->详细设计-->编码阶段 软件测试:单元测试-->集成测试-->系统测试--> ...
- WCF关于svcutil生成关于TCP绑定出现 元数据包含无法解析的引用:“net.tcp://127.0.0.1:9999/xxxx/”的解决方案...
最近在学习WCF,在使用SVCUTil生成代理类的时候出现了如下错误 解决方案: 在配置文件中添加红色矩形框中的配置 运行结果 转载于:https://www.cnblogs.com/h2006452 ...
最新文章
- 一套图 搞懂“时间复杂度”
- MySQL探秘(七):InnoDB行锁算法
- c语言 蓝屏,C:WINDOWSMinidump文件 导致蓝屏请问是什么問題呢?
- COG、XR、X5R、Y5V电容器分类
- java对称加密,java异或加密,Java高性能对称加密
- SpringMVC——Maven项目依赖包
- 使用postman创建Marketing Cloud的Contact
- android 自定义view画表格,Android自定义View实现课程表表格
- Rational Rose及RequisitePro安装注意事项
- UVA 10534 Wavio Sequence DP LIS
- ArcGIS Maritime Server 开发教程(四)Maritime Service 开发实践
- PP点点通畸形文件溢出漏洞0Day
- efs+pro+for+三星android设备,【极光ROM】-【三星S8/S8+ G9550/G9500】-【V30.0 Android-PIE-TL2】...
- 汉语数字转换成阿拉伯数字
- teamviewer JAVA,安装teamviewer失败 更换本地源
- handsome主题添加服务器信息,全屏响应式精美typecho主题handsome
- 插入外部dwg文件,避免外部参照
- 7.0.高等数学四-隐函数存在定理
- python过滤敏感词汇_利用Python正则表达式过滤敏感词的方法
- oracle 表空间管理
热门文章
- 常见用户名密码正则校验
- ABI Research产业研究:ZiFiSense如何革新物流货物及运输包装追踪
- FFmpeg 推送摄像头 rtsp 流
- 计算机组装与维护 听课记录,《计算机组装与维护》之“机箱和电源”说课稿...
- 综合消防视频云服务系统 加快推进消防物联网建设
- 网络安全-Cisco Packet Tracer Student软件
- 【教程】kiftd 为账户设置上传文件的最大体积限制
- 性能优化之FPS实践报告。
- 集合(Set、Collections、Map、集合嵌套)
- U盘文件打不开了怎么恢复