元数据是什么?

元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。—— 百度百科

元数据就是描述数据的数据。
按照百度百科的描述前一个数据应该是指数据仓库中的各种表里的数据,即业务相关数据。后一个数据应该是指表结构、表对应的HDFS里的文件信息。
如果有自建的开发工具,应该还包括表字段的一系列配置属性,如描述、是否废弃、是否枚举字段、安全等级等等。

提到元数据的人都说元数据管理非常重要,但如果元数据只是描述数据的数据,我感觉不到它的重要性体现在哪里?
因为这些数据确实很有用,但更多是用在查询了解数据内容和含义的时候。比如技术在做需求的时候,运营在使用数据的时候。要去了解数据放在哪里,表结构什么样子,字段含义怎样。

实际工作中还有很多非常重要的数据,既不属于业务数据,又不属于这个定义里的元数据。
比如数据任务相关的一些信息,任务实例相关的信息,各种各样的工具和非业务系统的应用产品的操作日志等等。
如果百度定义的元数据是解决查询的问题的,那么管理、运维、优化这些工作用到的数据,就没有包含在里面。

我个人认为广义的元数据应该是在数据的生产、维护、管理、使用的过程中需要用到的,业务相关数据之外的所有数据。
业务数据是为了满足公司各个部门对于业务的了解和分析,以解决业务问题,促进业务增长用的。
而元数据就是业务数据之外的数据,目的是数据团队用来管理、优化数据和任务,以提升效率和质量用的。
元数据,也算是数据团队的“业务数据”。

基于这个定义,常用的元数据应该包含以下几部分
1.表结构信息,字段名、字段类型、字段描述,安全等级等,解决查询使用问题
2.表文件的各种信息,如大小、行数、文件数量、创建时间、更新时间,访问次数等,用来优化存储
3.任务相关的信息,如任务的名字、创建人、创建时间、上下游、所属分类等,用来管理任务
4.任务实例的信息,如任务实例开始时间、结束时间、出错信息等,用来优化任务
5.数据的访问记录,如访问人、访问时间、访问的数据细节等,用来提升数据质量
6.数据产品工具的使用记录,如哪些功能、什么时候、谁操作了,哪些看板、哪些人查看等,用来优化数据产品功能

广义元数据确实非常非常重要,如果没有这些数据,想要要管理优化数据、任务和产品功能,基本上是做不到的。
数据团队没有元数据,就像运营没有业务数据一样,抓瞎。


点击 数据文章目录 查看更多


注: 以上所有内容不确保正确准确, 仅是个人思考的结果, 欢迎交流沟通
V1.0 2020年10月13日

概述-元数据是什么?相关推荐

  1. 注释 向 Java 代码中添加元数据

    注释,J2SE 5.0 (Tiger) 中的新功能,将非常需要的元数据工具引入核心 Java 语言.该系列文章分为两部分,在这第 1 部分中,作者 Brett McLaughlin 解释了元数据如此有 ...

  2. 数据仓库(五)元数据管理

    概述 元数据通常定义为"关于数据的数据",在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息.元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数 ...

  3. 元数据管理、治理、系统、建设方案、范例等

    [数据治理工具]–元数据系统 1.元数据系统 1.1 概述 如果想建设好元数据系统,需要理解元数据系统的相关概念,如数据.数据模型.元数据.元模型.ETL.数据血缘等等. 首先,要清楚数据的定义.数据 ...

  4. 阿里巴巴大数据之路-元数据

    元数据 元数据概述 元数据定义 元数据( Metadata )是关于数据的数据 打通了源数据.数据仓库.数据应用,记录了数据从产生到消费的全过程 主要记录数据仓库中模型的定义.各层级间的映射关系.监控 ...

  5. 浅谈元数据管理之Atlas和Metacat

    关键字:元数据管理.血统采集.血统生命周期.图数据库.数据地图 元数据管理概述 元数据是描述数据的数据(data about data),是指从信息资源中抽取出来用于描述其特征与内容的数据,从一般意义 ...

  6. 02.生成、打包、部署和管理应用程序及类型

    使用csc.exe,通过命令行来编译源代码,生成IL代码,如下 csc.exe /out:Program.exe /t:exe /r:MSCoreLib.dll Program.cs 意义:指示C#编 ...

  7. AOP技术研究 再续

    第四部分  .Net平台AOP技术研究 4.1.Net平台AOP技术概览 .Net平台与Java平台相比,由于它至今在服务端仍不具备与unix系统的兼容性,也不具备类似于Java平台下J2EE这样的企 ...

  8. 数据平台-第一章-数据质量提升

    2019独角兽企业重金招聘Python工程师标准>>> 概述 元数据为数据数据平台提供了一致的描述信息,描述系统的结构特征和静态特征,并作为控制性信息,控制并配置特定工具和进程运行, ...

  9. [设计] Doris血缘解析流程

    一.背景 1.1 元数据概述 元数据是凌久中台重要功能模块,是数据治理的重要一环,元数据治理是一切数据治理的基础,主要分为元数据管理和表血缘管理: 元数据管理主要用来做数据地图.数据资产等: 血缘治理 ...

最新文章

  1. 尤金 卡巴斯基:网络安全已陷“黑暗时代”,我们该如何应对?
  2. 接口管理平台DOClever5.2.0 发布,大幅增强自动化测试,支持可视化UI
  3. 动手学无人驾驶(5):多传感器数据融合
  4. 用JavaScript获取页面上被选中的文字的技巧
  5. MATLAB 在图像处理和机器视觉的应用举例01 - 官网培训视频笔记(上)-- 图像分割和图像配准
  6. sqlserver2008秘钥
  7. 花了一天的时间给粉丝做了一个小米官网(高仿)
  8. 详细的世界坐标转屏幕坐标及投影矩阵的推导
  9. lineage+os+15+android,小米5 原生 Android 8.1“奥利奥”——lineageOS 15.1安装教程
  10. 小米文件管理连接服务器,小米文件管理器中的远程管理无法连接解决方法
  11. 关于Windows聚焦一直保持一个图不变(搬运后加了图,留着以后用)
  12. 吉米_王:浅谈“并行计算”
  13. php网站后台开发教程,WordPress做网站后台开发教程
  14. 输出指定要求的回文日期与字符串拼接
  15. FlexRay在AUTOSAR的实施
  16. 计算机科学与探索期刊审稿周期,计算机科学与探索杂志
  17. c4droid用c语言画爱心,【图片】[自学C语言第五天]发一个作品【c4droid吧】_百度贴吧...
  18. SoftLayer VPS好吗?SoftLayer VPS机房优势有哪些
  19. 人脸识别实名认证在景区门禁系统中的应用
  20. Linux运维对比:Shell运维 VS Python运维

热门文章

  1. USART串口协议和USART串口外设(USART串口发送串口发送和接收)
  2. C++并发实战:面试题2:一道迅雷笔试题
  3. Redhat最小化安装后安装图形界面步骤
  4. cacti监控客户端配置
  5. 颜值爆表!Redis 官方客户端工具,功能强大,且支持可视化监控!
  6. FlexRay通信机制
  7. 项目经理常用软件大全
  8. EXFO MAX-710B光时域反射仪OTDR主要功能
  9. 【FLASH存储器系列六】SPI NOR FLASH芯片使用指导之二
  10. 神经网络和深度神经网络,深度神经网络类型包括