2016-07-03 朱洁 

元数据的定义元数据(Metadata),为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

ETL的定义

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

数据不符合分析的要求,所以要准备数据,这个过程就叫ETL。

基于元数据驱动的价值

可以统一数据资产,获取企业数据全局视图。一个好的元数据管理工具,对企业全系统的数据在哪里,都有哪些数据,有一个全局观。缺失元数据管理工具,就只能靠人员经验,谁也说不清楚数据来源,以及作用。

简化etl过程,通过元数据可以构建自动工具,自动基于元数据通过简单的UI操作就可以实现etl过程。简化etl代码编写过程并且etl过程也可以大量的复用。

基于元数据驱动的难点

元数据管理难。数据变化快,传统手工配置的方法很难保证一致性而且是一个工作量巨大的工作。元数据就是企业多数据字典,维护一个完整的元数据,就类似编字典。

涉及到语义管理,不同的表,不同名称的字段,可能是同一含义。相同名称的字段也可能含义不一样,还涉及版本变化。

所以这个工作是个技术+管理的工作。业界有很多公司在思考怎么降低元数据管理难度,所以有利用机器学习自动识别元数据的共识,例如tamr,华傲数据等等。

另外,元数据不仅是etl的基础,也是数据质量/数据治理的基础。

微信扫一扫
关注该公众号

基于元数据驱动的ETL相关推荐

  1. 极光笔记 | 极光基于元数据驱动数据治理浅谈

    作者:极光数据平台部  计算平台组经理 --蔡祖光 前言 极光大数据平台目前支撑着公司开发者.广告.金融风控.行业洞察.公共安全在内的核心业务的数据生产活动,随着公司业务体量的增长,数据平台的规模也在 ...

  2. 元数据驱动设计 —— 为动态移动应用创建Web API

    时间回到多年之前(当时我的头发还没这么稀疏),Google在4月1日这一天发布了Gmail,这不由得令许多人怀疑这个产品是否只是Google精心炮制的一个玩笑.但谁又能够去指责他们的怀疑呢?毕竟整个互 ...

  3. GraphQL及元数据驱动架构在后端BFF中的实践

    GraphQL是Facebook提出的一种数据查询语言,核心特性是数据聚合和按需索取,目前被广泛应用于前后端之间,解决客户端灵活使用数据问题.本文介绍的是GraphQL的另一种实践,我们将GraphQ ...

  4. 元数据驱动设计 —— 设计一套用于API数据检索的灵活引擎

    如果你曾在企业开发方面具有一些经验,那么基本上可以断言,你必定承担过一些类似于搬运工的职责,将数据从你的数据库中不断地搬进搬出.此外,如果你在这方面有过过往的经验,那么你肯定也曾经做过将大量对共享文件 ...

  5. 基于消费者驱动的契约测试

    JB Rainsberger 曾说过,"集成测试是一个陷阱,它像一个自我扩散的病毒,无情地威胁着代码库.项目和团队." 随着微服务系统复杂度的增加,集成测试所带来的弊端愈发明显. ...

  6. 03.基于元数据的管理体系构建---电子签章标准化集成

    集成需求 随着企业数据化的推进,电子签章作为一种常用的技术在慢慢替换部分实物章.基于需求与电子签章流程在系统中集成的标准化工序,将推动统一的模型实现不同厂商的电子签章与元数据平台的集成. 名词解释 序 ...

  7. 元数据驱动的SaaS架构如何设计

    元数据驱动的SaaS架构如何设计 作为业务系统技术开发同学,面向当下:首先应该是快速搭建业务通路,让线上业务跑起来,快速试错,解决生存问题:第二步是在链路通了,业务基本跑起来的基础上如何支撑业务跑更快 ...

  8. 携程技术专家:业务中台建设背景下的元数据驱动架构实践

    点击"技术领导力"关注∆  每天早上8:30推送 来源:携程技术(ID:ctriptech) 作者简介 灿荣,携程软件技术专家,目前关注互联网中台以及中间件领域. 一.背景介绍 为 ...

  9. 干货 | 携程中台化背景下的元数据驱动架构实践

    作者简介 灿荣,携程软件技术专家,目前关注互联网中台以及中间件领域. 一.背景介绍 为解决系统重复建设.能力复用性低的问题,携程启动了中台化建设步伐.旅游行业的中台建设,携程并非从零开始,前期已经积累 ...

最新文章

  1. 利用Perl生成随机复杂密码
  2. Qt中的QDialog
  3. SAP Data Intelligence Graph json源代码的结构分析
  4. matlab光盘映像文件可以删除吗_DVD-Cloner 2020 for mac(DVD光盘刻录工具) 7.00.715
  5. kafka exporter v0.3.0 发布: Prometheus官方推荐,欢迎试用
  6. WinRAR 6.0 官方版 非常强大好用的压缩包管理器
  7. 解决yum锁定Another app is currently holding the yum lock; waiting for it to exit...
  8. 【网易云课堂---轻松读书:番茄工作法】
  9. Unity3D游戏开发从零单排(三) - 极速创建狂拽酷炫的游戏地形
  10. NodeMCU-ESP8266开发(VSCODE+PlatformIO+Arduino框架):第5篇--Blinker_MIOT_MULTI_OUTLE(点灯科技APP+小爱同学控制插座多个插孔)
  11. 32位java jre_jre-7u4-windows-i586.exe|java 1.7.0(Java TM 7)JRE7 32位_最火软件站
  12. springboot框架(2):整合junit4
  13. 计算机交换机作用,交换机的作用与功能
  14. U盘和移动硬盘的文件设置自定义图标
  15. k8s集群灾难恢复-原机器能起来
  16. 记一次微信小程序canvas 2d 生成海报问题
  17. html有序列表设置混合编码,一组你值得拥有的 Markdown 中混用 HTML 案例
  18. 第11届极客大挑战writeup
  19. QualNet收发包过程分析(一)
  20. 不通过twitter API获取Twitter数据的方法

热门文章

  1. MacBookAir启动不了解决办法
  2. Go上的极简OpenGL开发笔记(二)
  3. Friendship Cards 友情卡片
  4. 盛大云IaaS产业大剖析
  5. aws big data_AWS Data Wrangler和Athena入门
  6. python实现 小程序用户管理实现
  7. 视频教程-Python编程的术与道:Python语言进阶-Python
  8. TVS二极管功能归纳
  9. Servlet+jdbc+jsp增删改查
  10. C语言整个学习框架思维导图