基于元数据驱动的ETL
元数据的定义元数据(Metadata),为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
ETL的定义
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
数据不符合分析的要求,所以要准备数据,这个过程就叫ETL。
基于元数据驱动的价值
可以统一数据资产,获取企业数据全局视图。一个好的元数据管理工具,对企业全系统的数据在哪里,都有哪些数据,有一个全局观。缺失元数据管理工具,就只能靠人员经验,谁也说不清楚数据来源,以及作用。
简化etl过程,通过元数据可以构建自动工具,自动基于元数据通过简单的UI操作就可以实现etl过程。简化etl代码编写过程并且etl过程也可以大量的复用。
基于元数据驱动的难点
元数据管理难。数据变化快,传统手工配置的方法很难保证一致性而且是一个工作量巨大的工作。元数据就是企业多数据字典,维护一个完整的元数据,就类似编字典。
涉及到语义管理,不同的表,不同名称的字段,可能是同一含义。相同名称的字段也可能含义不一样,还涉及版本变化。
所以这个工作是个技术+管理的工作。业界有很多公司在思考怎么降低元数据管理难度,所以有利用机器学习自动识别元数据的共识,例如tamr,华傲数据等等。
另外,元数据不仅是etl的基础,也是数据质量/数据治理的基础。
微信扫一扫
关注该公众号
基于元数据驱动的ETL相关推荐
- 极光笔记 | 极光基于元数据驱动数据治理浅谈
作者:极光数据平台部 计算平台组经理 --蔡祖光 前言 极光大数据平台目前支撑着公司开发者.广告.金融风控.行业洞察.公共安全在内的核心业务的数据生产活动,随着公司业务体量的增长,数据平台的规模也在 ...
- 元数据驱动设计 —— 为动态移动应用创建Web API
时间回到多年之前(当时我的头发还没这么稀疏),Google在4月1日这一天发布了Gmail,这不由得令许多人怀疑这个产品是否只是Google精心炮制的一个玩笑.但谁又能够去指责他们的怀疑呢?毕竟整个互 ...
- GraphQL及元数据驱动架构在后端BFF中的实践
GraphQL是Facebook提出的一种数据查询语言,核心特性是数据聚合和按需索取,目前被广泛应用于前后端之间,解决客户端灵活使用数据问题.本文介绍的是GraphQL的另一种实践,我们将GraphQ ...
- 元数据驱动设计 —— 设计一套用于API数据检索的灵活引擎
如果你曾在企业开发方面具有一些经验,那么基本上可以断言,你必定承担过一些类似于搬运工的职责,将数据从你的数据库中不断地搬进搬出.此外,如果你在这方面有过过往的经验,那么你肯定也曾经做过将大量对共享文件 ...
- 基于消费者驱动的契约测试
JB Rainsberger 曾说过,"集成测试是一个陷阱,它像一个自我扩散的病毒,无情地威胁着代码库.项目和团队." 随着微服务系统复杂度的增加,集成测试所带来的弊端愈发明显. ...
- 03.基于元数据的管理体系构建---电子签章标准化集成
集成需求 随着企业数据化的推进,电子签章作为一种常用的技术在慢慢替换部分实物章.基于需求与电子签章流程在系统中集成的标准化工序,将推动统一的模型实现不同厂商的电子签章与元数据平台的集成. 名词解释 序 ...
- 元数据驱动的SaaS架构如何设计
元数据驱动的SaaS架构如何设计 作为业务系统技术开发同学,面向当下:首先应该是快速搭建业务通路,让线上业务跑起来,快速试错,解决生存问题:第二步是在链路通了,业务基本跑起来的基础上如何支撑业务跑更快 ...
- 携程技术专家:业务中台建设背景下的元数据驱动架构实践
点击"技术领导力"关注∆ 每天早上8:30推送 来源:携程技术(ID:ctriptech) 作者简介 灿荣,携程软件技术专家,目前关注互联网中台以及中间件领域. 一.背景介绍 为 ...
- 干货 | 携程中台化背景下的元数据驱动架构实践
作者简介 灿荣,携程软件技术专家,目前关注互联网中台以及中间件领域. 一.背景介绍 为解决系统重复建设.能力复用性低的问题,携程启动了中台化建设步伐.旅游行业的中台建设,携程并非从零开始,前期已经积累 ...
最新文章
- 利用Perl生成随机复杂密码
- Qt中的QDialog
- SAP Data Intelligence Graph json源代码的结构分析
- matlab光盘映像文件可以删除吗_DVD-Cloner 2020 for mac(DVD光盘刻录工具) 7.00.715
- kafka exporter v0.3.0 发布: Prometheus官方推荐,欢迎试用
- WinRAR 6.0 官方版 非常强大好用的压缩包管理器
- 解决yum锁定Another app is currently holding the yum lock; waiting for it to exit...
- 【网易云课堂---轻松读书:番茄工作法】
- Unity3D游戏开发从零单排(三) - 极速创建狂拽酷炫的游戏地形
- NodeMCU-ESP8266开发(VSCODE+PlatformIO+Arduino框架):第5篇--Blinker_MIOT_MULTI_OUTLE(点灯科技APP+小爱同学控制插座多个插孔)
- 32位java jre_jre-7u4-windows-i586.exe|java 1.7.0(Java TM 7)JRE7 32位_最火软件站
- springboot框架(2):整合junit4
- 计算机交换机作用,交换机的作用与功能
- U盘和移动硬盘的文件设置自定义图标
- k8s集群灾难恢复-原机器能起来
- 记一次微信小程序canvas 2d 生成海报问题
- html有序列表设置混合编码,一组你值得拥有的 Markdown 中混用 HTML 案例
- 第11届极客大挑战writeup
- QualNet收发包过程分析(一)
- 不通过twitter API获取Twitter数据的方法