传统数仓

传统数仓有几个特点:

  1. 数据具有历史性
  2. 基于文件存储
  3. 以表为形态,自带元数据存储(比如Hive)
  4. 在数仓的数据是其他数据的拷贝或者拷贝的加工

传统数仓需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近。所以我们需要把MySQL等数据源的数据同步到数仓,才能进行进一步处理,另外传统数仓更关注的是数据的历史状态,所以导致数据规模庞大。 数仓本身也具备计算能力,同时也可以作为存储供其他计算系统使用。

数据中台

数据中台设计立足点本身是数据和存储分离的。那就意味着,数据中台本身并没有数据,数据来源是其他的的,比如传统数仓,业务数据库,用户在中台上传的文件(临时使用),各个业务系统的API(瞬时,我们不关心API之前的数据结果是什么样的)。因为数据中台拥有这些数据源的适配器,所以相当于建立了互联管道。

我们知道数仓的优势是有元数据,通过表的方式很好的规整了数据。数据需要加工,所以一般数仓是有分层的,往上走一层,数据信息损耗就高一些。数据中台也有一个全局的元数据管理系统,管理也是以表为主,粒度到字段级别。数据中台这个元信息包含了各个子存储的元信息,以数据中台需要的形态进行组织。

数据中台的元数据其中承载的一个重要功能是数据地图,虽然在数据中台中,修建了通往所有数据的道路 但是当用户进来的时候 他无法知道具体某个数据的地址 也就没办法利用这些修好的道路。数据地图就是解决这个问题 我们需要结合自然语言处理,检索技术,目录分类技术,机器学习以及数据规范化来帮助找到数据地址。数据地址从来都不是面向人类有好的。

通过数据中台的数据地图,以及数据中台到各数据源的建立好的管道,那么我们就可以很好的找到我们要的数据以及对他们进行关联和处理,分析,甚至进一步成为机器学习的素材。

数据地图和传统数仓元数据的区别在于,

  1. 它记录了散落在各个孤岛的数据,而不像传统数仓,只是在自己的数据。
  2. 数据格式是异构的,不仅仅是文件。
  3. 他不仅仅存储表以及字段相关信息,同时还有还让这些信息可检索,可查询,可以更好的面向人而不是机器。

结论

数仓是数据中台的一个重要组成部分,也是元数据的一个重要来源,但是随着技术的发展,数据和存储必定是分离的,这就需要一个新的元信息系统(数据地图)来进行承载。

数据中台和数仓的关系相关推荐

  1. 数据中台-数仓分层思想

    一.数仓分层思想 1.为什么要分层 通过分层管理来实现分步完成工作, 用空间换时间,通过数据预处理提高效率,提升应用系统的用户体验(效率),简化数据清洗的过程,使每一层处理逻辑变得更简单. 每一层的处 ...

  2. 震惊!这篇文章解读数据仓库、数据湖、数据中台等概念,竟然写了4万字!

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天 ...

  3. 4万字 全面解读数据中台、数据仓库、数据湖等概念!建议收藏!

    作者丨修鹏李 建议阅读需50分钟 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并且能够被方便 ...

  4. 4万字全面掌握数据库, 数据仓库, 数据集市,数据湖,数据中台

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:数据社 作者修鹏李One old watch, like brief ...

  5. 数据仓库(DW)、数据湖、数据中台的关系

    一句话说明:数据中台是一套体系,既不是工具又不是存储,它可以包含数据湖和数据仓库. 数据仓库 数据仓库是一个面向主题的.集成的.随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程.其本质就是 ...

  6. 经典解读商业智能BI、大数据、数据中台三者关系

    大数据.数据中台都是商业智能BI发展到一定阶段的产物,核心都是围绕数据,数据采集.数据处理能力.算力的提升催生了大数据,数据资产和数据服务催生了数据中台,核心的数仓建模自商业智能BI一脉相承未曾改变, ...

  7. 阿里数据中台大火,国外却在建设数据湖,这两者什么关系?

    不知道大家有没有发现,这几年的数据领域有好多的概念,例如:大数据.人工智能.物联网.边缘计算.数据治理.数据湖.数据中台.数据可视化--.这说明数据这个领域真的很"火",可谓是&q ...

  8. 数据中台:宜信敏捷数据中台建设实践|分享实录

    2019独角兽企业重金招聘Python工程师标准>>> 内容来源:宜信技术学院第2期技术沙龙-线上直播|宜信敏捷数据中台建设实践 分享嘉宾:宜信数据中台平台团队负责人 卢山巍 导读: ...

  9. 宜信敏捷数据中台建设实践|分享实录

    内容来源:宜信技术学院第2期技术沙龙-线上直播|宜信敏捷数据中台建设实践 分享嘉宾:宜信数据中台平台团队负责人 卢山巍 导读:宜信于2017年推出了一系列大数据开源工具,包括大家熟悉的DBus.Wor ...

  10. 数据中台:宜信敏捷数据中台建设实践

    2019独角兽企业重金招聘Python工程师标准>>> [宜信技术沙龙]是由宜信技术学院主办的系列技术分享活动,活动包括线上和线下两种形式,每期技术沙龙都将邀请宜信及其他互联网公司的 ...

最新文章

  1. 贝叶斯定理的实际应用
  2. 无法打开文件“python310_d.lib”
  3. CTFshow php特性 web132
  4. Angular特殊的选择器:host,:host-context,::ng-deep
  5. 小狗扫地机器人与石头_当戴森遇到石头机器人,从容应对 “猫狗拆家”
  6. 2008已经到来,我们怎能原地踏步!
  7. 图像主观质量评价 评分_视频质量评价算法 之 客观评价的性能指标
  8. virtualbox安装增强功能时【未能加载虚拟光盘】
  9. 一个发散动画的菜单控件(主要记录控件x,y坐标的运动状况)
  10. 第五章:Redis pipeline流水线
  11. OSX malware and exploit collection (~100 files) + links and resources for OSX malware analysis
  12. 【matlab_郭彦甫课后练习题答案】
  13. Bootstrap模板-Inspinia.2.9.2
  14. 看不见的,就是不存在么?《平面国》读后感
  15. 数据结构单链表表头插入生成单链表
  16. 微分几何笔记(9) —— 切丛,余切丛
  17. Power BI应用案例:销售帕累托分析(28法则)
  18. GooglePlay马甲包过审详细流程
  19. 商场会员营销小程序-连接会员,赋能商家
  20. 华为南研所2015年面试经历总结

热门文章

  1. 域中文件服务器的设置权限,域中文件服务器共享权限设置.pdf
  2. iReport下载安装配置及编译
  3. linux设置ps1命令行
  4. 去掉网页从网页中拷贝到word中段落带有的背景颜色
  5. 大数据人工智能行业技术图谱
  6. 【Golang】JSON Marshal Unmarshal
  7. 数模混合计算机应用,数模混合集成电路的发展现状和前景
  8. Maven Compile 编译报错
  9. java 引入微信sdk_手把手教您开发JAVA微信SDK-新手接入
  10. 跨省游恢复,首旅如家发布暑期16座旅游目的地城市攻略