企业数据网格正在彻底改变企业管理数据的方式。什么是基础数据网格模式?

数据网格模式

企业数据网格正在成为一种独特且引人注目的方式来管理企业内的数据。它将“产品思维”引入企业数据管理,同时在企业中实现更高水平的敏捷性和数据治理。它创造了一种“自助服务”能力,具有近乎实时的数据同步,从而为实时数字企业奠定了基础。
但是,唉,没有单一的产品可以为您带来数据网格。相反,企业的数据网格由许多常用组件组成(请参阅下一节数据网格架构回顾)。
但成功的关键是了解这些组件如何相互作用。在本文中,我将使用架构模式来描述这些交互。

数据网格架构回顾

企业数据网格由许多组件组成(更多详细信息可在此处、此处和此处获得)。数据产品是数据网格中的主要构建块,包含使用企业的数据网格在整个组织中同步的运营、分析和/或参与数据。API 用于访问数据产品中的数据。为了支持联合治理,每个数据产品都包含一个记录数据更改的审计日志和一个它管理的数据目录。
一个企业的数据网格有很多数据产品。数据产品订阅彼此的数据,这样当一个数据产品更改其数据时,此更改会使用更改数据捕获和事件流主干传达给其他数据产品。
最后,企业数据目录(所有数据产品目录和数据更改的同步聚合)用于使任何用户或开发人员轻松查找、使用和管理整个企业的任何数据,同时也为理解提供了基础整个企业的数据沿袭。

  • Figure 1, Enterprise Data Mesh Architecture

我们将在本文中描述以下架构模式:

  • 变更数据捕获 (CDC)

  • 事件流主干(Event Streaming Backbone)

  • 数据产品目录 (Data Product Catalog )

  • 企业数据产品目录 (Enterprise Data Product Catalog )

  • 不可变的变更/审计日志 (Immutable Change / Audit Log )

数据网格模式:变更数据捕获

如今,很难在服务和应用程序边界之间安全、可靠和一致地交付数据。有两种方法可以应对这一挑战。首先,可以使用“两阶段提交”(2PC) 等协议跨多个数据库同步更新数据,但这种方法通常复杂且成本高,并且通常保留用于保持多个数据源同步绝对关键的情况.
第二种方法是立即更新主数据库,同时在将来更新辅助数据库(但不在事务范围内)。当更新主数据库和辅助数据库之间的时间跨度超过预期时,就会出现问题。
变更数据捕获 (CDC) 是企业数据网格用来应对这一挑战的基础组件。CDC 通过在数据库的事务日志中捕获和发布条目来工作,但最重要的是,它在原始事务之外不显眼地执行此操作。这意味着 CDC 透明地捕获操作(或分析)数据的变化,而不会影响原始应用程序或事务流。
(注意:这里有更多详细信息供那些寻找有关 CDC 如何在企业中工作的详细信息的人使用)

  • Figure 2, Data Mesh Pattern: Change Data Capture

但是 CDC 对捕获的“事件”做了什么。在 Enterprise Data Mesh 中,它将事件发布到 Event Streaming Backbone(下一个模式),以便在整个企业中分发。

数据网格模式:事件流主干

Event Streaming Backbone 在企业数据网格中分发事件。事件通常来自应用程序、API,在我们的例子中,也来自 CDC。然而,特别重要的是,任何已发布的事件都可以被任何其他订阅实体安全、可靠且近乎实时地使用。

  • Figure 3, Data Mesh Pattern: Event Streaming Backbone

Event Streaming Backbone 中有几个核心托管实体:
由 JSON 模式定义的事件分布在企业数据网格中。

  • 主题用于在整个企业中排队和分发事件;企业数据网格通过允许许多实体发布和使用事件来使用类似于队列的众所周知的主题。

  • 生产者将事件发布到主题;企业数据网格中的生产者可能是 API、应用程序或 CDC。

  • 消费者消费来自主题的事件。企业数据网格中的消费者可以是订阅主题并在事件可用于处理时收到通知的任何实体或应用程序。

  • 事件流处理器可以按事件处理事件,也可以按时间窗口聚合事件,从而在企业数据网格中实现非常复杂和强大的分析技术。

  • 经纪人管理上述组件,以确保整个企业数据网格中安全可靠的事件通信。

数据网格模式:数据产品目录

他们说,数据是新的黄金和采矿,它将带来巨大的洞察力和财富。但在当今的大多数企业中,数据散布在组织中的许多组中。销售拥有客户数据,分销拥有供应链,财务拥有交易和账户。
不幸的是,这使得查找数据变得非常困难,而且一旦找到,就更难以将它们整合在一起以做出全面的业务决策。结果是:决策缓慢、代价高昂且不知情。
数据产品目录 (DPC) 包含有关数据产品的数据(“元数据”)的信息。DPC 提供的信息使任何授权人员或应用程序都可以轻松地在企业数据网格中查找、查看和使用数据产品。DPC 提供了几个好处:

  • 通过启用本地所有权和问责制,易于管理。

  • 通过允许本地化和更快的决策制定,易于更改和发展。

  • 易于查找、查看和使用数据,使任何(授权)实体都可以轻松查找、查看和使用数据(即“自助服务”)。

  • Figure 4, Data Mesh Pattern: Data Product Catalog

数据网格模式:企业数据产品目录

企业数据产品目录 (EDPC) 是一个从所有本地数据产品目录 (DPC) 聚合元数据的存储库。企业数据目录用于存储有关在企业数据网格中维护的所有数据的信息和统计数据(元数据),从而可以轻松查找、查看、使用和管理数据:

  • 数据科学家使用 EDPC 来查找企业中可用于训练模型的数据位置。

  • 业务用户使用 EDPC 来查找业务决策所需的信息。

  • 开发人员使用 EDPC 来了解其应用程序所需的数据结构。

  • Governance Professionals 使用 EDPC 来理解和监控整个企业的数据,从而在企业数据网格内实现联合计算治理。

Figure 5, Data Mesh Pattern: Enterprise Data Product Catalog

数据网格模式:不可变变更/审计日志

了解数据的沿袭——定义为数据经历的变化的汇总列表——对于治理和监管目的至关重要。为什么这很重要?考虑今天的一个常见情况:人工智能/机器学习的出现现在是企业必备的能力。数据科学家使用复杂的模型来支持和做出关键的业务决策。
然而,在许多企业中,尤其是医疗保健和金融企业,这些模型的实际可行性取决于满足监管机构对可重复性和可追溯性要求的能力(更多信息可在此处和此处获得)。不幸的是,大多数企业没有能力以审计人员或监管机构要求的方式跟踪数据沿袭。
企业数据网格的不可变变更/审计日志通过在企业数据网格中保留历史数据更改以供未来审计和治理之用,从而满足了这一需求。本地数据 产品更改/审核日志会在数据发生任何数据更改时自动更新。然后将这些日志传播到企业数据产品目录 (EDPC),以便整合企业中数据更改的历史记录。
换句话说,EDPC 包含企业数据网格中所有元素的数据沿袭。EDPC 使用此数据提供元数据的可搜索索引——其中明确包括对每个数据产品的不可变更改/审计日志的引用——允许轻松找到和确认数据沿袭。

  • Figure 6, Data Mesh Pattern: Immutable Change/Audit Log

结论性想法

企业数据网格正在成为实时数字企业的基础推动者。架构模式提供了一种既定的方式来描述数据网格交互。虽然没有现成的可用工具,但构建您自己的组织数据网格的第一步是了解启用数据网格的基础模式。
希望本文为您提供必要的洞察力来启动您自己的企业数据网格!

本文 :https://architect.pub/data-mesh-architecture-patterns
讨论:知识星球【首席架构师圈】或者加微信小号【ca_cto】或者加QQ群【792862318】
公众号
 
【jiagoushipro】
【超级架构师】
精彩图文详解架构方法论,架构实践,技术原理,技术趋势。
我们在等你,赶快扫描关注吧。
微信小号
 
【ca_cea】
50000人社区,讨论:企业架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化.
 
QQ群
 
【285069459】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。
加QQ群,有珍贵的报告和干货资料分享。
视频号 【超级架构师】
1分钟快速了解架构相关的基本概念,模型,方法,经验。
每天1分钟,架构心中熟。
知识星球 【首席架构师圈】向大咖提问,近距离接触,或者获得私密资料分享。  
喜马拉雅 【超级架构师】路上或者车上了解最新黑科技资讯,架构心得。 【智能时刻,架构君和你聊黑科技】
知识星球 认识更多朋友,职场和技术闲聊。 知识星球【职场和技术】
领英 Harry https://www.linkedin.com/in/architect-harry/
领英群组 领英架构群组 https://www.linkedin.com/groups/14209750/
微博‍‍ 【超级架构师】 智能时刻‍
哔哩哔哩 【超级架构师】
抖音 【cea_cio】超级架构师
快手 【cea_cio_cto】超级架构师
小红书 【cea_csa_cto】超级架构师  
网站 CIO(首席信息官) https://cio.ceo
网站 CIO,CTO和CDO https://cioctocdo.com
网站 架构师实战分享 https://architect.pub   
网站 程序员云开发分享 https://pgmr.cloud
网站 首席架构师社区 https://jiagoushi.pro
网站 应用开发和开发平台 https://apaas.dev
网站 开发信息网 https://xinxi.dev
网站 超级架构师 https://jiagou.dev
网站 企业技术培训 https://peixun.dev
网站 程序员宝典 https://pgmr.pub    
网站 开发者闲谈 https://blog.developer.chat
网站 CPO宝典 https://cpo.work
网站 首席安全官 https://cso.pub    ‍
网站 CIO酷 https://cio.cool
网站 CDO信息 https://cdo.fyi
网站 CXO信息 https://cxo.pub

谢谢大家关注,转发,点赞和点在看。

【数据网格架构】数据网格架构模式相关推荐

  1. 大数据定义、思维方式及架构模式

    一.大数据何以为大 数据现在是个热点词汇,关于有了大数据,如何发挥大数据的价值,议论纷纷,而笔者以为,似乎这有点搞错了原因与结果,就象关联关系,有A的时候,B与之关联,而有B的时候,A却未必关联,笔者 ...

  2. 一篇文章讲清楚什么是数据网格和数据网格的原则

    针对传统集中化数据平台的困境,Zhamak Dehghani 于 2019 年 5 月撰写了一篇论文,提出了数据网格的概念.在这篇文章中,Thoughtworks 顾问描述了集中式.单体式和与域无关的 ...

  3. 下一代微服务架构——服务网格Service Mesh

    下一代微服务架构--服务网格Service Mesh 下一代微服务架构--服务网格Service Mesh 服务治理 什么是服务治理 系统架构形态演进 现阶段存在的问题 Service Mesh是什么 ...

  4. 每日一学|数据中心spine leaf网络架构

    注:本文来源公众号:云宏WinHong,Vol. 042云宏大讲坛 | 数据中心spine leaf网络架构 . 随着业务形态的变化,数据中心网络的交换架构也在不断的发展.传统的三层网络结构应用广泛而 ...

  5. Redis 高可用篇:你管这叫主从架构数据同步原理?

    高可用有两个含义:一是数据尽量不丢失,二是服务尽可能提供服务. AOF 和 RDB 保证了数据持久化尽量不丢失,而主从复制就是增加副本,一份数据保存到多个实例上.即使有一个实例宕机,其他实例依然可以提 ...

  6. 开源大数据引擎:Greenplum 数据库架构分析

    Greenplum 数据库是最先进的分布式开源数据库技术,主要用来处理大规模的数据分析任务,包括数据仓库.商务智能(OLAP)和数据挖掘等.自2015年10月正式开源以来,受到国内外业内人士的广泛关注 ...

  7. tms570 can 接收大量数据_CAN通讯系列--AUTOSAR架构的CAN Interface7

    上篇文章简介了AUTOSAR架构的CAN Driver模块,本文将更进一步,来了解CAN Driver模块对接的唯一上层模块--CAN Interface. 9 CAN interface CAN I ...

  8. 服务器虚拟化架构设计,服务器虚拟化与数据中心I/O网络架构设计

    这是关于网络架构设计两部分系列中的第一篇.想了解关于在网络架构中整合I/O虚拟化方面的知识,请点击第二篇:如何将I/O虚拟化整合到网络体系架构中. 服务器虚拟化对于数据中心I/O网络架构的需求非常强烈 ...

  9. Impala介绍,Impala架构,Impala安装,impala Shell ,分区创建,refresh,load数据,获取数据的元数据

    1 Impala Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBASE中的PB级大数据.已有的Hive系统虽然也提供了SQL语义, ...

  10. 大数据时代数据库-云HBase架构生态实践

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 2018第九届中国数据库技术大会,阿里云高级技术专家.架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&a ...

最新文章

  1. byte数组添加数据_数据类型
  2. python中args1是什么意思_理解Python中的*,*args
  3. 洛谷 P2415 集合求和【数学公式/模拟】
  4. 2020-11-30 离散系统自适应控制中的一个关键性引理及证明
  5. 初学者不建议月python吗_9.python入门
  6. Oracle bigfile 大文件表空间会影响rman等备份效率
  7. discuz和php的关系,UCenter和Discuz!的关系
  8. python中expandtabs()函数的用法
  9. mysql hibernate 乱码_mysql hibernate 乱码
  10. MATLAB聚类分析源代码
  11. opencv基于MultiTracker的多目标跟踪
  12. Web前端开发之CSS学习笔记5—溢出、浮动、层叠
  13. 如何批量将多个Excel文件转换为PDF - 批量Excel转PDF转换器快速教程
  14. RFID图书馆管理系统的优势有哪些
  15. android 自定义searchview,android自定义searchView圆角
  16. 大数据高薪职位必备:Hadoop求职者的6大攻略
  17. DAY9:尚学堂高琪JAVA(98)
  18. 软件测试需求频繁变更,软件测试人员如何测试需求频繁变动的项目
  19. 专访网秦创始人林宇:我曾每天戴20公斤手铐 生不如死
  20. epics安装css,EPICS-synApps/areaDetector安装

热门文章

  1. mac下查看mysql端口被占用_MAC下查看端口占用并杀死进程
  2. 一次性讲清楚3D创作的全流程-UV展开
  3. css实现毛玻璃磨砂效果
  4. 《以C语言解析电脑》书评
  5. 提高手机上网速度的方法
  6. 8本游戏开发书籍推荐
  7. CSS盒模型宽度和高度的计算
  8. Python面向对象三大特征
  9. 【读书笔记】Android开发艺术探索
  10. 2022-2028全球及中国加工海鲜和海鲜加工设备行业研究及十四五规划分析报告