Data Fabric,又名数据经纬,是近期横空出世的一个概念。之前对其了解甚少,近期做了个小调研,对这一概念内涵与外延、产品及定位、业务与前景、未来及趋势等做了简单整理总结,分享给大家。

1. 什么是Data Fabric

❖ 前世今生

Data Fabric概念 在 2000 年首先被 Forrester 提出,2016 年 Forrester Wave 中增加了 Big Data Fabric 类别。从2019 年 Data Fabric 开始入选 Gartner 各年度的技术趋势。

Gartner发布的《2021年十大数据和分析技术趋势》中,加速变革被列在了首位(Accelerating Change),其中Data Fabric作为数据基础能力被再次强调。

2022 年 Gartner 公布的顶级战略技术趋势中,Data Fabric 入选工程信任主题的关键技术趋势。

❖ 基本概念

我们如何理解“Data Fabric”?Fabric这个词的本意是“织物、布、构造“。可以想象,数据将在纵横交错的、像织物那样的云网络中自由流动,没有任何限制。不管是哪种计算模式,还是什么的网络,针对批数据、流数据都可以自由交换、共享和处理,那就是数据经纬-Data Fabric带来的新体验。 目前对Data Fabric,还没有特别统一的认识,各家对其有着自己的解读。

  • Forrester 认为 Data Fabric“是以一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。”其专注于对数据集成、转换、准备、策展、安全、治理和编排的自动化,从而实现了快速的数据分析和洞察,帮助业务获得成功。

  • Gartner 将 Data Fabric 定义为一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的数据交付。Gartner 强调,通过 Data Fabric,散落各处的数据孤岛都能被统一发现和使用,并基于主动元数据进行建设和持续分析,认为数据编织的真正价值在于它能够通过内置的分析技术动态改进数据的使用,同时通过将自动化能力添加到整体数据管理中,使数据管理工作量减少 70% 并加快价值实现速度。

❖ 发展背景

一项新技术的出现,必然有其背景及规律,Data Fabric的出现也是为解决当前数据场景的问题。简单梳理下,可罗列为几个痛点(下列数据来自Gartner的调查报告):

  • 激增的暗数据&数据孤岛

随着企业数据量激增和数据需求日趋复杂,越来越多数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) 被引入,企业数据在物理上支离破碎,尤其是采用混合云&多云架构后更是加剧了这一问题。只有 45% 的结构化数据应用于业务,只有不到 1% 的非结构化数据被分析或使用,多达 68% 的数据没有被分析,多达 82% 的企业受到数据孤岛的阻碍。

  • 低效的数据交付方式

激增的企业数据、爆炸的业务需求、复杂的数据工程,让业务自助找数、用数变得日趋困难:分析师 80% 的时间用于发现和准备数据,知识型员工将 50% 的时间浪费在寻找数据、发现和纠正错误以及确认不信任的数据来源上、数据科学家花 60% 的时间清理和组织数据。

  • 日益严峻的数据质量问题

企业中 55% 的数据无法用于决策,47% 新创建的数据记录至少有一个严重错误,数据质量差导致了巨额的财务损失;为解决不同数据计算和存储需求,企业开始采用越来越多的数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) ,让实现“单一事实来源的数据”变得十分困难。

  • 不断扩大的安全合规风险

超过 70% 的用户可以访问他们不应该访问的数据。而随着网安法、数安法、个保法、GDPR、CCPA 等数据安全和隐私保护法律的出台和外部安全威胁越来越大,企业必须在合规和治理方面表现出更高的标准,更难的是,企业还需同时兼顾业务的用数效率。

Gartner称:“在过去的十年里,数据和应用孤岛的数量激增,而数据和分析(D&A)团队的技能型人才数量却保持不变,甚至下降。作为一种跨平台和业务用户的灵活、弹性数据整合方式,Data Fabric能够简化企业机构的数据整合基础设施并创建一个可扩展架构,减少大多数数据和分析团队因整合难度上升而出现的技术债务。其真正价值在于:通过内置的分析技术动态改进数据的使用,使数据管理工作量减少70%并加快价值实现时间。Gartner最新预测显示,至2024年,Data Fabric可减少50%人力数据管理成本,与此同时,数据使用效率会因Data Fabric的部署使用伴随着数据类型日益多样化、数据孤岛不断林立、数据结构愈加复杂,企业在分布式数据环境中高效管理和利用多维数据成为亟待解决的难题。与此同时,企业上云成为一大趋势,混合数据环境下企业该如何跨平台、跨环境,以实时的速度收集、访问、管理、共享数据,从不断变化、高度关联、却又四处分散的数据中获得可执行洞见,实现智能化决策?面对上述数据管理难题,Data Fabric提出了一套治理“良方”。Data Fabric是一种新兴的数据集成和管理理念,意在独立于部署平台、数据流程、地理位置和架构方法,在不移动数据位置的前提下,为企业内的所有数据提供单一访问点,保证数据使用端在正确的时间、正确的地点以实时的速度拿到正确的数据。

❖ 架构定位

Data Fabric这一概念,尤其鲜明的架构特点,这也是有别于其他技术的重要区别。其实质上是一种数据管理架构思想,其主要目标是打破企业内部的数据孤岛、最大化释放数据价值。其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理让数据架构持续健康,从而提供比传统数据管理更多的价值。其具备以下特点:

  • 连接数据,而非集中数据

Data Fabric 的一个关键原则是数据集成方法的灵活性,以支持分布式生态系统中的数据管理。也就是说,根据场景的性质及其需求,系统能为用户自动匹配最佳集成策略和数据技术,而无需用户人工搭建数据管道、选型计算存储方案。这样做一方面让用户可以专注于业务实现而无需关心技术细节,另一方面也免去了数据搬运带来的漫长等待,并节省了大量任务运维投入和重复存储成本,极大加速了数据价值实现。

  • 自助服务,而非专家服务

数据需求指数级增长,而企业数据工程团队增长却非常缓慢,甚至有所缩减,在集中式的数据供给模式下,数据工程团队成为影响数据化运营效率的最大瓶颈,唯有让分析师和业务人员自服务才有可能将生产力解放出来,以满足业务旺盛的数据化运营需求。Data Fabric 的最佳解决方案是实现数据民主化,允许业务用户轻松发现并使用数据资产,从而实现敏捷的数据交付。

  • 主动智能,而非被动人工

传统数据治理往往在问题发生后才开始启动,且需要从上到下推动并通过运动式人工治理,这种方式难以持续且越来越无法应对快速膨胀、错综复杂的数据依赖网络。而 Data Fabric 则强调数据治理应更主动和智能,即基于主动元数据构建智能治理能力,融入到数据全生命周期的每个环节里去,实现主动、智能的数据治理。Gartner 将 Data Fabric 比喻成数据管理的'自动驾驶":驾驶员由于某些原因注意力不集中,有点儿走神,汽车则主动、及时地切换至半自动驾驶模式,进行必要的路线修正。即Data Fabric 以最佳的方式将数据源头传送到目的地,并不断的监控数据 pipeline,提出建议,最终在速度更快、成本更低的情况下采用替代方案,就如自动驾驶汽车一样。

  • 万物链接,而非简单替代

Fabric是一种架构方法,该方法在各个节点之间提供完整的点对点连接,这些节点可以是数据源、存储、内部/外部应用程序、用户等任何访问数据或与数据相关的信息。Data Fabric将现有的数据管理系统和应用程序编织在一起,提供可重用的服务,涵盖数据集成、访问、转换、建模、可视化、治理和交付。为了在所有这些不同的服务之间提供连接,Data Fabric包括了连接到数据生态系统工具的连接器。

Data Fabric 的“真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度”,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用 AI 能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,实现更快速的适应业务、更敏捷的数据洞察、更有效地消除孤岛、更低的成本和风险、更高效的业务协作以及更安全的数据使用。

❖ 关联对比

作为一种新生概念,有时会与其他概念和产品有所混淆,那么我们来看看Data Fabric与常用一些概念的区别。

  • Data Mesh

Data Mesh由ThoughtWorks提出,其借鉴了微服务和 Service Mesh 的分布式架构思想,是一种领域驱动和自服务的数据架构设计新模式,基于面向领域去中心化的数据所有权和架构、数据作为产品、平台化自助数据基础设施以及联邦计算治理等四个基本原则进行建设, 通过将系统划分为由较小的跨职能团队管理的离散域来解决大型、复杂、单体数据架构的问题,如缺乏数据所有权、缺乏数据质量管理、组织难以扩展。其核心目标是将数据视为一种产品,通过利用面向领域的自助设计来实现日益庞大、多样化且无处不在的数据集的跨域访问需求,使数据消费者能够发现、理解、信任和使用数据/数据产品(分布在不同领域)来推动数据驱动的决策和计划。

  • API 的访问方式不同。Data Mesh是面向开发同学、API驱动的解决方案,需要为API编写实现代码,而Data Fabric相反,其通过低代码、无代码的方式进行设计,API集成在架构内进行实现,而不是直接使用它。

  • 思想不同。虽然Data Fabric和Data Mesh 都提供了跨技术、跨平台的使用数据的架构,但前者以技术为中心,是将多种技术进行组合使用,由 AI/ML 驱动的增强和自动化、智能元数据基础和强大的技术骨干(即云原生、基于微服务、API 驱动、可互操作和弹性)支持,更多的是关于管理数据技术(集成架构),而后者则侧重于组织结构和文化变革来实现敏捷性,可以在于技术无关的框架内指导方案设计,各数据领域团队可以在更理解其所管理的数据的基础下实现相应的数据产品的交付,更多的是管理人员和流程。

  • 数据产品的实现思路不同。Data Mesh 将数据的产品思维作为核心设计原则,其数据是分布式的,每类数据都是一个独立的域(即数据产品),存储在对应的组织中,而Data Fabric所有的数据都会集中在一个位置(物理集中或虚拟集中),对外提供能力。其实,基于数据虚拟化集成技术的Data Fabric,其数据也是分布式的,通过虚拟逻辑数据模型对外统一提供数据使用。

  • 数据资产的自动化方式不同。Data Fabric利用基于丰富的企业元数据基础(例如知识图)来发现、连接、识别、建议和向数据消费者提供数据资产的自动化,而Data Mesh则依赖于数据产品/域所有者来推动数据需求。

  • 依赖关系不同。Data Fabric无需依赖Data Mesh的实践即可实施,而Data Mesh则必须利用Data Fabric来支持数据对象和产品的验证。

  • 自动化程度不同。Data Fabric鼓励增强数据管理和跨平台编排,以最大限度地减少人工设计、部署和维护工作。Data Mesh则倾向于对现有系统的手动设计和编排,由业务领域执行持续维护。

  • 解决方案的成熟度不同。成熟度上看,Data Fabric目前被广泛应用于各种数据应用场景,而Data Mesh仍然处在一个未开发的阶段。

实际上,不同的公司基于自身的数据特点(数据量、数据速度、数据类型等)、安全策略、技术储备、性能要求、资金成本等, 对于Data Fabric或Data Mesh会有不同的具体落地方案。总之,Data Mesh更多地是关注于人和过程而不是技术架构,而Data Fabric是一种技术架构方法,它以一种智能的方式来应对数据和元数据的复杂性。

  • 数据虚拟化&数据集成

  • 数据虚拟化技术,作为一种被市场充分验证的成熟技术出现在Gartner 发布的《2021 数据管理技术成熟度曲线报告》中,它是一种将可用数据转换成分析和报告所需形式的可选择技术,其存在于数据使用者以及数据存储之间,数据使用者通过数据虚拟层访问数据,数据虚拟化层隐藏数据存储。数据虚拟化技术帮助数据工程师无需移动、复制数据即可集成多个数据源,在内存中进行数据的组合、准备和转换,并以需要的格式呈现数据。数据虚拟化方法可以帮助企业从数据中获得更多的见解以及更快的响应不断变化的商业分析需求,同时,与数据复制、移动相比,数据虚拟化可节省50-75%的成本。

  • 数据集成是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等。传统的数据集成专注于复制、移动数据,如ETL加工、数据同步等。数据虚拟化则是一种经济高效的现代数据集成技术,直接连接源数据,不依赖复杂和繁琐的ETL系统,减少了多次复制、移动和存储数据的时间和成本,同时也减少了产生数据错误的概率。另外,数据虚拟化不仅可以做数据层面的集成,也包括接口层面的集成。因此,数据虚拟化是一种更稳定的技术和增长最快的数据集成方式。

数据虚拟化与Data Fabric的关系上,数据虚拟化是Data Fabric架构中的关键技术之一,可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间。Data Fabric 的数据虚拟化层提供了跨平台敏捷集成、统一语义、低代码创建数据API(支持SQL、REST、OData和GraphQL等技术)、智能缓存加速等功能,在数据处理引擎和数据消费者之间架起了桥梁。

  • 数据湖

Data Fabric不是数据湖或者数据仓库的替代方案,数据湖是其异构数据源之一(数据源可以是数据仓库、数据湖,也可以是业务数据库等其他数据存储),Data Fabric将应用程序与数据湖(或者数据仓库)进行连接,通过统一的数据管理框架支持在分布式的环境中进行数据消费。Data Fabric 可以为数据湖或数据仓库提供可信的数据,同时,基于数据湖(或者数据仓库)的Data Fabric 为业务提供更精准的洞察能力。

  • 知识图谱

知识图谱是Data Fabric重要的组成部分。如果将Data Fabric翻译成数据经纬的话,那么知识图谱则是经纱和纬纱,其使得Data Fabric支持动态集成以及数据应用编排,而作为基石的数据目录也是基于知识图谱进行实现的。知识图谱使得Data Fabric在良性循环中进行持续运营和发展,如灵活性(可以表达任何数据和元数据)、可组合性(易于增量进化)、连接性(连接所有数据和元数据“孤岛”)、无缝数据治理、面向未来(基于标准)、表现力(最全面的“开箱即用” 模型)、可集成性(最完整、开放和灵活的 APIs)、智能(集成推理和机器学习)等。

  • 数据中台

数据中台方法的本质思想是通过对数据进行集中式建设、集中式管理和集中式服务,以提供单一事实来源的数据(single source of truth)。这就决定了数据中台只有在数据需求较为固定、用数人群比较集中、决策频率相对较低的情况下是比较有效的。伴随企业数据需求日趋复杂、用数人群占比越来越大,决策频率越来越高,业务对用数的敏捷性和灵活性要求越来越高,数据中台这种集中的数据管理方式无法实现数据的敏捷性和灵活性。Data Fabric旨在提供对创新深度、速度要求更高的创新型业务更为合适。

2. Data Fabric 价值及能力

❖ 产品价值

Data Fabric的真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用AI能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,产生:

  • 更快地适应业务。Data Fabric通过强大的查询、搜索以及学习能力可以回答意料之外的问题以及适应新的业务需求。其提供了一个动态的、可查询的数据能力,从多个数据来源进行数据的收集和分析,且可以充分复用数据模型(之前需要依赖创建新的数据模型和数据转移复制来支持新的业务需求),因此可以快速回答和解决新的问题和诉求。

  • 更好的洞察力。Data Fabric表达数据的业务意义(而不仅仅是通过数据改变现状),从而产生更好的业务洞察能力。其融合多种数据来源(如数据&元数据、司内&司外、业务内&业务外、云端&本地等),建设可扩展的、知识图谱驱动的数据模型,使得每个数据资产的所有上下文都可以以可理解的形式进行使用和呈现,帮助决策者和算法做出更优的决策(更容易地获得高质量的数据,从而能更快和更精确地获得业务数据洞察),同时降低数据被滥用或者误解的可能性和风险。

  • 更有效地消除孤岛。Data Fabric通过数据联邦、数据虚拟化、语义丰富、基于AI的主动元数据、知识图谱以及图存储等数据技术,进行数据的连接、跨数据源的访问和数据交付,从而减少数据孤岛,尤其是数据虚拟化技术在计算层而非存储层进行数据连接,“在数据处理引擎和数据消费者之间架起了桥梁”,这种数据的连接方式还避免了不断产生新的数据孤岛。DAMA认为,消除孤岛和完全问责应该是任何数据项目的核心。

  • 更低的成本和实施风险。Data Fabric的实现思想是是对原有技术的重新组合(技术的本质是利用现象,对现有技术进行重新组合,并基于目的性的机会利基进行不断的自我进化),而非全新的技术,通过支持组装式数据分析及其各种组件,对数据仓库、数据湖、数据计算、数据分析等现有的技术和能力进重新的组合和使用,并引入了新的方法、工具和平台。另外虚拟数据集成技术的应用,减少了数据复制、转移的次数和数量,降低了数据质量的风险和运维成本,也节省了计算和存储的开销。

  • 更高效的业务协作。Data Fabric是为协作、利用和链接现有资产和推动跨智能的数据管理项目而创建的。通过将现有的数据、数据能力、应用程序进行自动化关联、编排,并创建全域数据的单一视图(catalog),从而支持跨业务数据的即时有效访问,实现业务间有效协作, 创建和维护业务的竞争优势。

  • 更安全的业务。Data Fabric可以实现自动治理、数据保护和安全保障。其为所有的数据计划建立分布式的数据治理层,减少合规性和监管风险,以及在平台安全能力下防止数据泄露,并通过AI能力提升自动化水平(如根据监管文档中的语言和定义自动提取数据治理规则、发现和治理个人身份信息PII和关键数据元素),使得业务可以在几分钟内发现并应用数据治理规则,避免产生不良社会影响或高昂的罚款,确保所有的数据都能以合规的方式进行存储和使用,而这在当前社会背景下尤为重要。

❖ 能力要求

针对Data Fabric,需要具备什么能力,目前还没有行业统一标准。我们可以通过Forrester和Gartner对能力有个大致的了解。

  • Forrester 定义的能力要求

  • 数据管理。数据管理是Data Fabric的关键能力,包括了数据安全、数据治理、元数据&数据目录、数据搜索、数据质量、数据血缘等,并与其他5种能力交织在一起,保障数据的可靠性、安全性、完整性、合规性、可集成等,确保数据的信任度、数据流编排以及跨平台的数据转换。同时数据管理集成了AI能力,自动化实现基于语义和知识的分析,理解数据及其业务含义,构建知识图谱形式的数据目录,从而使得数据目录更加智能化和自动化。

  • 数据摄取和流式传输。数据摄取是Data Fabric的数据基础,处理数据连接、摄取、流式传输等,将数据加载到大数据存储中。数据摄取需要能覆盖所有潜在的数据类型(结构化、非结构化等)和数据来源(设备、日志、数据库、点击、应用程序等),并通过多种优化方法缩短数据的加载时间(如单个、大批量、小批量等)。

  • 数据处理和持久化。该层利用数据湖、数据中心、数据仓库、NoSQL 和其他数据组件(如数据管道)来处理和保存数据以供使用。Data Fabric可以将处理下推到各种数据存储上,例如数据湖、对象存储、NoSQL 或数据仓库,以便在与其他来源进一步集成之前仅获取部分的相关数据,提升数据的查询性能。

  • 数据编排。数据编排通过转换、集成和清洗数据,实时或即时的支持各种数据使用场景。其通过一些技术完成跨源数据的集成访问,并通过统一的、标准化的API的方式将集成转化后的数据对外提供。

  • 数据发现。数据发现能力直接解决或者弱化了数据孤岛问题,自动发现跨场景的数据,通过数据建模、数据准备以及虚拟化等技术组件为数据使用者准备好可用的数据资产,并以图的呈现方式进行数据发现和使用。其中数据虚拟化技术比较关键,其用于创建可以实时访问的数据虚拟视图,进行跨岛查询[25]。

  • 数据访问。用户通过自服务的方式进行数据访问(如应用程序、工具、仪表盘、解决方案等),并通过高性能缓存以及其他持久化存储技术保障数据的访问性能。

  • Gartner 定义能力要求

  • 增强数据目录。 数据目录是整个架构的基础,其通过元数据对数据资产进行组织和管理。在数据目录上,使用 AI/ML进行自动化收集和分析所有形式的元数据以及数据上下文,包括技术元数据(如数据类型、数据模型等)、业务元数据(如业务标记、业务策略、业务关系等)、操作元数据(如数据操作、数据血缘、数据性能等)、社会元数据(如实体关系、UGC、评价等)等等,为形成语义知识图谱以及主动元数据做数据内容上的准备。

  • 语义知识图谱。 创建和管理知识图谱,并使用 AI/ML 算法进行实体连接以及连接关系的量化,以识别或者添加丰富数据间的关系(包括多个数据孤岛间的数据关系,数据上下文以及语义相关性)用于数据洞察分析,同时也可以实现自动化的机器理解和数据推理。产生的语义化数据也可用于机器学习的模型训练上,提升预测的精准度。

  • 主动元数据。 主动元数据是相对于静态的被动元数据而言的。通过AI/ML辅助生成的主动元数据是支持自动化数据集成和数据交付的基础能力,主动元数据的形成依赖于发现并连接所有形式的元数据,形成独特并不断变化的关系,并以图这种易于理解的方式链接和呈现元数据间的关系。通过对元数据关系图的持续访问和分析,不断发现和形成关键指标、统计数据等新的关系。如访问频次、数据血缘、数据性能、数据质量等。将元数据关系数据作为特征去训练和丰富AI算法,同时这些算法可以产生或者迭代元数据的语义,以及改进数据集成的设计、自动化流程。

  • 推荐引擎。 推荐引擎与业务相关,将基于专家经验形成的规则或者机器模型学习的结果,以及结合主动元数据,用在数据质量监控以及优化改进数据的准备过程(如集成流程或者引擎优化),如元数据推荐、流程推荐、资产推荐、建议推荐、执行计划推荐、计算引擎推荐等。

  • 数据准备和数据交付。 Data Fabric的数据准备和交付是在数据pipline中进行数据的转化和集成。数据集成对于Data Fabric至关重要, 通过批处理、数据复制、数据同步、流数据集成以及数据虚拟化(在数据查询时完成数据转化)等方式进行跨源、跨环境(如多云、混合云、供应商)的数据集成,将数据准备折叠到数据交付层(将准备好的数据进行交付)。

  • 数据编排和DataOps。 数据编排是用于驱动数据准备工作流的流程,用来集成、转换和交付各种数据和分析用例的数据。DataOps是将类似于DevOps的持续集成、持续部署的原则应用于数据pipeline,更加敏捷和严格的进行数据交付。基于AI的自动化数据编排是Data Fabric架构设计以及落地的关键,通过组合和重用集成组件,快速支持当下以及未来需求。存储和计算分离是未来数据管理的趋势,Data Fabric通过自动化来管理和编排跨组织、跨平台的的数据pipeline,包括数据流协调、维护、操作、性能优化、集成负载调度等,大幅提高数据管理团队的工作效率。

3. Data Fabric 厂商实践

Data Fabric (数据经纬)目前是一个IT热点,众多国内外公司均推出了针对 Data Fabric 的解决方案。下面看看几个典型厂商的产品及方案。

❖ IBM - Cloud Park for Data

IBM 公司的Cloud Pak for Data针对上述Data Fabric (数据经纬)拥有四个 AI赋能的自动化能力。

  • AutoCatalog:元数据的管理是挖掘数据价值,把各个不同来源的数据很好利用起 来的重要技术环节。AutoCatalog 可以看成是 IBM 研发 AI 赋能的分类大脑,可以根 据发现数据和分类的流程实现自动化,进行自动分类之后建立自动化目录,维护来自不 同数据环境数据资产的 Dynamic 的实时目录。

  • AutoAI:AutoAI 的主要功能是尽量降低 AI 模型开发、模型校正、模型自我重新培 训的技术门槛和人力付出,从而对动态的数据和整个 AI 本身算法生命的周期进行自动 化。

  • AutoPrivacy:实际上 AutoPrivacy 主要是通过数据隐私框架当中的关键能力,使 用 AI 的能力智能化地识别企业内部的敏感数据,当被调用的时候系统能够识别到、监 控到,甚至在后续当定义敏感数据的使用和保护时,就可以为企业内部的政策实施自动 化提供了技术和智能化的保障。

  • AutoSQL:因为我们现在要解决的问题是跨混合多云环境实现数据访问的自动化, 当写一个传统 SQL 的时候,首先要知道这个数据在什么地方。我们通过 AutoSQL 的 技术来实现访问数据的自动化,无须物理地移动这些数据,从而提高了数据查询的速 度,也降低了使用数据的人对数据来源所需要的了解。

❖ Aloudata NoETL

  • 主动元数据。 主动元数据是实现 Data Fabric 的基石,它类似于智能驾驶汽车的传感器及信号解析处理模块,为推荐引擎、DataOps、数据虚拟化和主动数据治理提供了数据支撑。数据管理策略的有效性绝大部分取决于主动元数据建设的好坏,企业落地 Data Fabric 的首要任务,就是构建全面、准确、实时的主动元数据,并持续优化以获得更好的数据管理效果。其具备如下能力: 快速发现全链路元数据、 实时、精细、准确的全链路血缘、 采集数据生态的所有元数据、 以知识图谱方式组织元数据、 实时、高效、易扩展的数据画像打标等。

  • 推荐引擎。 推荐引擎将基于专家经验形成的规则或者机器学习模型,用于 DataOps、数据管理以及数据准备及服务 (如数据集成方案或者引擎性能优化) ,其推荐范围可以涵盖数据全生命周期各个阶段,如数据资产推荐、数据用法推荐、数据集成方案推荐、执行计划推荐、计算引擎推荐、数据分类建议、数据时效提升建议、数据安全风控建议、成本治理建议等。其具备如下能力: 数据资产业务分类推荐、 智能 SQL 用法联想、 智能查询加速、 智能资产推荐等。

  • 增强数据目录。 Aloudata 增强数据目录 (Aloudata BIG Catalog) 以主动元数据为核心,将 AI 和机器学习用于元数据收集、语义推理和分类打标,自动对数据进行编目,从而最大限度减少手工维护元数据的工作,从而为业务人员提供以下关键特性和体验: 语义化数据搜索、 全景数据画像、 可视化血缘分析、 全域数据探索等。

  • 数据虚拟化。 数据虚拟化是实现 Data Fabric 的核心,它承担了业务人员自助完成数据集成、准备和交付的关键职责,它在数据源与数据消费端之间提供了一个连接、整合以及消费数据的虚拟语义层,用户可以通过定义数据查询来完成数据转换,从而实现对跨源、跨环境 (如多云、混合云、Saas 软件供应商) 的数据进行透明集成、自助准备以及高性能服务。其具备如下能力: 高性能联邦查询、 全场景智能加速、 全链路数据编排、 零运维数据更新、 标准化协议接入、 精细化安全管控等。

  • DataOps。 DataOps 理念被提出,它的核心内涵是将类似于 DevOps 的敏捷研发、持续集成、持续部署等原则应用于数据研发和管理过程,以实现更加敏捷和高质的数据交付,通常来说,落地 DataOps 必须具备以下关键能力: 一站式数据研发、 数据变更 CI/CD、 嵌入式治理管控、 数据质量可观测等。

❖ 极数云舟-DTark

北京极数云舟科技有限公司( Cloud-ark )是一家致力于数据处理基础技术研发的高新技术企业,结合数据处理领域最前沿的Data Fabric理论,创造性地提出广义数据库系统,并自主实现内核层多引擎融合技术,打造核心产品:云舟数据经纬平台(DTark),助力用户打造简单、高效、便捷与可持续发展的企业数据基座。

DTark核心技术本质是实现了多引擎融合数据处理,同时也实现了数据多副本、水平弹性伸缩、数据一致性、透明高可用、分层解耦等能力,基于成熟开源组件,并兼容开源协议和技术生态体系,稳定可靠,简单易用,软件核心源代码及关键技术自主研发,产品安全可控。 极数云舟基于DTark产品,服务能力覆盖复杂企业数据管理、数据平台建设、数据库系统及管理,助力客户数字化、智慧化等基于数据融合服务的数据基座建设,也为数据中台、大数据平台建设提供了新动力,在提高性能、降低成本、减少定制化、降低系统复杂度、提升系统可持续发展能力等方面独具优势:

  • 数据接入的融合:基于成熟开源组件,稳定可靠,兼容MySQL协议和技术生态体系

  • 数据存储的融合:可实现数据多副本、水平弹性伸缩、数据一致性、透明高可用、分层解耦融合

  • 数据引擎融合:多引擎融合解决数据多样性存储的横向打通

  • 数据接入的扩展:支持信息系统结构化数据、工业物联网时序数据、科学引擎接口数据的可扩展接入

  • 数据输出的扩展:数据服务化要作为数据库的标准能力

  • 数据引擎的扩展:针对数据类型与计算需求可扩展至 在线事务处理、 在线分析处理、时序数据处理、全文检索、知识库 等多种引擎

❖ 前世今生

Data Fabric概念 在 2000 年首先被 Forrester 提出,2016 年 Forrester Wave 中增加了 Big Data Fabric 类别。从2019 年 Data Fabric 开始入选 Gartner 各年度的技术趋势。

Gartner发布的《2021年十大数据和分析技术趋势》中,加速变革被列在了首位(Accelerating Change),其中Data Fabric作为数据基础能力被再次强调。

2022 年 Gartner 公布的顶级战略技术趋势中,Data Fabric 入选工程信任主题的关键技术趋势。

❖ 基本概念

我们如何理解“Data Fabric”?Fabric这个词的本意是“织物、布、构造“。可以想象,数据将在纵横交错的、像织物那样的云网络中自由流动,没有任何限制。不管是哪种计算模式,还是什么的网络,针对批数据、流数据都可以自由交换、共享和处理,那就是数据经纬-Data Fabric带来的新体验。 目前对Data Fabric,还没有特别统一的认识,各家对其有着自己的解读。

  • Forrester 认为 Data Fabric“是以一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。”其专注于对数据集成、转换、准备、策展、安全、治理和编排的自动化,从而实现了快速的数据分析和洞察,帮助业务获得成功。

  • Gartner 将 Data Fabric 定义为一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的数据交付。Gartner 强调,通过 Data Fabric,散落各处的数据孤岛都能被统一发现和使用,并基于主动元数据进行建设和持续分析,认为数据编织的真正价值在于它能够通过内置的分析技术动态改进数据的使用,同时通过将自动化能力添加到整体数据管理中,使数据管理工作量减少 70% 并加快价值实现速度。

❖ 发展背景

一项新技术的出现,必然有其背景及规律,Data Fabric的出现也是为解决当前数据场景的问题。简单梳理下,可罗列为几个痛点(下列数据来自Gartner的调查报告):

  • 激增的暗数据&数据孤岛

随着企业数据量激增和数据需求日趋复杂,越来越多数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) 被引入,企业数据在物理上支离破碎,尤其是采用混合云&多云架构后更是加剧了这一问题。只有 45% 的结构化数据应用于业务,只有不到 1% 的非结构化数据被分析或使用,多达 68% 的数据没有被分析,多达 82% 的企业受到数据孤岛的阻碍。

  • 低效的数据交付方式

激增的企业数据、爆炸的业务需求、复杂的数据工程,让业务自助找数、用数变得日趋困难:分析师 80% 的时间用于发现和准备数据,知识型员工将 50% 的时间浪费在寻找数据、发现和纠正错误以及确认不信任的数据来源上、数据科学家花 60% 的时间清理和组织数据。

  • 日益严峻的数据质量问题

企业中 55% 的数据无法用于决策,47% 新创建的数据记录至少有一个严重错误,数据质量差导致了巨额的财务损失;为解决不同数据计算和存储需求,企业开始采用越来越多的数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) ,让实现“单一事实来源的数据”变得十分困难。

  • 不断扩大的安全合规风险

超过 70% 的用户可以访问他们不应该访问的数据。而随着网安法、数安法、个保法、GDPR、CCPA 等数据安全和隐私保护法律的出台和外部安全威胁越来越大,企业必须在合规和治理方面表现出更高的标准,更难的是,企业还需同时兼顾业务的用数效率。

Gartner称:“在过去的十年里,数据和应用孤岛的数量激增,而数据和分析(D&A)团队的技能型人才数量却保持不变,甚至下降。作为一种跨平台和业务用户的灵活、弹性数据整合方式,Data Fabric能够简化企业机构的数据整合基础设施并创建一个可扩展架构,减少大多数数据和分析团队因整合难度上升而出现的技术债务。其真正价值在于:通过内置的分析技术动态改进数据的使用,使数据管理工作量减少70%并加快价值实现时间。Gartner最新预测显示,至2024年,Data Fabric可减少50%人力数据管理成本,与此同时,数据使用效率会因Data Fabric的部署使用伴随着数据类型日益多样化、数据孤岛不断林立、数据结构愈加复杂,企业在分布式数据环境中高效管理和利用多维数据成为亟待解决的难题。与此同时,企业上云成为一大趋势,混合数据环境下企业该如何跨平台、跨环境,以实时的速度收集、访问、管理、共享数据,从不断变化、高度关联、却又四处分散的数据中获得可执行洞见,实现智能化决策?面对上述数据管理难题,Data Fabric提出了一套治理“良方”。Data Fabric是一种新兴的数据集成和管理理念,意在独立于部署平台、数据流程、地理位置和架构方法,在不移动数据位置的前提下,为企业内的所有数据提供单一访问点,保证数据使用端在正确的时间、正确的地点以实时的速度拿到正确的数据。

❖ 架构定位

Data Fabric这一概念,尤其鲜明的架构特点,这也是有别于其他技术的重要区别。其实质上是一种数据管理架构思想,其主要目标是打破企业内部的数据孤岛、最大化释放数据价值。其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理让数据架构持续健康,从而提供比传统数据管理更多的价值。其具备以下特点:

  • 连接数据,而非集中数据

Data Fabric 的一个关键原则是数据集成方法的灵活性,以支持分布式生态系统中的数据管理。也就是说,根据场景的性质及其需求,系统能为用户自动匹配最佳集成策略和数据技术,而无需用户人工搭建数据管道、选型计算存储方案。这样做一方面让用户可以专注于业务实现而无需关心技术细节,另一方面也免去了数据搬运带来的漫长等待,并节省了大量任务运维投入和重复存储成本,极大加速了数据价值实现。

  • 自助服务,而非专家服务

数据需求指数级增长,而企业数据工程团队增长却非常缓慢,甚至有所缩减,在集中式的数据供给模式下,数据工程团队成为影响数据化运营效率的最大瓶颈,唯有让分析师和业务人员自服务才有可能将生产力解放出来,以满足业务旺盛的数据化运营需求。Data Fabric 的最佳解决方案是实现数据民主化,允许业务用户轻松发现并使用数据资产,从而实现敏捷的数据交付。

  • 主动智能,而非被动人工

传统数据治理往往在问题发生后才开始启动,且需要从上到下推动并通过运动式人工治理,这种方式难以持续且越来越无法应对快速膨胀、错综复杂的数据依赖网络。而 Data Fabric 则强调数据治理应更主动和智能,即基于主动元数据构建智能治理能力,融入到数据全生命周期的每个环节里去,实现主动、智能的数据治理。Gartner 将 Data Fabric 比喻成数据管理的'自动驾驶":驾驶员由于某些原因注意力不集中,有点儿走神,汽车则主动、及时地切换至半自动驾驶模式,进行必要的路线修正。即Data Fabric 以最佳的方式将数据源头传送到目的地,并不断的监控数据 pipeline,提出建议,最终在速度更快、成本更低的情况下采用替代方案,就如自动驾驶汽车一样。

  • 万物链接,而非简单替代

Fabric是一种架构方法,该方法在各个节点之间提供完整的点对点连接,这些节点可以是数据源、存储、内部/外部应用程序、用户等任何访问数据或与数据相关的信息。Data Fabric将现有的数据管理系统和应用程序编织在一起,提供可重用的服务,涵盖数据集成、访问、转换、建模、可视化、治理和交付。为了在所有这些不同的服务之间提供连接,Data Fabric包括了连接到数据生态系统工具的连接器。

Data Fabric 的“真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度”,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用 AI 能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,实现更快速的适应业务、更敏捷的数据洞察、更有效地消除孤岛、更低的成本和风险、更高效的业务协作以及更安全的数据使用。

❖ 关联对比

作为一种新生概念,有时会与其他概念和产品有所混淆,那么我们来看看Data Fabric与常用一些概念的区别。

  • Data Mesh

Data Mesh由ThoughtWorks提出,其借鉴了微服务和 Service Mesh 的分布式架构思想,是一种领域驱动和自服务的数据架构设计新模式,基于面向领域去中心化的数据所有权和架构、数据作为产品、平台化自助数据基础设施以及联邦计算治理等四个基本原则进行建设, 通过将系统划分为由较小的跨职能团队管理的离散域来解决大型、复杂、单体数据架构的问题,如缺乏数据所有权、缺乏数据质量管理、组织难以扩展。其核心目标是将数据视为一种产品,通过利用面向领域的自助设计来实现日益庞大、多样化且无处不在的数据集的跨域访问需求,使数据消费者能够发现、理解、信任和使用数据/数据产品(分布在不同领域)来推动数据驱动的决策和计划。

  • API 的访问方式不同。Data Mesh是面向开发同学、API驱动的解决方案,需要为API编写实现代码,而Data Fabric相反,其通过低代码、无代码的方式进行设计,API集成在架构内进行实现,而不是直接使用它。

  • 思想不同。虽然Data Fabric和Data Mesh 都提供了跨技术、跨平台的使用数据的架构,但前者以技术为中心,是将多种技术进行组合使用,由 AI/ML 驱动的增强和自动化、智能元数据基础和强大的技术骨干(即云原生、基于微服务、API 驱动、可互操作和弹性)支持,更多的是关于管理数据技术(集成架构),而后者则侧重于组织结构和文化变革来实现敏捷性,可以在于技术无关的框架内指导方案设计,各数据领域团队可以在更理解其所管理的数据的基础下实现相应的数据产品的交付,更多的是管理人员和流程。

  • 数据产品的实现思路不同。Data Mesh 将数据的产品思维作为核心设计原则,其数据是分布式的,每类数据都是一个独立的域(即数据产品),存储在对应的组织中,而Data Fabric所有的数据都会集中在一个位置(物理集中或虚拟集中),对外提供能力。其实,基于数据虚拟化集成技术的Data Fabric,其数据也是分布式的,通过虚拟逻辑数据模型对外统一提供数据使用。

  • 数据资产的自动化方式不同。Data Fabric利用基于丰富的企业元数据基础(例如知识图)来发现、连接、识别、建议和向数据消费者提供数据资产的自动化,而Data Mesh则依赖于数据产品/域所有者来推动数据需求。

  • 依赖关系不同。Data Fabric无需依赖Data Mesh的实践即可实施,而Data Mesh则必须利用Data Fabric来支持数据对象和产品的验证。

  • 自动化程度不同。Data Fabric鼓励增强数据管理和跨平台编排,以最大限度地减少人工设计、部署和维护工作。Data Mesh则倾向于对现有系统的手动设计和编排,由业务领域执行持续维护。

  • 解决方案的成熟度不同。成熟度上看,Data Fabric目前被广泛应用于各种数据应用场景,而Data Mesh仍然处在一个未开发的阶段。

实际上,不同的公司基于自身的数据特点(数据量、数据速度、数据类型等)、安全策略、技术储备、性能要求、资金成本等, 对于Data Fabric或Data Mesh会有不同的具体落地方案。总之,Data Mesh更多地是关注于人和过程而不是技术架构,而Data Fabric是一种技术架构方法,它以一种智能的方式来应对数据和元数据的复杂性。

  • 数据虚拟化&数据集成

  • 数据虚拟化技术,作为一种被市场充分验证的成熟技术出现在Gartner 发布的《2021 数据管理技术成熟度曲线报告》中,它是一种将可用数据转换成分析和报告所需形式的可选择技术,其存在于数据使用者以及数据存储之间,数据使用者通过数据虚拟层访问数据,数据虚拟化层隐藏数据存储。数据虚拟化技术帮助数据工程师无需移动、复制数据即可集成多个数据源,在内存中进行数据的组合、准备和转换,并以需要的格式呈现数据。数据虚拟化方法可以帮助企业从数据中获得更多的见解以及更快的响应不断变化的商业分析需求,同时,与数据复制、移动相比,数据虚拟化可节省50-75%的成本。

  • 数据集成是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等。传统的数据集成专注于复制、移动数据,如ETL加工、数据同步等。数据虚拟化则是一种经济高效的现代数据集成技术,直接连接源数据,不依赖复杂和繁琐的ETL系统,减少了多次复制、移动和存储数据的时间和成本,同时也减少了产生数据错误的概率。另外,数据虚拟化不仅可以做数据层面的集成,也包括接口层面的集成。因此,数据虚拟化是一种更稳定的技术和增长最快的数据集成方式。

数据虚拟化与Data Fabric的关系上,数据虚拟化是Data Fabric架构中的关键技术之一,可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间。Data Fabric 的数据虚拟化层提供了跨平台敏捷集成、统一语义、低代码创建数据API(支持SQL、REST、OData和GraphQL等技术)、智能缓存加速等功能,在数据处理引擎和数据消费者之间架起了桥梁。

  • 数据湖

Data Fabric不是数据湖或者数据仓库的替代方案,数据湖是其异构数据源之一(数据源可以是数据仓库、数据湖,也可以是业务数据库等其他数据存储),Data Fabric将应用程序与数据湖(或者数据仓库)进行连接,通过统一的数据管理框架支持在分布式的环境中进行数据消费。Data Fabric 可以为数据湖或数据仓库提供可信的数据,同时,基于数据湖(或者数据仓库)的Data Fabric 为业务提供更精准的洞察能力。

  • 知识图谱

知识图谱是Data Fabric重要的组成部分。如果将Data Fabric翻译成数据经纬的话,那么知识图谱则是经纱和纬纱,其使得Data Fabric支持动态集成以及数据应用编排,而作为基石的数据目录也是基于知识图谱进行实现的。知识图谱使得Data Fabric在良性循环中进行持续运营和发展,如灵活性(可以表达任何数据和元数据)、可组合性(易于增量进化)、连接性(连接所有数据和元数据“孤岛”)、无缝数据治理、面向未来(基于标准)、表现力(最全面的“开箱即用” 模型)、可集成性(最完整、开放和灵活的 APIs)、智能(集成推理和机器学习)等。

  • 数据中台

数据中台方法的本质思想是通过对数据进行集中式建设、集中式管理和集中式服务,以提供单一事实来源的数据(single source of truth)。这就决定了数据中台只有在数据需求较为固定、用数人群比较集中、决策频率相对较低的情况下是比较有效的。伴随企业数据需求日趋复杂、用数人群占比越来越大,决策频率越来越高,业务对用数的敏捷性和灵活性要求越来越高,数据中台这种集中的数据管理方式无法实现数据的敏捷性和灵活性。Data Fabric旨在提供对创新深度、速度要求更高的创新型业务更为合适。

2. Data Fabric 价值及能力

❖ 产品价值

Data Fabric的真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用AI能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,产生:

  • 更快地适应业务。Data Fabric通过强大的查询、搜索以及学习能力可以回答意料之外的问题以及适应新的业务需求。其提供了一个动态的、可查询的数据能力,从多个数据来源进行数据的收集和分析,且可以充分复用数据模型(之前需要依赖创建新的数据模型和数据转移复制来支持新的业务需求),因此可以快速回答和解决新的问题和诉求。

  • 更好的洞察力。Data Fabric表达数据的业务意义(而不仅仅是通过数据改变现状),从而产生更好的业务洞察能力。其融合多种数据来源(如数据&元数据、司内&司外、业务内&业务外、云端&本地等),建设可扩展的、知识图谱驱动的数据模型,使得每个数据资产的所有上下文都可以以可理解的形式进行使用和呈现,帮助决策者和算法做出更优的决策(更容易地获得高质量的数据,从而能更快和更精确地获得业务数据洞察),同时降低数据被滥用或者误解的可能性和风险。

  • 更有效地消除孤岛。Data Fabric通过数据联邦、数据虚拟化、语义丰富、基于AI的主动元数据、知识图谱以及图存储等数据技术,进行数据的连接、跨数据源的访问和数据交付,从而减少数据孤岛,尤其是数据虚拟化技术在计算层而非存储层进行数据连接,“在数据处理引擎和数据消费者之间架起了桥梁”,这种数据的连接方式还避免了不断产生新的数据孤岛。DAMA认为,消除孤岛和完全问责应该是任何数据项目的核心。

  • 更低的成本和实施风险。Data Fabric的实现思想是是对原有技术的重新组合(技术的本质是利用现象,对现有技术进行重新组合,并基于目的性的机会利基进行不断的自我进化),而非全新的技术,通过支持组装式数据分析及其各种组件,对数据仓库、数据湖、数据计算、数据分析等现有的技术和能力进重新的组合和使用,并引入了新的方法、工具和平台。另外虚拟数据集成技术的应用,减少了数据复制、转移的次数和数量,降低了数据质量的风险和运维成本,也节省了计算和存储的开销。

  • 更高效的业务协作。Data Fabric是为协作、利用和链接现有资产和推动跨智能的数据管理项目而创建的。通过将现有的数据、数据能力、应用程序进行自动化关联、编排,并创建全域数据的单一视图(catalog),从而支持跨业务数据的即时有效访问,实现业务间有效协作, 创建和维护业务的竞争优势。

  • 更安全的业务。Data Fabric可以实现自动治理、数据保护和安全保障。其为所有的数据计划建立分布式的数据治理层,减少合规性和监管风险,以及在平台安全能力下防止数据泄露,并通过AI能力提升自动化水平(如根据监管文档中的语言和定义自动提取数据治理规则、发现和治理个人身份信息PII和关键数据元素),使得业务可以在几分钟内发现并应用数据治理规则,避免产生不良社会影响或高昂的罚款,确保所有的数据都能以合规的方式进行存储和使用,而这在当前社会背景下尤为重要。

❖ 能力要求

针对Data Fabric,需要具备什么能力,目前还没有行业统一标准。我们可以通过Forrester和Gartner对能力有个大致的了解。

  • Forrester 定义的能力要求

  • 数据管理。数据管理是Data Fabric的关键能力,包括了数据安全、数据治理、元数据&数据目录、数据搜索、数据质量、数据血缘等,并与其他5种能力交织在一起,保障数据的可靠性、安全性、完整性、合规性、可集成等,确保数据的信任度、数据流编排以及跨平台的数据转换。同时数据管理集成了AI能力,自动化实现基于语义和知识的分析,理解数据及其业务含义,构建知识图谱形式的数据目录,从而使得数据目录更加智能化和自动化。

  • 数据摄取和流式传输。数据摄取是Data Fabric的数据基础,处理数据连接、摄取、流式传输等,将数据加载到大数据存储中。数据摄取需要能覆盖所有潜在的数据类型(结构化、非结构化等)和数据来源(设备、日志、数据库、点击、应用程序等),并通过多种优化方法缩短数据的加载时间(如单个、大批量、小批量等)。

  • 数据处理和持久化。该层利用数据湖、数据中心、数据仓库、NoSQL 和其他数据组件(如数据管道)来处理和保存数据以供使用。Data Fabric可以将处理下推到各种数据存储上,例如数据湖、对象存储、NoSQL 或数据仓库,以便在与其他来源进一步集成之前仅获取部分的相关数据,提升数据的查询性能。

  • 数据编排。数据编排通过转换、集成和清洗数据,实时或即时的支持各种数据使用场景。其通过一些技术完成跨源数据的集成访问,并通过统一的、标准化的API的方式将集成转化后的数据对外提供。

  • 数据发现。数据发现能力直接解决或者弱化了数据孤岛问题,自动发现跨场景的数据,通过数据建模、数据准备以及虚拟化等技术组件为数据使用者准备好可用的数据资产,并以图的呈现方式进行数据发现和使用。其中数据虚拟化技术比较关键,其用于创建可以实时访问的数据虚拟视图,进行跨岛查询[25]。

  • 数据访问。用户通过自服务的方式进行数据访问(如应用程序、工具、仪表盘、解决方案等),并通过高性能缓存以及其他持久化存储技术保障数据的访问性能。

  • Gartner 定义能力要求

  • 增强数据目录。 数据目录是整个架构的基础,其通过元数据对数据资产进行组织和管理。在数据目录上,使用 AI/ML进行自动化收集和分析所有形式的元数据以及数据上下文,包括技术元数据(如数据类型、数据模型等)、业务元数据(如业务标记、业务策略、业务关系等)、操作元数据(如数据操作、数据血缘、数据性能等)、社会元数据(如实体关系、UGC、评价等)等等,为形成语义知识图谱以及主动元数据做数据内容上的准备。

  • 语义知识图谱。 创建和管理知识图谱,并使用 AI/ML 算法进行实体连接以及连接关系的量化,以识别或者添加丰富数据间的关系(包括多个数据孤岛间的数据关系,数据上下文以及语义相关性)用于数据洞察分析,同时也可以实现自动化的机器理解和数据推理。产生的语义化数据也可用于机器学习的模型训练上,提升预测的精准度。

  • 主动元数据。 主动元数据是相对于静态的被动元数据而言的。通过AI/ML辅助生成的主动元数据是支持自动化数据集成和数据交付的基础能力,主动元数据的形成依赖于发现并连接所有形式的元数据,形成独特并不断变化的关系,并以图这种易于理解的方式链接和呈现元数据间的关系。通过对元数据关系图的持续访问和分析,不断发现和形成关键指标、统计数据等新的关系。如访问频次、数据血缘、数据性能、数据质量等。将元数据关系数据作为特征去训练和丰富AI算法,同时这些算法可以产生或者迭代元数据的语义,以及改进数据集成的设计、自动化流程。

  • 推荐引擎。 推荐引擎与业务相关,将基于专家经验形成的规则或者机器模型学习的结果,以及结合主动元数据,用在数据质量监控以及优化改进数据的准备过程(如集成流程或者引擎优化),如元数据推荐、流程推荐、资产推荐、建议推荐、执行计划推荐、计算引擎推荐等。

  • 数据准备和数据交付。 Data Fabric的数据准备和交付是在数据pipline中进行数据的转化和集成。数据集成对于Data Fabric至关重要, 通过批处理、数据复制、数据同步、流数据集成以及数据虚拟化(在数据查询时完成数据转化)等方式进行跨源、跨环境(如多云、混合云、供应商)的数据集成,将数据准备折叠到数据交付层(将准备好的数据进行交付)。

  • 数据编排和DataOps。 数据编排是用于驱动数据准备工作流的流程,用来集成、转换和交付各种数据和分析用例的数据。DataOps是将类似于DevOps的持续集成、持续部署的原则应用于数据pipeline,更加敏捷和严格的进行数据交付。基于AI的自动化数据编排是Data Fabric架构设计以及落地的关键,通过组合和重用集成组件,快速支持当下以及未来需求。存储和计算分离是未来数据管理的趋势,Data Fabric通过自动化来管理和编排跨组织、跨平台的的数据pipeline,包括数据流协调、维护、操作、性能优化、集成负载调度等,大幅提高数据管理团队的工作效率。

3. Data Fabric 厂商实践

Data Fabric (数据经纬)目前是一个IT热点,众多国内外公司均推出了针对 Data Fabric 的解决方案。下面看看几个典型厂商的产品及方案。

❖ IBM - Cloud Park for Data

IBM 公司的Cloud Pak for Data针对上述Data Fabric (数据经纬)拥有四个 AI赋能的自动化能力。

  • AutoCatalog:元数据的管理是挖掘数据价值,把各个不同来源的数据很好利用起 来的重要技术环节。AutoCatalog 可以看成是 IBM 研发 AI 赋能的分类大脑,可以根 据发现数据和分类的流程实现自动化,进行自动分类之后建立自动化目录,维护来自不 同数据环境数据资产的 Dynamic 的实时目录。

  • AutoAI:AutoAI 的主要功能是尽量降低 AI 模型开发、模型校正、模型自我重新培 训的技术门槛和人力付出,从而对动态的数据和整个 AI 本身算法生命的周期进行自动 化。

  • AutoPrivacy:实际上 AutoPrivacy 主要是通过数据隐私框架当中的关键能力,使 用 AI 的能力智能化地识别企业内部的敏感数据,当被调用的时候系统能够识别到、监 控到,甚至在后续当定义敏感数据的使用和保护时,就可以为企业内部的政策实施自动 化提供了技术和智能化的保障。

  • AutoSQL:因为我们现在要解决的问题是跨混合多云环境实现数据访问的自动化, 当写一个传统 SQL 的时候,首先要知道这个数据在什么地方。我们通过 AutoSQL 的 技术来实现访问数据的自动化,无须物理地移动这些数据,从而提高了数据查询的速 度,也降低了使用数据的人对数据来源所需要的了解。

❖ Aloudata NoETL

  • 主动元数据。 主动元数据是实现 Data Fabric 的基石,它类似于智能驾驶汽车的传感器及信号解析处理模块,为推荐引擎、DataOps、数据虚拟化和主动数据治理提供了数据支撑。数据管理策略的有效性绝大部分取决于主动元数据建设的好坏,企业落地 Data Fabric 的首要任务,就是构建全面、准确、实时的主动元数据,并持续优化以获得更好的数据管理效果。其具备如下能力: 快速发现全链路元数据、 实时、精细、准确的全链路血缘、 采集数据生态的所有元数据、 以知识图谱方式组织元数据、 实时、高效、易扩展的数据画像打标等。

  • 推荐引擎。 推荐引擎将基于专家经验形成的规则或者机器学习模型,用于 DataOps、数据管理以及数据准备及服务 (如数据集成方案或者引擎性能优化) ,其推荐范围可以涵盖数据全生命周期各个阶段,如数据资产推荐、数据用法推荐、数据集成方案推荐、执行计划推荐、计算引擎推荐、数据分类建议、数据时效提升建议、数据安全风控建议、成本治理建议等。其具备如下能力: 数据资产业务分类推荐、 智能 SQL 用法联想、 智能查询加速、 智能资产推荐等。

  • 增强数据目录。 Aloudata 增强数据目录 (Aloudata BIG Catalog) 以主动元数据为核心,将 AI 和机器学习用于元数据收集、语义推理和分类打标,自动对数据进行编目,从而最大限度减少手工维护元数据的工作,从而为业务人员提供以下关键特性和体验: 语义化数据搜索、 全景数据画像、 可视化血缘分析、 全域数据探索等。

  • 数据虚拟化。 数据虚拟化是实现 Data Fabric 的核心,它承担了业务人员自助完成数据集成、准备和交付的关键职责,它在数据源与数据消费端之间提供了一个连接、整合以及消费数据的虚拟语义层,用户可以通过定义数据查询来完成数据转换,从而实现对跨源、跨环境 (如多云、混合云、Saas 软件供应商) 的数据进行透明集成、自助准备以及高性能服务。其具备如下能力: 高性能联邦查询、 全场景智能加速、 全链路数据编排、 零运维数据更新、 标准化协议接入、 精细化安全管控等。

  • DataOps。 DataOps 理念被提出,它的核心内涵是将类似于 DevOps 的敏捷研发、持续集成、持续部署等原则应用于数据研发和管理过程,以实现更加敏捷和高质的数据交付,通常来说,落地 DataOps 必须具备以下关键能力: 一站式数据研发、 数据变更 CI/CD、 嵌入式治理管控、 数据质量可观测等。

❖ 极数云舟-DTark

北京极数云舟科技有限公司( Cloud-ark )是一家致力于数据处理基础技术研发的高新技术企业,结合数据处理领域最前沿的Data Fabric理论,创造性地提出广义数据库系统,并自主实现内核层多引擎融合技术,打造核心产品:云舟数据经纬平台(DTark),助力用户打造简单、高效、便捷与可持续发展的企业数据基座。

DTark核心技术本质是实现了多引擎融合数据处理,同时也实现了数据多副本、水平弹性伸缩、数据一致性、透明高可用、分层解耦等能力,基于成熟开源组件,并兼容开源协议和技术生态体系,稳定可靠,简单易用,软件核心源代码及关键技术自主研发,产品安全可控。 极数云舟基于DTark产品,服务能力覆盖复杂企业数据管理、数据平台建设、数据库系统及管理,助力客户数字化、智慧化等基于数据融合服务的数据基座建设,也为数据中台、大数据平台建设提供了新动力,在提高性能、降低成本、减少定制化、降低系统复杂度、提升系统可持续发展能力等方面独具优势:

  • 数据接入的融合:基于成熟开源组件,稳定可靠,兼容MySQL协议和技术生态体系

  • 数据存储的融合:可实现数据多副本、水平弹性伸缩、数据一致性、透明高可用、分层解耦融合

  • 数据引擎融合:多引擎融合解决数据多样性存储的横向打通

  • 数据接入的扩展:支持信息系统结构化数据、工业物联网时序数据、科学引擎接口数据的可扩展接入

  • 数据输出的扩展:数据服务化要作为数据库的标准能力

  • 数据引擎的扩展:针对数据类型与计算需求可扩展至 在线事务处理、 在线分析处理、时序数据处理、全文检索、知识库 等多种引擎

Data Fabric,下一个风口?相关推荐

  1. 人才云,云计算的下一个风口

    [作者: 吴裕彬] 中国经济数据公司China Beige Book最新调研报告显示,2016年第一季度,其调研的中国私营部门就业岗位增速降到了4年以来的最低水平.这表明一直稳健的中国就业市场未来将受 ...

  2. 硬纪元AI峰会前瞻:物联网能否成为下一个风口?

    日趋成熟的物联网,近些年也受到了资本热捧. 从基础连接的电信运营商.平台解决方案的设备商.芯片模组的组装工厂以及C端的终端厂商和应用开发商,物联网的技术应用已经日趋成熟,甚至可以说,物联网已经从早期的 ...

  3. 剧本杀,继狼人杀之后的下一个风口

    "剧本杀"简介 2018年上半年,随着几款连麦推理社交游戏的上架,"剧本杀"一词开始迅速走红,有望成为继狼人杀之后的下一个风口级游戏. "剧本杀&qu ...

  4. 音视频技术下一个风口在哪里——LiveVideoStackCon 音视频技术大会 2022 上海站演讲剧透...

    "下一个风口" 在去年北京站大会筹备过程中,我曾经采访过一些技术人,有问到这么一个问题:"您认为目前我们所处的'后疫情时代',音视频技术领域的下一个风口在哪里?" ...

  5. 区块链、自动驾驶、人工智能鏖战开始 谁将成为下一个风口?

    近年来,区块链.自动驾驶以及人工智能的概念频繁爆红于科技界.有业者称,区块链的颠覆在于人们找到了一个低成本解决信任问题的方案:自动驾驶的出现方便了人们的交通出行:人工智能则为我们打开了新的世界.不论是 ...

  6. 谁将成为下一个风口?

    据电子工程网,近年来,区块链.自动驾驶以及人工智能的概念频繁爆红于科技界.有业者称,区块链的颠覆在于人们找到了一个低成本解决信任问题的方案:自动驾驶的出现方便了人们的交通出行:人工智能则为我们打开了新 ...

  7. 微软、小米争锋的物联网,会是下一个风口吗?

    作者 | formulahendry 责编 | 屠敏 物联网会不会是下一个风口呢?相信读者在读完本文后一定会有自己的答案. 在讨论这个问题之前,我们先来看看国内外的企业在IoT领域有哪些动作.2018 ...

  8. “物联网×”:“互联网+”的下一个风口

    2016年是我国"十三五"的开局之年.今年的政府工作报告中提出,在"十三五"期间要促进大数据.云计算.物联网的广泛应用. 数据显示,2015年中国物联网整体市场 ...

  9. 【产业互联网】阿里曾鸣:下一个风口是产业互联网

    "未来三年,产业互联网的突破将是可见的方向.目前为止,产业互联网的连接尚处于浅连接阶段,企业对互联网思维的应用也停留在"互联网+"上,事实上,运用互联网技术工具进行的再构 ...

最新文章

  1. 机器学习本该用起来更简单
  2. c语言动态链表creat函数,用create建立动态链表
  3. SHELL网络爬虫实例剖析--转载
  4. 连云港职业技术学院有计算机系吗,连云港职业技术学院电子信息工程技术专业...
  5. vmdk文件怎么安装到虚拟机_【技术分享】虚拟机镜像解析
  6. poj1789 最小生成树
  7. mongoDB 基础指令
  8. android pcm数据格式,android 实时PCM数据编码成AAC
  9. snap7/Qt/ros-------ubantu14.04下杂记
  10. python图像识别与提取_python图像识别与提取
  11. 模型保存文件.npy
  12. linux邮件客户端配置文件,在Deepin V20下配置Evolution邮件客户端,添加新邮箱全过程...
  13. 第10集丨龙场悟道:阳明心学的诞生
  14. 爱剪辑如何在一个视频片段中设置多个定格、快进、慢动作?
  15. 华为ensp的路由器怎么和本地电脑通信
  16. 【小米商城-1 注册功能】
  17. Spark 常用行动算子使用总结
  18. 第72届英国影艺学院电影奖9日公布入围名单
  19. 成都理工大学计算机基础考试题型,成都理工大学计算机基础作业.doc
  20. 软件设计师考试注意事项

热门文章

  1. Stable Diffusion6
  2. python 正则提取 中文,汉字
  3. 迭代规划会怎么开才能更高效?
  4. 腾讯地图,百度地图兴趣点(POI)分类关键词表
  5. 简述电信运营商的三大数据域B域,O域,M域
  6. VisualStudio2019,基于.NET Framework的单元测试
  7. Xpath语法和使用示例
  8. RTX51 tiny系统容易混淆的问题
  9. windows下批量重命名图像名称bat脚本
  10. java: JDK isn‘t specified for module ‘maven-junit41‘解决办法