在数据成为生产要素的今天,企业愈发需要更高效、简洁利用数据的方法来快速响应不断变化的商业和情报分析。传统方式是数据集成(ETL)后再做分析,但目前需求在变化,数据源也在变化,数据集成系统越来越庞大,导致响应变化的速度越来越慢,逐渐出现灵活度低、过程复杂、难以管理等问题。针对这样的困境,企业需要一种能更灵活、快捷地进行数据集成的方法,而这种方法就是数据联邦与联邦计算。

通过ETL集成

数据联邦与联邦计算融合,一平台即可对同构或异构数据进行访问和分析

“数据联邦”以及“联邦计算”概念的出现,使数据集成的方法发生了极大的改善。“数据联邦”解决了灵活统一数据视图的问题;“联邦计算”解决了灵活统一数据查询的问题。而这两种技术结合可以提供虚拟的数据集成视图,以及封装后的数据加工接口,使数据消费者(企业应用)无需考虑数据物理位置、数据结构、操作接口和储存能力等问题,即可在同一平台上对同构或异构数据进行访问和分析。

通过数据联邦和联邦计算集成

数据联邦可以为企业的数据管理带来以下能力:

1. 数据源松耦合:使系统间处于松耦合关系,数据源的添加与删除简单易行;

2. 虚拟化的数据集成:与传统ETL相比,数据联邦仅进行了虚拟的集成,能更快、更低成本地集成大量数据,提升数据集成速度;

3. 数据信息透明:用户不需感知数据源的位置和结构,数据源系统不需要做改动,可保持原有独立运作,数据处理灵活度得到提升;

4. 减少数据冗余:因为通过虚拟视图而不是复制的方式集成,极大降低了数据泄露的风险,增强了数据的可维护性;

5. 保证数据一致性:数据联邦统一管理数据,能更好保证跨库数据一致性。

数据联邦与联邦计算,打破企业数据孤岛

数据联邦和联邦计算解决了“数据孤岛”问题,并且避免了传统ETL流程长,开发和运维成本较高的缺陷,可以满足应用对数据采集有灵活性、实时性要求,或者存在异构数据源处理的场景:

快速灵活的采集数据

虚拟的操作型数据库(ODS):通过虚拟操作型数据存储(ODS),构建可操作的数据集成视图,数据变化会很快反映到ODS,且联邦的数据源可随具体的分析需求灵活增减变化,因此能满足一些轻量、短期的数据分析,或者实时灵活的仪表盘应用。

建造数据中转区:利用数据联邦构建数据中转区,可以对大量从生产系统进入数仓的数据进行快速合并,极大减少数据复制对生产系统的干扰。数据中转区对数据变化的实时存储,能记录完整的数据变更信息。

数据仓库的扩展:企业部署数据仓库后存在问题,一方面,整个企业不太可能只使用单一数仓;另一方面,企业仍然有大量的数据未存入任何数仓,需要构建统一视角。而数据联邦和联邦计算能在无需转换格式和移动数据的情况下,提供所有企业数仓和零散数据的统一视角,降低了数据移动转换的成本。

异构数据源的处理

企业数据治理:联邦后的数据构成数据治理的底座,对异构数据库或数据平台提供统一管理,形成统一的数据治理流程和规则。经过治理后,企业可以构建出完整的数据信息资产列表,如企业数据资源,或者完整的客户信息视图等,可对这些资产进行共享交换。

异构平台迁移:在异构平台迁移过程中使用联邦计算,能使迁移过程更平滑,无需考虑数据的迁移和异构平台语法不兼容等问题,保证应用对数据的使用不受影响,且能在迁移完成后在不影响新应用的前提下更改数据源配置。

异构数据分析:企业可以利用数据联邦的能力,实现跨结构化数据、非结构化或者半结构化数据的分析。

星环科技自研的联邦计算平台,联邦多个同构或异构的自治数据源

联邦计算的关键点即实现基于统一的SQL查询引擎。星环自研的联邦计算平台可以联邦多个同构或异构的自治数据源,用户可以随意查询在联邦系统中任意位置的数据,而不必关心数据的存放位置、实际数据源系统的SQL语言种类或存储能力。其架构如下图所示,主要实现了对以下两方面的统一:

1.统一的元数据管理

构建各个同构、异构数据源的抽象整体视图,提供统一数据源连接管理、统一的元信息管理。

数据源连接层:通过联邦计算平台,开发者可以构建跨数据库实例的虚拟连接,从而在当前数据库中实现跨库访问。该层负责管理接入数据源,既支持传统数据源的连接,也支持大数据平台的连接;既支持结构性数据,也支持非结构数据接入。

元信息管理层:从各数据源获取元信息并集中管理,通过对数据源的查询来获取和维护最新的元信息,从而保证元数据在各个平台之间的一致性,在构建、运行、维护的整个联邦计算的生命周期中起到关键支撑作用。

2.统一的查询加工接口

为联邦的数据提供数据加工、数据查询的统一接口,用统一的标准SQL语句实现跨平台的数据加工。

联邦查询SQL引擎层:作为统一的语法解析层,解析SQL指令。其核心是SQL编译器、优化器和事务管理单元,它是保证可以给开发者提供比较好的数据库体验,无需基于底层不同平台且有差异化API来做业务开发,同时会经过优化器来生成最佳的执行计划,最终将执行计划推送给计算引擎层。

联邦查询计算引擎层:作为支持多平台的统一计算引擎。星环选择了基于DAG的计算模式,而且在它的基础上深度优化执行性能,既能支持更多样化的数据计算需求,也能够获得极致的性能。同时通过量化执行引擎技术来加速数据处理,对于列式数据有明显的加速效果。

Cache层:用于加速的缓存层。

联邦平台访问层:支持标准的JDBC/ODBC/REST接口。

除了有基础架构作为支撑,联邦计算的落地还需要有上层的数据开发工具的支持,与数据联邦配合实现从数据获取、加工、到价值变现的完整过程,同时跨数据源的数据安全也应该得到保证。

开发管理运维工具:统一的数据开发、管理、运维工具平台,使企业可以更有效率的利用联邦计算构建企业内部的数据服务层,以及数据业务价值层。

安全层:负责认证、审计、授权,提供数据加密、脱敏,以及密级分类等功能,保证数据在存储、传输、加工过程的安全。

数据联邦和联邦计算的实现

数据联邦和联邦计算的价值在于为数据集成和集成后的加工提供了便利的实现方式,对于企业而言,相关的完整解决方案以及可视化的操作,是保障内部推广落地的关键。星环科技研发的数据治理平台Transwarp Data Studio(TDS),作为企业级的数据加工平台,联邦计算/数据联邦是TDS的核心能力之一,除此之外还提供数据集成、存储、治理、建模、分析、挖掘和服务等数据处理全生命周期的企业级管理能力。

从应用层面的角度,数据联邦要打通异构数据源,实现系统性的数据共享、发布,从而支撑应用,为此开发平台应该提供元数据管理、数据资产列表、以及服务发布等保证数据视图统一的功能,在TDS中通过以下模块实现:

统一数据资产目录(Transwarp Data Catalog):一方面,Catalog同时支持接入主流关系型数据库、分布式数据库、NoSQL数据库和BI等数据源,满足异构多数据源连接的需求。另一方面,Catalog通过数据库直连方式获取所有异构数据库或平台的技术元数据,结合外部API方式补充异构数据库的数据血缘数据,实现平台的数据管控和追踪,满足数据联邦的元数据收集管理需求。

统一数据门户商城(Transwarp Foresight):能够整合各个平台上的数据产品并作为技术与业务的核心交换门户,用较低开发和运维成本提供高性能的全数据平台的数据产品的共享交换服务。

统一数据服务(Transwarp Midgard):可通过数据库直连方式,将各类数据库的数据发布为数据服务,同时提供统一的安全管控和流量统计、控制。

统一数据标签(Transwarp Starviewer):支持对所有业务系统数据库和数据平台的数据进行高性能的标签计算,对业务用户提供统一的标签开发和应用入口,同时避免业务数据库的种类多样和分布繁杂给业务用户带来的使用困扰。

从开发层面的角度,TDS的开发模块对接星环自研引擎的联邦计算能力,实现对异构数据源的统一访问和加工,通过联邦计算解决数据开发、数据管理等涉及跨库数据源加工过程的问题:

1. SQL开发(Transwarp SQLBook):在线SQL开发工具SQLBook可结合联邦计算能力将SQL下发到异构数据平台,使用统一的语法访问异构数据源,简化数据加工。同时提供大数据集成,将Hadoop和NoSQL系统中的数据通过SQL的形式访问,实现一个统一的SQL开发入口。

2. 数据管控工具(Transwarp Governor):能通过数据标准、数据质量、数据保护和数据权限等多维度能力支撑数据治理。将统一的数据质量规则直接下发到各个数据源平台,降低数据质量规则的开发成本,且保证异构平台统一的数据质量。

3. 革命性的ETL模式:考虑到数据联邦虚拟化的集成不能满足所有数据加工情况,TDS提供了创新的ETL工具,在不增加过多人力的情况下,能极大降低数据的复制和迁移需求,提升数据应用的搭建效率,降低存储成本和数据泄漏的风险。

对于应用和开发层面的“联邦”支持,以及全流程可视化数据开发、监控、运维与告警,使TDS可以通过实现多数据源、数据多样场景下的数据接入、数据整合、数据服务过程,有效实现企业级数据湖、数据仓库、数据集市建设以及相应扩展,促进企业内部数据统一化、资产化。

星环科技 TDS 联邦计算能力,让企业异构数据源数据合作畅通无阻相关推荐

  1. 星环科技TDS 2.4.0 发布: 数据开发、数据治理、数据运营套件能力再次升级

    近日,星环科技大数据开发工具 Transwarp Data Studio 2.4.0版本重磅发布,新版本中数据开发.数据治理.数据运营三大套件能力全部升级,让数据开发更便捷.数据治理更高效.数据运营更 ...

  2. 星环科技自研技术,加速大数据从持久化、统一化、资产化、业务化到生态化

    从2013年成立开始,星环科技就专注于大数据基础技术与企业数据业务的更好结合,同时面对中国更为复杂的数据应用场景,研发了多种更贴合国内大数据应用需求的大数据管理技术,在大数据技术领域有多项基础技术突破 ...

  3. 【观察】星环科技:走向融合数据云新时代,背后必有强大数据底座

    毫无疑问,今天国家对数字经济给予了前所未有的高度重视.近期国家就正式印发了<"十四五"数字经济发展规划>,明确将继续坚持推进数字产业化和产业数字化,赋能传统产业转型升级 ...

  4. 全面升级!星环科技基础软件再升级,赋能数字中国建设

    3月24日,星环科技举行2021线上发布会,支持10种主流数据模型的多模数据平台和数据云产品.实现AI建模的全生命周期管理人工智能等产品新版本齐齐亮相. 星环科技坚持核心技术自主原创,专注于大数据基础 ...

  5. 【观察】星环科技:布局行业大模型赛道,加速国产化替代进程

    以ChatGPT和GPT所代表的大模型,已经在国内形成了"海啸效应",几乎所有的科技公司都在想方设法进入大模型的赛道.背后的核心驱动力,就在于大模型的最大价值在于普遍提升个人生产力 ...

  6. 【观察】星环科技:七年磨三剑,积硅步至千里

    申耀的科技观察 读懂科技,赢取未来! 众所周知,如今的世界正在以加速度进入到智能化时代,特别是随着各项业务的云化深入以及万物互联,数据处理能力的进一步提升,智能算法一次又一次的突破,以及云计算在传统产 ...

  7. 星环科技:易用高效的一站式人工智能平台 | 百万人学AI评选

    2020 无疑是特殊的一年,而 AI 在开年的这场"战疫"中表现出了惊人的力量.站在"新十年"的起点上,CSDN[百万人学AI]评选活动正式启动.本届评选活动在 ...

  8. 成为国产大数据基础软件第一股的星环科技,未来发展空间几何? | 爱分析调研

    10月18日,星环科技正式登陆科创板,成为国产大数据基础软件第一股.这一事件不仅代表了星环科技这家公司取得的阶段性成就,也标志着在当前数字化转型以及信创建设持续推进的背景下,国产大数据基础软件已驶入了 ...

  9. 【观察】打造中国基础软件新名片,星环科技创新与超越之路

    申耀的科技观察 读懂科技,赢取未来! 我们知道,随着大数据.云计算.人工智能等新技术的蓬勃发展,三者之间的技术边界变得越来越模糊,三类技术也在相互影响并不断融合. 在此背景下,定位于提供大数据和人工智 ...

最新文章

  1. MySql 高可用架构Atlas
  2. 亲测好用!如何快速访问github网站?
  3. df.where(dfmask, targetValue)展示
  4. DL之GD:利用LogisticGD算法(梯度下降)依次基于一次函数和二次函数分布的数据集实现二分类预测(超平面可视化)
  5. 斜率优化(CDQ分治,Splay平衡树):BZOJ 1492: [NOI2007]货币兑换Cash
  6. Zookeeper集群为什么要是单数
  7. 北京焦灼?上海颓废?看大数据如何解读城市性格
  8. php文件怎么加统计代码,php统计文件中的代码行数
  9. ViewPager.getChildCount() 含义
  10. 2019年中国大学生计算机设计大赛国赛答辩
  11. 百度语音识别API报错KeyError: ‘result‘
  12. autoCAD绘制简单三维立体图形
  13. 工程师为什么不转销售
  14. linux gcc getch,模拟实现getch()
  15. 大学各专业计算机专属表情包,是不是每个专业都有专属表情包?
  16. edge如何玩4399小游戏
  17. 【自然语言处理】条件随机场【Ⅰ】马尔可夫随机场
  18. 深信服服务器销售话术,深信服超融合架构功能特点.ppt
  19. 醒一醒,讲到 ZooKeeper 的选举机制了
  20. 如何保证Kafka有且仅消费一次?

热门文章

  1. java.sql.SQLException: The server time zone value ‘�й���׼ʱ��‘ is unrecognized or represent.........
  2. windows下bat批处理实现守护多个进程
  3. 机器学习——回归实践(预测某一时间点在下一时刻的PM2.5)
  4. BCC、FCC、HCP晶格材料以及多相材料的有限元模拟
  5. OpenCV --- 皮肤检测技术
  6. python和c#做一个简单的有铃声的定时闹钟
  7. sweetalert弹窗组件的简单使用
  8. Azkaban 简介
  9. 怎样在win7系统建立telnet服务器,win7安装Telnet的方法
  10. 计算机网络原理(21)——信道与信道容量、基带传输、频带传输、物理层接口