关于袋鼠云数据中台专栏V2.0

数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论。希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程。本专栏每周更新1-2篇,敬请期待~

数据中台之数据集成

1

在现代企业中,由于使用场景、业务形态、技术选型、开发架构的差异,往往有多个异构的、基于不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了「信息孤岛」。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛”,共享信息。

在企业构建数据数据中台来解决数据互通和共享的要求下,「数据集成」是打通信息系统和数据中台的管道和桥梁,是构成数据中台全、统、通的重要基础。

数据中台 全 统 通

本文所讲的数据集成,主要指的是从不同的数据存放介质将数据同步至数据中台的环节,在某些场景下,也可以称作「数据采集」、「数据同步」、「数据上云」。

2 准备工作

在数据集成实施开发前,我们一般要进行以下调研和准备工作:

数据源分类:见上一期的 数据中台之数据源,确定数据源种类,并根据数据及时性要求,确定采集的技术组件

网络和环境:确定数据源的网络和环境信息,根据实施集成方案,对现有的网络和环境进行必要的改造和优化

数据内容:调研数据的全量大小、增量大小、分布情况

数据质量:调研数据的增量标记、索引、主键信息等

数据范围:调研需要集成的数据范围,筛选出需要集成到数据中台的相关数据,一般以支撑业务流程或带业务属性的数据为主

3 业务架构

针对采集的业务内容,以及常见的同步分类,我们将数据集成的业务架构整理如下:数据集成的业务架构

4 集成流程

以下通过几个典型的数据同步场景案例,来介绍数据同步流程。

3.1 关系型数据库离线同步流程关系型数据库离线同步流程

3.2 API类数据同步

API类数据同步

3.3 实时类数据同步实时类数据同步

数据同步模块是在各个存储单元之间执行数据交换的管道。

为了在「DTinsightIDE」进行大规模数据集的挖掘与计算,通常的做法是在任务执行前将数据传输至DTinsightIDE,并在任务执行结束后将计算结果传输至外部存储单元(例如MySQL等应用数据库)。

数据集成的作用如下图所示:袋鼠云数栈-数据同步模块

袋鼠云数栈-数据同步模块的具有以下

丰富的数据源支持

数据同步模块可对MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、HBase、FTP、ElasticSearch、ODPS、ElasticSearch、Redis、MongoDB等数据源,支持对这些数据源进行读取或写入数据。使用时仅需配置数据源的连接信息(例如填写Oracle数据库的JDBC URL、用户名、密码等信息),再配置对应的数据同步任务即可。

分布式系统架构

数据同步模块在系统架构上采用先进的分布式系统架构(FlinkX[1]),可实现多个节点并发读取、写入数据,可极大的提升数据同步的吞吐量,相比Sqoop、Kettle等开源数据同步方案,数据吞吐能力更高、配套功能。

可视化配置

用户在使用数据同步模块时,可快速通过可视化配置的方式完成同步任务的创建与配置,主要包括同步任务选择源库源表、目标库目标表、配置字段映射、配置同步速度等。

全量/增量同步

从业务系统读取数据的过程中,为了最小化对业务系统的影响,通常需要进行数据的增量同步。在源数据库表中具备数据变更时间字段的情况下,支持对关系型数据库进行增量数据同步,用户仅需输入相应的数据过滤语句即可实现。

同步速度的控制

支持数据同步速度控制,通过设置同步速率上限来调整,此参数需根据硬件配置和数据量来调整,用户根据业务需求选择设定的值。

脏数据管理

支持对脏数据是否需要记录进行配置,可指定脏数据的存储表名、生命周期,同时可配置当脏数据量超过一定数量或一定比例时任务置为失败,提示用户及时排查脏数据问题,并生成分析报告。

更多精彩

关于袋鼠云

袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。

袋鼠云的mysql_袋鼠云数据中台专栏2.0 | 数据中台之数据集成相关推荐

  1. 袋鼠云数据中台专栏2.0 | 企业数字化(数据界面)整体架构

    袋鼠云数据中台专栏V2.0 数据中台如何定义? 企业数据化与数据中台的关系是什么? 数据中台如何支撑企业战略转型? 袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大 ...

  2. 袋鼠云数据中台专栏2.0 | 数据中台之数据源

    关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量 ...

  3. 袋鼠云数据中台专栏(一) :浅析数据中台策略与建设实践

    袋鼠云数据中台专栏(一) :浅析数据中台策略与建设实践 https://yq.aliyun.com/articles/604571?spm=a2c4e.11153940.0.0.22e27e09zv9 ...

  4. 袋鼠云 oracle,袋鼠云数据中台专栏2.0 | 数据中台之数据集成

    关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量 ...

  5. 袋鼠云数据中台专栏(六):企业数据指标的那些事儿

    本文作者:子玺 袋鼠云数据中台解决方案专家.拥有近10年大数据从业经验,拥有PMP项目管理资格认证,精通数据类项目的开发实施和管理.曾服务过国家工商总局.北京市工商局.北京市财政局.广州开发区大数据局 ...

  6. 用坚果云同步mysql_坚果云安装完成以后, 如何同步文件?

    1.首次启动坚果云 当您第一次启动坚果云时(安装坚果云后,程序会自动启动),您需要完成坚果云的基本设置,向导程序会请您输入您的坚果云账号和密码: 此后您还需要设置一个坚果云文件存放路径,今后坚果云将自 ...

  7. navicat 阿里云 服务器 mysql_阿里云服务器优惠券领取 可以便宜购买阿里云服务器...

    七月中旬,世界知名金融机构对阿里云进行权威评估,最终估值高达930亿美元,此市值比两个月前的另一家金融机构估值高出160亿美元."多家机构上调阿里云估值的数据背后,是阿里云基建规模与战略格局 ...

  8. 数据中台专栏(六):企业数据指标的那些事儿

    https://yq.aliyun.com/articles/630213?spm=a2c4e.11153940.0.0.31854d23uPbGtH 袋鼠云数据中台解决方案专家.拥有近10年大数据从 ...

  9. 阿里云 远程 mysql_阿里云 远程mysql

    关于 阿里云 远程mysql的搜索结果 问题 在阿里云服务器上安装mysql.redis 远程连接都失败 不知是怎么回事?安全组端口号也配置了 在阿里云服务器上安装mysql.redis 远程连接都失 ...

最新文章

  1. MySQL数据库聚合函数(count、max、min、sum、avg)
  2. mysql 存储过程 格式化_转 mysql 存储过程初探
  3. 人工智能的2020:泡沫破灭?还是最后的狂欢?
  4. boost::overloaded_function用法的测试程序
  5. python 月报_python实践--月报分析之获取jira缺陷数据
  6. 使用 ADO.NET 和 Oracle 进行高级数据访问
  7. mysql数据库任务驱动式教程课后答案_MySQL数据库任务驱动式教程
  8. Garmin APP开发之布局
  9. Top Down Operator Precedence - 自顶向下算符优先分析法
  10. 跟我一起走进内联汇编的世界
  11. 35岁以后你还能干嘛?
  12. 神经网络在控制中的作用,神经网络控制基本原理
  13. 那周余嘉熊掌将得队对男上加男,强人所男、修!咻咻! 团队的Beta产品测试报告...
  14. 【软件测试技术】初识软件、软件测试
  15. 2013年全国各大著名的IT公司薪资待遇大揭密
  16. nutch核心代码分析——crawl.injector总结
  17. 2019/11/02【搜索插入位置】【有效的数独】
  18. 高仿 IOS遨游哈哈最新版
  19. 匹兹堡大学申请条件计算机科学,匹兹堡大学计算机科学理学硕士研究生申请要求及申请材料要求清单...
  20. 安装moodle的方法及遇到的问题

热门文章

  1. 【Docker基本原理和常用命令】
  2. 基于禾赛32线雷达和Xsens MTi-G-710 组合导航模块,松灵Scout mini 底盘实现 Cartographer 3D 建图过程
  3. ios下overflow:scoll中卡顿问题
  4. 用友漏洞php,Phpwind GET型CSRF任意代码执行漏洞公开
  5. 学习信号量 sem_init、sem_destroy、sem_post、sem_wait、sem_trywait、sem_getvalue
  6. Python3网络爬虫(十三):王者荣耀那些事!(Fiddler之手机APP爬取)
  7. screenX与clientX区别
  8. matlab心碎的心,伤感网名女生心碎四字
  9. 复杂网络的任意子节点的网络最短距离
  10. 算法设计技巧与分析(六):图遍历(Graph Traversal)