前言

上一篇介绍了什么是 modern data stack,这一篇继续来梳理下,在modern data stack 下面常见的产品都有哪些。

业界一些常见的产品(按主要场景分类)

数据同步/迁移(关系型数据库)

  • 分类说明

关系型数据库迁移主要是在日志监听和回放,事务一致性等有独特的技术需求。其中 AWS DMS,阿里的 DTS 算是典型代表。

  • AWS Database Migration Service

通过 AWS DMS 可以实现同构数据库迁移,异构数据库迁移,多个数据库整合成一个数据库,在线数据库同步,通过 AWS Schema Conversion Tool (AWS SCT) 可将源数据库架构和大部分数据库代码(包括视图、存储过程和函数)自动转换为与目标数据库兼容的格式。

  • 阿里 DTS

这个领域阿里的 DTS 做的功能会更成熟一些;主要解决的也是各种数据库上云、迁移的问题,细节就不具体展开了。

数据分发

  • 分类说明

在数据处理架构里面,一般都是承担消息的分发功能,高效的分发能力,包括批量,实时,以及对周边系统众多的 adapter 是核心能力,最典型就是 kafka。

  • Kafka / confluent

Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications.

kafka 核心的能力还是在分发,confluent 是 kafka 商业化公司,下面是 kafka 和 Fivetran 的一个简单对比:

当能用户也能通过 Confluent 支持的 mysql CDC + ksqldb (kafka 上面的计算能力) 组合去实现 ETL 的一些功能。

  • puslar

Apache Pulsar is a cloud-native, distributed messaging and streaming platform originally created at Yahoo! and now a top-level Apache Software Foundation project

Pulsar 就像一个合二为一的产品,不仅可以像 Kafka 那样处理高速率的实时场景,还支持标准的消息队列模式,比如多消费者、失效备援订阅和消息扇出等等。Pulsar 会自动跟踪客户端的读取位置,并把这些信息保存在高性能的分布式 ledger(BookKeeper)当中。

与 Kafka 不同,Pulsar 具备传统消息队列(如 RabbitMQ)的功能,因此,只需要运行一个 Pulsar 系统就可以同时处理实时流和消息队列。

ELT

  • 分类说明:

核心是要对接各种数据源,投递到目标(一般是数据仓库)中进行进一步的处理,以及支撑数据分析。其中 Fivetran 是目前相对比较头部的公司。

  • Fivetran

主要数据集成,支持各种应用、数据库,事件、文件、Functions 服务里面的数据集成

转换主要支持两种方式,

  • 一种是在目标库中支持Basic SQL Transformations

  • 一种使用 dbt Transformations。

  • 超过 2000+ 客户

  • 支持 150+ connectors

  • 收购 HVR,增强传统数据库的复制能力

  • Stitch

Stitch rapidly moves data from 130+ sources into a data warehouse so you can get to answers faster, no coding required.包括 SaaS、Database、Webhooks.

Talend 旗下的产品 https://www.talend.com/

  • Segment

• 从网站、移动设备,server,cloud app 上收集收据

•和 personas 合作

Personas is a powerful personalization platform that enables you to create unified customer profiles in Segment, to build and enrich audiences, and to activate audiences across marketing tools

  • Airbyte

其中转换部分使用了 dbt 的能力。

Data transformation and modeling

  • 分类说明

这个主要是和数仓结合,数仓的上层管理数据转换和模型构建。

  • dbt

• 主要作用:简化数据分析代码编写,CI/CD、文档,依赖关系管理等。

• 专门做 transformation,支撑 snowflake, bigquery , databricks , redshift 等,具体的 transformation 其实都是 数仓自己完成,dbt 自身更像是一个 数仓开发的 devops 工具,帮助把数仓开发(写SQL、存储过程)这些事情 CI/CD,依赖关系,版本管理起来。

•databricks 等都集成了 dbt 做 transformation

  • Dataform

• Congtinual 补齐数仓上面的AI 一层,核心功能:build continually improving predictive models

•Feature store + AI Engine

Reverse ETL

  • 分类说明

把数据从各个源头,投递到SaaS软件,解决数据的最后一公里。

  • Census,其他还有Hightouch 和 Omnata

把数仓数据挪到 SaaS 工具中,不需要写代码,只需要 SQL

简单总结

  • Modern data stack 下面 data integration 的产品非常多,各个领域相对比较有名气的是 AWS DMS、confluent、Fivetran、dbt、Census等。

  • Modern data stack 都在不同层面去降低客户使用数据的难度以及帮助发现客户的价值,典型的 dbt,reverse etl 。

  • 另外,传统我们思考的是怎么降低运维难度,比如分布式数据库,比较早期一个出发点就是解决数据库主备不一致的问题。当能从开发难度讲,SQL 可能足够简单,数据库里面 SQL 就是一个解决开发难度最好的典范。但是我们可以从 modern data stack 里面仍能可以吸取的是,未来怎么降低开发的难度,可能会更有价值,比如 dbt 帮助去解决数据分析开发的 依赖,从而从更更层面承担了 transformation 的能力。从数据最后变成价值,里面还有还有很多非常有难度的事情去做,而解决这个本身就是产品平台型产品最大的价值。

Modern Data Stack 下 Data Integration 生态(下)相关推荐

  1. Data Catalog3.0:Modern Metadata for the Modern Data Stack

    从2020年开始,在数据领域中,有一个比较流行的术语:The Modern Data Stack(现代数据堆栈),简单理解就是汇集了处理海量数据的最佳工具集.这包括在最好的工具上建立数据基础设施,如用 ...

  2. windows下postgres数据库软件被损坏的情况下data文件存在恢复数据库

    在项目要演示的前一天数据库突然被鲁大师给损坏了,导致项目无法启动,想了各种办法,查了很多资料,最终得以解决,再此做一个记录 一.数据库postgres损坏恢复方法(此方法同样适用于系统崩溃后,找回数据 ...

  3. 对Spring Data JPA中的page对象下的content属性里的实体类对象转换为dto对象

    对Spring Data JPA中的page对象下的content属性里的实体类对象转换为dto对象. 刚开始试遍历content,进行转换,添加到新的list中,再set进去page.后来发现pag ...

  4. torch.utils.data.WeightedRandomSampler样本不均衡情况下带权重随机采样

    关于WeightedRandomSampler的用法csdn上有一些很棒的博客.本文参考博客Pytorch样本比例不均衡时采用WeightedRandomSampler进行采样的代码对Weighted ...

  5. 平凯星辰合伙人余梦杰:全球化和云计算趋势下的开源生态构建

    开源是技术发展的大趋势,其开放的全球生态,敏捷的技术创新以及快速的产品迭代,都有助于企业的发展.而云的蓬勃发展则加速了企业数字化的进程.开源和云两者交融,必然会迸发更多势能. 2022年7月27日,在 ...

  6. 爱奇艺在 Dubbo 生态下的微服务架构实践

    作者 | 周晓军  爱奇艺中间件团队负责人 导读:本文整理自作者于 2020 年云原生微服务大会上的分享<爱奇艺在 Dubbo 生态下的微服务架构实践>,重点介绍了爱奇艺在 Dubbo.S ...

  7. 真实临床“生态”下实效性研究的挑战和意义

    临床试验在理想条件下评估医疗干预措施的疗效和安全性,但其采用的盲法.精心选出的同质性参与者人群.严格的治疗方案等均与真实临床实践有差别,因而无法解决医师和患者的所有疑问.实效性试验是在临床" ...

  8. dubbo 自定义路由_爱奇艺在 Dubbo 生态下的微服务架构实践

    作者 | 周晓军 爱奇艺中间件团队负责人 导读:本文整理自作者于 2020 年云原生微服务大会上的分享<爱奇艺在 Dubbo 生态下的微服务架构实践>,重点介绍了爱奇艺在 Dubbo.Se ...

  9. 【干货】2021微信生态下的营销洞察.pdf(附下载链接)

    大家好,我是文文(微信号:sscbg2020),今天给大家分享克劳锐于2021年1月份发布的报告<2021微信生态下的营销洞察.pdf>,做营销(尤其是关注微信生态)的伙伴们别错过了呀! ...

最新文章

  1. 十字相乘法c语言,十字相乘法的运算方法
  2. #JS:this的指向及函数调用对this的影响
  3. Nginx如何限流?
  4. 【转】定位oops的具体代码行
  5. [html] 在H5中如何预加载音频?
  6. 论文摘要这么重要,你却不知道怎么写?
  7. 矩池云上安装MATLAB R2020a遇到的坑
  8. oracle 12c 性能,Oracle 12C 新性能 总结篇
  9. 8. Document getElementById() 方法
  10. java添加多个按钮_java-向JFrame添加多个按钮,文本颜色不显示
  11. C++制作植物大战僵尸
  12. 云计算对21世纪IT人才的挑战
  13. c语言中文件指针概念,C语言文件的概念和文件指针
  14. qq音乐mp3解析php源码,QQ音乐PHP解析源码
  15. 相对湿度与绝对湿度_如何监视家里的湿度水平
  16. 关于电子科技大学大学生早自习情况调查
  17. 如何更改linux文件的拥有者及用户组 chown和chgrp
  18. 【区块链论文整理】SIGMOD 篇 (二)
  19. mybatis 批量添加 过滤库里已有数据
  20. 如何在Windows中创建新用户?

热门文章

  1. aseprite手机版_texture packs泰拉瑞亚
  2. QT--在注释中遇到意外的文件结束
  3. 实验6-4 使用函数输出指定范围内的完数 (20 分)(python)
  4. 计算机同S7-300PLC通讯,S7-300PLC主站之间的PROFIBUS-DP通讯详解
  5. mysql 查询周一至周五
  6. MIMIC数据库下载的问题
  7. 工欲善其事必先利其器 之 DockerDesktop(下)
  8. 可汉学院python_A可汗学院-统计学python实现1-10
  9. 分析ERP审单失败,提示:库存不足的原因及应对方案
  10. HDU-OJ 杭电1495非常可乐