从实时实时过滤和处理大量数据,到将日志数据和度量数据记录到不同来源的集中处理程序中,Apache Kafka日益集成到各种系统和解决方案中。 使用CData Sync ,可以轻松地将此类解决方案应用于任何CRM,ERP或Analytics软件。

配置Apache Kafka目标以进行CData同步

在CData Sync中设置Kafka目标非常简单。 只需提供“服务器”和“端口”,然后复制命令就可以接管-不需要其他配置。 要设置这种连接,请首先导航到“连接”页面,然后单击“目标”选项卡,然后选择“ Kafka”。


指定服务器和端口属性。 如果启用了身份验证,请同时指定“用户”和“密码”属性。 单击“保存更改”和“测试连接”以保存更改,并确保CData Sync可以连接到Kafka服务器。


其他一些属性可用,并在“高级”选项卡中进行了分类:

  • 启用幂等:确保邮件仅传递一次。 在某些情况下,生产者可能会产生重复的消息。 为了进行验证,客户端可以在执行作业后将消耗的结果数与“受影响的记录”状态进行比较。
  • 序列化格式:指定产生的消息的格式; 可用值为JSON,XML和CSV
  • 主题:如果指定,该属性将覆盖表名称作为复制的目标主题。

增量更新如何工作

CData Sync使无缝更新变得无缝。 服务器不需要配置,并且所有必需的属性都已预先配置,具体取决于Source和Source表。

与SQL Server等其他数据库工具不同,Kafka不支持可靠的状态存储方式。 CData Sync使用本地SQLite数据库来解决此问题。 它将存储上次复制表的时间,并使用该时间戳过滤最新记录。 大多数企业系统都提供一个系统列来指定记录的最后更新日期,这足以满足此目的。

例如,QuickBooks Online中的“帐户”表包含此类列。 复制表:


并在修改三个记录后运行另一个副本:


某些表没有自动更新的列,该列保存记录的最后更新日期。 在这种情况下,别无选择,只能从一开始就完全复制结果。 Kafka提供了附加到消息的时间戳字段,可用于区分较新的结果。

QuickBooks Online中的department表没有用于指定上次更新时间的列。 复制此表将导致:


在添加两个新记录的同时再运行一次复制会产生:


优化查询

有多种方法可以管理CData Sync生成的消息大小。 根据Kafka服务器的配置,可能需要进行优化,或者仅考虑使复制性能有所提高就值得考虑。

压缩类型:指定如何压缩生成的数据。 可用选项为gzip,lz4,snappy或无。 指定非“ none”以外的压缩类型将减少消息有效负载。

最大批处理大小:指定在单个请求中发送的最大批处理大小(以字节为单位)。 批处理中充满了整个消息。 如果批次已等待一段时间,则可以提前发送批次而无需填充。 降低此值可能会降低性能,但是如果生成的消息超过服务器允许的最大消息大小,则可能有必要。

排除列:如果单个记录本身太大,则转换功能提供了一种从输出消息中省略某些列的方法。 这是最常用的聚合列。 要排除列,请导航至作业,然后单击所需表旁边的转换按钮:


接下来,取消选择聚合列:


最后,单击“确定”进行保存。

设置CData Sync来管理数据源

通过使用计划作业,可以设置完全自动的记录提取,Kafka消费者可以使用它来始终获取新条目的最新信息。 时间可以根据特定数据集的需要进行调整。

要安排作业,请选择所需的作业。 在“计划”部分下,选中“计划此作业自动运行”框。 最后,选择适当的间隔。


结论

CData Sync和Apache Kafka是强大的组合; 可以从任何数据源复制到Kafka使用者,以支持从分析到日志记录的一系列需求。 自动检测新记录并安排作业可确保新数据稳定地流向其订户。 压缩,转换和其他优化可进一步控制数据格式,量和频率。 下载CData Sync的30天免费试用版 ,今天就开始将大数据流式传输到Apache Kafka!


翻译自: https://www.javacodegeeks.com/2019/11/stream-big-data-with-apache-kafka-integration.html

通过Apache Kafka集成流式传输大数据相关推荐

  1. kafka处理流式数据_通过Apache Kafka集成流式传输大数据

    kafka处理流式数据 从实时过滤和处理大量数据,到将日志数据和度量数据记录到不同来源的集中处理程序中,Apache Kafka越来越多地集成到各种系统和解决方案中. 使用CData Sync ,可以 ...

  2. spark 流式计算_流式传输大数据:Storm,Spark和Samza

    spark 流式计算 有许多分布式计算系统可以实时或近实时处理大数据. 本文将从对三个Apache框架的简短描述开始,并试图对它们之间的某些相似之处和不同之处提供一个快速的高级概述. 阿帕奇风暴 在风 ...

  3. 流式传输大数据:Storm,Spark和Samza

    有许多分布式计算系统可以实时或近实时处理大数据. 本文将从对三个Apache框架的简短描述开始,并试图对它们之间的某些相似之处和不同之处提供一个快速的高级概述. 阿帕奇风暴 在风暴 ,你设计要求的T ...

  4. KSQL:Apache Kafka的流式SQL

    更新:KSQL  现在可作为Confluent Platform的一个组件提供. 我很高兴地宣布KSQL,为Apache kafka流SQL引擎®.KSQL降低了流处理世界的入口,提供了一个简单而完全 ...

  5. Apache Kafka的流式SQL引擎——KSQL

    1. KSQL 介绍 KSQL 引擎--一个基于流的 SQL.推出 KSQL 是为了降低流式处理的门槛,为处理 Kafka 数据提供简单而完整的可交互式 SQL 接口.KSQL 目前可以支持多种流式操 ...

  6. websocket 流式传输 交易订单更新

    文章目录 1.获取Binance API和Secret 2. 流式订单更新 2.1. 生成监听键 2.2. Websocket 端点 2.3. 流媒体连接 2.4. 消息处理 2.4.1 订单更新 2 ...

  7. tcp实时传输kafka数据_将物联网数据和MQTT消息流式传输到Apache Kafka

    Apache Kafka是一个实时流媒体平台,在大型和小型组织中得到广泛采用.Kafka的分布式微服务架构和发布/订阅协议使其成为在企业系统和应用程序之间移动实时数据的理想选择.据一些人称,超过三分之 ...

  8. Apache Kafka / Spark流系统的性能调优

    电信行业的实际案例研究 调试实际的分布式应用程序可能是一项艰巨的任务. 至少在一开始,最常见的Google搜索并没有什么用. 在这篇博客文章中,我将详细介绍如何将Apache Kafka / Spar ...

  9. 在Twitch,YouTube和其他地方流式传输游戏的最佳方法

    There's never been an easier time to get started with streaming your PC gameplay online. Whether you ...

最新文章

  1. 覆盖10亿设备,月活2亿,快应用要取代App?
  2. 编码练习——Java-7-集合类
  3. 睡前一分钟打造完美下半身 - 健康程序员,至尚生活!
  4. 数据库工具Navicat for MySQL
  5. Python编写自动化脚本(无验证码)
  6. CUL8R的完整形式是什么?
  7. 关于安卓手机在微信浏览器中无法调起相机的原因
  8. linux语言 翻译工具,Linux文本转语音工具eSpeak介绍
  9. Vue Devtools 安装
  10. BZOJ 2820: YY的GCD
  11. how to catch out of memory exception in c++
  12. 机器视觉光源学习总结——开孔背光源
  13. 扒一扒,互联网大厂内部都用什么软件沟通?
  14. 五个最佳FTP客户端工具
  15. [JZOJ 5778] 没有硝烟的战争
  16. 谷歌浏览器chrome翻译插件完美解决开发者模式插件问题
  17. git使用进阶(一)——工作区和log
  18. python如何实现语音识别
  19. MySQL从删库到跑路(9):group by——给漂亮小姐姐分个组
  20. HTTP请求的交互过程和常见的相应状态码

热门文章

  1. codeforces1440 D. Graph Subset Problem
  2. Codeforces Round #674 (Div. 3)
  3. 搜索训练1 [8数码问题]
  4. BATJ面试必会|Jvm 虚拟机篇
  5. 这些保护Spring Boot 应用的方法,你都用了吗?
  6. 面试官最爱问的并发问题
  7. 深入理解分布式系统的2PC和3PC
  8. Tomcat启动超时问题Server Tomcat v7.0 Server at localhost was unable to start within 45 seconds
  9. JSP页面EL表达式不解析
  10. 动态代理proxy与CGLib的区别