kafka处理流式数据

从实时过滤和处理大量数据,到将日志数据和度量数据记录到不同来源的集中处理程序中,Apache Kafka越来越多地集成到各种系统和解决方案中。 使用CData Sync ,可以轻松地将此类解决方案应用于任何CRM,ERP或Analytics软件。

配置Apache Kafka目标以进行CData同步

在CData Sync中设置Kafka目标非常简单。 只需提供“服务器”和“端口”,然后复制命令就可以接管—不需要其他配置。 要设置这种连接,请首先导航到“连接”页面,然后单击“目标”选项卡,然后选择“ Kafka”。


指定服务器和端口属性。 如果启用了身份验证,请同时指定“用户”和“密码”属性。 单击“保存更改”和“测试连接”以保存更改,并确保CData Sync可以连接到Kafka服务器。


其他一些属性可用,并在“高级”选项卡中进行了分类:

  • 启用幂等:确保邮件仅传递一次。 在某些情况下,生产者可能会产生重复的消息。 为了进行验证,客户端可以在执行作业后将消耗的结果数与“受影响的记录”状态进行比较。
  • 序列化格式:指定产生的消息的格式; 可用值为JSON,XML和CSV
  • 主题:如果指定,则该属性将替代表名作为复制的目标主题。

增量更新如何工作

CData Sync使无缝更新变得无缝。 服务器不需要任何配置,并且所有必需的属性都已预先配置,具体取决于Source和Source表。

与SQL Server等其他数据库工具不同,Kafka不支持可靠的状态存储方式。 CData Sync使用本地SQLite数据库来解决此问题。 它将存储上次复制表的时间,并使用该时间戳过滤最新记录。 大多数企业系统都提供一个系统列来指定记录的最后更新日期,这足以满足此目的。

例如,QuickBooks Online中的“帐户”表包含此列。 复制表:


并在修改三个记录后运行另一个副本:


某些表没有自动更新的列,该列保存记录的最后更新日期。 在这种情况下,别无选择,只能从一开始就完全复制结果。 Kafka提供了附加到消息的时间戳字段,可用于区分较新的结果。

QuickBooks Online中的department表没有用于指定上次更新时间的列。 复制此表将导致:


在添加两个新记录的同时运行复制一次,将产生:


优化查询

有多种方法可以管理CData Sync生成的消息大小。 可能需要进行优化,具体取决于Kafka服务器的配置,或者值得考虑的只是简单地提高复制性能。

压缩类型:指定如何压缩生成的数据。 可用选项为gzip,lz4,snappy或无。 指定非“ none”以外的压缩类型将减少消息有效负载。

最大批处理大小:指定在单个请求中发送的最大批处理大小(以字节为单位)。 批处理中充满了整个消息。 如果批次已等待一段时间,则可以提前发送批次而无需填充。 降低此值可能会降低性能,但是如果生成的消息超过服务器的最大允许消息大小,则可能有必要。

排除列:如果单个记录本身太大,则转换功能提供了一种从输出消息中省略某些列的方法。 这是最常用的聚合列。 要排除列,请导航至作业,然后单击所需表旁边的转换按钮:


接下来,取消选择聚合列:


最后,单击“确定”进行保存。

设置CData Sync来管理数据源

通过使用计划作业,可以设置完全自动的记录提取,Kafka消费者可以使用该记录始终与新条目保持最新。 时间可以根据特定数据集的需要进行调整。

要安排作业,请选择所需的作业。 在“计划”部分下,选中“计划此作业自动运行”框。 最后,选择适当的间隔。


结论

CData Sync和Apache Kafka可以成为强大的组合。 可以从任何数据源复制到Kafka使用者,以支持从分析到日志记录的一系列需求。 自动检测新记录并安排作业可确保新数据稳定地流向其订户。 压缩,转换和其他优化可以进一步控制数据格式,量和频率。 下载CData Sync的30天免费试用版 ,今天就开始将大数据流式传输到Apache Kafka!


翻译自: https://www.javacodegeeks.com/2019/11/stream-big-data-with-apache-kafka-integration.html

kafka处理流式数据

kafka处理流式数据_通过Apache Kafka集成流式传输大数据相关推荐

  1. python零基础入门大数据_【资源分享】零基础入门大数据(数据分析)经验分享...

    声明: 开头还是要先申明一下的,博主纯粹是爱好,在业余时间学习相关的知识.希望能给博主一样情况的入门同学提供一个比较短的学习路径,提高学习效率.博主看过很多个学习的视频和数据,发现很多内容都是重复的, ...

  2. DataPipeline |《Apache Kafka实战》作者胡夕:Apache Kafka监控与调优

    胡夕,<Apache Kafka实战>作者,北航计算机硕士毕业,现任某互金公司计算平台总监,曾就职于IBM.搜狗.微博等公司.国内活跃的Kafka代码贡献者. 前言 虽然目前Apache ...

  3. Apache Flink 为什么能够成为新一代大数据计算引擎?

    众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会.如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速 ...

  4. java lambda表达式_凯哥带你从零学大数据系列之Java篇---第二十二章:Lambda表达式...

    温馨提示:如果想学扎实,一定要从头开始看凯哥的一系列文章(凯哥带你从零学大数据系列),千万不要从中间的某个部分开始看,知识前后是有很大关联,否则学习效果会打折扣. 系列文章第一篇是拥抱大数据:凯哥带你 ...

  5. 大数据之父_“大数据之父”舍恩伯格最新演讲:大数据重塑制造业(含视频)...

    2019年8月16日,在2019智博会"智造新动能·智联新产业"高峰论坛上,全球知名大数据专家,<大数据时代>作者维克托·迈尔·舍恩伯格先生进行了以"大数据重 ...

  6. 卷皮OLAP平台进化史:Apache Kylin在卷皮网大数据平台的运用

    \ AI 前线导读:"卷皮网"是一家专注高性价比商品的移动电商 ,日活跃高达 1000 多万,随着卷皮网的快速发展,数据规模快速增长,集群数据存储量成指数倍增大,服务器规模达到 1 ...

  7. map根据value值排序_凯哥带你从零学大数据系列之Java篇---第十九章:集合(Map+Collections)...

    温馨提示:如果想学扎实,一定要从头开始看凯哥的一系列文章(凯哥带你从零学大数据系列),千万不要从中间的某个部分开始看,知识前后是有很大关联,否则学习效果会打折扣. 系列文章第一篇是拥抱大数据:凯哥带你 ...

  8. ios 获取一个枚举的所有值_凯哥带你从零学大数据系列之Java篇---第十一章:枚举...

    温馨提示:如果想学扎实,一定要从头开始看凯哥的一系列文章(凯哥带你从零学大数据系列),千万不要从中间的某个部分开始看,知识前后是有很大关联,否则学习效果会打折扣. 系列文章第一篇是拥抱大数据:凯哥带你 ...

  9. 商业方向的大数据专业_结合当前的人才需求趋势,大数据专业考研时可以选择哪些主攻方向...

    首先,对于大数据专业的本科生来说,当前读研是不错的选择,随着大数据技术开始逐渐落地应用,产业领域需要大量高端应用型人才,所以如果没有继续读博的计划,可以重点关注一下专硕. 在读研方向的选择上,可以重点 ...

最新文章

  1. Linux环境编程--进程通信
  2. 在Windows中安装OpenCV
  3. html制作选择题题库,HTML与网页制作测试题库
  4. sdch: chrome支持的新HTTP传输压缩算法
  5. Android---AlarmManager(全局定时器/闹钟)指定时长或以周期形式执行某项操作
  6. 数据结构-栈5-栈的应用-后缀转中缀
  7. 流量卡官网源码【全解无后门】 修复添加教程
  8. access中dbs和dbms_DB、DBS、DBMS之间有什么关系?
  9. p沟道大电流mos管贴片_一文读懂MOS管工作原理
  10. 【软考】算法与数据结构复习指南
  11. 性能测试--jmeter中XPath断言【10】
  12. 右键新建文件夹_教你修改Windows万年不变的黄色文件夹,让文件也不枯燥
  13. lib文件夹 springboot_我把 Spring Boot 项目从 18.18M 瘦身到 0.18M,部署起来真省事!...
  14. 海阔凭鱼跃:记一场工业场景下的AI技术实践
  15. php 中文网qq互联,QQ互联在tp中的运用
  16. Word——论文排版技巧总结
  17. 18个好用APP,你手机里有哪些堪称神器的APP
  18. 《程序员修炼之道》读书笔记(4):注重实效的偏执(防卫策略)
  19. php的link是什么意思,link标签是什么意思?
  20. 分辨率并不是越高越好,因为人眼分辨能力存在极限

热门文章

  1. Tickets HDU - 1260
  2. Strange Partition CodeForces - 1471A
  3. 牛客题霸 [ 树的直径] C++题解/答案
  4. [TJOI2011] 卡片(网络流 + 质因子优化建图)
  5. YBTOJ:彩球抽取(期望)
  6. P4070-[SDOI2016]生成魔咒【SA,平衡树】
  7. P3889-[GDOI2014]吃【线段树】
  8. jzoj2137-(GDKOI2004)城市统计【二维前缀和,bfs】
  9. 2020 ICPC亚洲区域赛(沈阳)F-Kobolds and Catacombs(思维+模拟)
  10. 【随机】Ghd(CF364D)