随着大数据应用的发展,人们对实时数据的要求越来越高,大数据也逐渐从最初的离线数据仓库架构发展到Labmda架构,实现了离线实时更新的目标。到后来的Kappa体系结构中,Labmda体系结构的实时部分被提取出来单独运行。实时大数据时代已经到来,本文在此背景下介绍了一种基于Kappa体系结构的多源异构数据实时处理与分析体系结构。

一、架构介绍

下图为基于Kappa架构的多源异构数据实时处理分析体系结构,如图所示,它主要包括数据采集、流数据处理、流数据存储、数据服务四个环节,其中数据服务没有固定的结构,在不同的业务场景变化很大。以下主要介绍了三个环节:数据采集、流数据处理和流数据存储。

1、数据采集

采用ELK构件结构实现数据采集,其中Logstash接收多源异构数据并同时发送到消息队列进行流数据处理,ElasticSearch用于源数据存储。Logstash支持多种传输模式,包括TCP、UDP、JDBC和Kafka等,它还支持多源数据的类型验证,并在初期过滤不符合规范的异构数据。Kibana是ElasticSearch的可视化查询工具,能够使用组合嵌套查询语句全局查询ElasticSearch中的数据。

2、流数据处理

Flink实时流计算引擎用于实现流数据处理,订阅发送到第一个链路Logstash的消息队列,从消息队列中获取多源异构数据,并根据业务需求进行数据过滤、重复数据删除、补全、格式转换、索引提取等ETL操作。格式化数据和指标数据经过ETL后可以继续用于统计分析、匹配算法,实现业务需求的画像、预测等结果数据。

3、流数据存储

流数据存储也采用ELK组件结构,它不仅存在于整个建筑的尾部,也存在于建筑的中间环节。在第一个环节中,Lostash将数据传输到消息队列或将其存储到ElasticSearch,两者都是流数据存储。在第二个环节中,中间阶段的数据需要推送到消息队列中,同时存储到ElasticSearch中,推送到消息队列用于中间存储,便于后续处理流程订阅数据进行业务处理,存储到ElasticSearch中则是传统数仓架构中中间表留存的思维,用于中间数据的存储和查询。第二环节处理后的结果数据根据需要可不推送到消息队列,只进行ElasticSearch存储。

二、关键技术点

多源异构数据的实时处理分析架构中最为复杂和难以设计的是第二环节流数据处理。采用Flink实现流数据处理的方法是丰富多样的,可能存在的问题也是多种多样的。为了减少问题出现的概率,本文介绍以下两种维持Flink稳定高效运行的优化解决方案。

1、检查点重启策略

由于各种原因,Flink流数据处理任务可能会中断。为了实现因故障中断的任务的自动重启,保证系统的鲁棒性,需要配置检查点重启策略。其原理是定期对Flink任务进行快照,当任务由于故障而中断时,如果配置了重启策略,程序将从最新的快照位置恢复。

当然,检查点重新启动策略只是一种故障安全策略,重新启动只能解决部分问题,还有许多问题是重新启动无法解决的。在这种情况下,任务会反复重启,直到重启次数超过设置的限制而出现中断,这时就需要工程师来手动解决。

2、内存模型优化

下图显示了Flink任务运行时容器的内存模型。当Flink任务启动时,将启用一个严格按照下图内存模型分配内存的容器。一般情况下,默认的内存分配无法支持生产环境下的任务运行,因此每位大数据工程师都应该掌握内存分配技能,以支持业务任务的运行。

但是仅仅支持运行是远远不够的,内存分配的合理程度对系统的稳定性和鲁棒性有着巨大的影响。例如,若集群之间的网络交换速度是系统的瓶颈,短时间内的大量数据吞吐可能会导致交换内存占满,无法进行数据交换导致任务中断。在这种情况下,可以通过增加网络交换内存来提高瓶颈的吞吐量,避免系统故障。

三、总结

本文介绍了多源异构数据实时处理与分析体系结构的流程结构并阐述了两种保持系统稳定性和鲁棒性的关键技术。该架构可以应用于各种生产业务场景,目前鹏信科技已将该架构应用于态势、反诈、研判等安全项目,支撑项目稳定高效运行,效果显著。

大数据场景下多源异构数据的实时处理分析相关推荐

  1. 多源异构数据整合在多规合一中的应用

    一.什么是多源异构数据 解释一: bonlog在博文<什么是多源异构数据>(https://blog.csdn.net/bonlog/article/details/84308418)中提 ...

  2. 开源实践 | OceanBase 在红象云腾大数据场景下的实践与思考

    本文将介绍 OceanBase 在红象云腾大数据场景下的落地实践与思考,希望帮助正在探索 OceanBase 的企业用户快速实现 OceanBase 选型与落地. 作者:童小军 红象云腾 (REDOO ...

  3. 秒懂大数据场景下等级保护2.0新要求

    随着GB/T 22239-2019<信息安全技术 网络安全等级保护基本要求>的发布,大家不断关注等级保护2.0 的变化和合规难度. 下面笔者通过一张思维导图,梳理了大数据场景下的等级保护新 ...

  4. 多源异构数据_构建数字孪生城市的CIM数据平台哪家强?

    文/王颖初 数字城市系统建设中数据领域存在的问题 随着经济的发展和信息化水平的飞速提升,数字城市的系统建设也日益普及.数字城市涉及规划.建设.城市管理.国土.交通.水利.安防.人防.环境保护.文物保护 ...

  5. 利用万能数据结构表存储多源异构数据

    利用万能数据结构表存储多源异构数据 简介:多源异构问题是现有技术无法解决的大难题,原因在于数据共享交换的应用场景与当前的信息系统中的数据的应用场景完全不同,关系数据库已不能有效地处理数据共享交换中的数 ...

  6. 领域最全!多传感器融合方法综述!(Camera/Lidar/Radar等多源异构数据)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 自动 ...

  7. SSM多源异构数据关联技术构建智能校园 计算机毕设源码64366

    摘  要 随着科学技术的飞速发展,社会的方方面面.各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,高校当然也不能排除在外.多源异构数据关联技术构建的智能校园是以实际运用为开发背景, ...

  8. etcd 在超大规模数据场景下的性能优化

    2019独角兽企业重金招聘Python工程师标准>>> 作者 | 阿里云智能事业部高级开发工程师 陈星宇(宇慕) 概述 etcd是一个开源的分布式的kv存储系统, 最近刚被cncf列 ...

  9. 大数据的下一站是什么?服务/分析一体化(HSAP)

    简介: 大数据的下一站是什么?服务/分析一体化(HSAP) 作者:蒋晓伟(量仔) 阿里巴巴研究员 因为侧重点的不同,传统的数据库可以分为交易型的 OLTP 系统和分析型的 OLAP 系统.随着互联网的 ...

最新文章

  1. Spring MVC 原理探秘 - 一个请求的旅行过程
  2. python 优化加速方案
  3. 【随感】看老科和当当的回眸相视
  4. python能和c语音交互吗_Python与C交互概述
  5. jep使用_JEP 277“增强弃用”非常好。 但这是一个更好的选择
  6. “鉴定一下网络热门平台上的小广告”
  7. 月薪一万在石家庄能过什么样的生活?
  8. 微型计算机软件有哪些,微型计算机常用到的应用软件有哪些?
  9. EasyConnect下载-百度云盘
  10. Java责任链模式及异步责任链
  11. 了解Linux操作系统的网络参数以及配置步骤(包括IP地址的更改配置)
  12. 一天一个 Linux 命令(27):mkfs 命令
  13. 超酷flv网页播放器 CKplayer V5.7
  14. 20款免费项目管理系统推荐
  15. python怎么写游戏脚本_用PYTHON做一个简单的游戏脚本(基础,详细)
  16. Java教程:使用POI读取excel文档(根据BV1bJ411G7Aw整理)
  17. sp包—bbox函数
  18. Bit-Z的投资忠告
  19. 门禁系统 你了解多少?
  20. 私人网盘树洞外链源码

热门文章

  1. 用python123.io编程世界你好_python语言IO编程
  2. Java Web中Forward和redirect的区别
  3. 全网最新最细最全最牛的jmeter接口测试,性能测试,没有之一,如有雷同纯属抄袭。
  4. Webpack--模块热替换(HMR)
  5. C语言基础课第五次作业
  6. Python中的单行、多行、中文注释
  7. python之pip常用命令
  8. 二维burgers方程_用格子Boltzmann方法研究二维Burgers方程
  9. example如何使用?
  10. DirectShow使用大全