Flume+kafka+flink+es 构建大数据实时处理
大数据目前的处理方法有两种:一种是离线处理,一种是实时处理。如何构建我们自己的实时数据处理系统我们选用flume+kafka+flink+es来作为我们实时数据处理工具。因此我们的架构是:
flume集群
kafka集群
flink集群
es集群
其具体架构如图
对于flume集群,它的作用就是采集数据并将数据提供给kafka集群,我们可以通过topic来实现。
对于zookeeper-kafka集群,它的作用是存储flume提供的数据,并且将相应的topic对外开放。它的作用就相当于一个数据库(事实上它喜欢被动)
对于flink集群,它当然是消费kafka的message,并且对这些message进行各种犀利的处理(它对计算很擅长,对于关系并不像吹的那样牛逼也许是我们主要使用streamAPI而不是tableAPI的缘故)这里要声明的是我们做的是流式逐条数据处理。表关联和同表不同数据关联请先跑一遍mysql。因为tableAPI并不能支持我们之前用过的所有sql函数,当然最常见的SUM,AVG,COUNT等除外。曾经很SB的想用flink的tableAPI把大约3G的数据文件根据某个字段合并(i7 4核 16G内存的MBP跑了7分钟)觉得还是nio的0拷贝好一点随便七八十的分片并行(数据量大的话能把别的系统跑崩)对于连接ES和kafka的事交给flink的API仨字儿,真好用。
当然版本也要注意:我们flume => 1.8.0
zookeeper => 3.5.5
kafka => 2.11
flink => 1.9.1
ES => 7.2.0
具体配置下次再聊
Flume+kafka+flink+es 构建大数据实时处理相关推荐
- Flume+Kafka+Storm+Redis构建大数据实时处理系统:实时统计网站PV、UV+展示
http://blog.51cto.com/xpleaf/2104160?cid=704690 1 大数据处理的常用方法 前面在我的另一篇文章中<大数据采集.清洗.处理:使用MapReduce进 ...
- Flume+Kafka+Spark Streaming实现大数据实时流式数据采集
近年来,随着企业信息化建设的飞速发展,大数据应用的问题越来越备受关注.很多企业投入大量的人力.物力和财力建设企业大数据平台,平台建设工作涵盖数据采集.数据处理.数据存储.数据服务.数据展示以及数据质量 ...
- 【2017年第4期】流式大数据实时处理技术、平台及应用
陈纯 浙江大学计算机科学与技术学院,浙江 杭州 310058 摘要:大数据处理系统根据其时效性可分为批式大数据和流式大数据两类.上述两类系统均无法满足"事中"感知查询分析处理模式的 ...
- 全面解析流式大数据实时处理技术、平台及应用
一. 引言 大数据技术的广泛应用使其成为引领众多行业技术进步.促进效益增长的关键支撑技术.根据数据处理的时效性,大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类.其中 ...
- EMR on ACK 全新发布,助力企业高效构建大数据平台
简介: 阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上.利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势 ...
- 从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举
缘起 我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需 ...
- 佛山高新区构建大数据产业新生态
陆惠嫦 在信息技术已经成为重要业务的数字社会时代,大数据就是产业转型发展的"催化剂". 不久前,在佛山市南海区大数据及工业互联网创新应用工作推进会上,广东省经信委向南海授予了广东省 ...
- 构建大数据平台的必要性
大数据平台统一管理.集中存储大数据资源,满足高并发,海量数据对高性能计算能力和大容量存储能力的需求,提供数据采集,数据计算,数据存储,数据分析,数据可视化等大量开放能力,确保各系统之间数据的互联互通和 ...
- 大数据实时处理半期总结报告
时光匆匆,飞速而过,转眼间已经临近期末了,这三个多月在华卫老师的教课中学会了大数据实时处理这门课程,华卫老师在课堂期间严谨认真,又不失幽默风趣的讲课方式,让我更喜欢这门课程,课下问问题华老师也在第一时 ...
最新文章
- TensorFlow 2.2.0-rc0,这次更新让人惊奇!
- TCP与UDP区别小结
- Kali Linux修改桌面默认图标
- 第二讲、Linux的系统安装
- git:如何让不同开发者提交在同一条直线上
- Spring Cloud Alibaba 项目工程准备
- Linux安装配置apache
- spark streaming python实例_kafka+spark streaming代码实例(pyspark+python)
- CentOS增加用户到sudo用户组
- 悉尼大学计算机相关专业硕士,悉尼大学计算机硕士课程详细介绍
- sklearn实现决策树
- linux上ftp上传文件失败
- 对于初学者的JavaScript 教程
- 【技术问题】浏览器主页修复
- 最小错误率的贝叶斯决策和最大似然比判别规则
- Mac 查看本机端口占用
- 如何锻炼出强悍的分析能力?
- linuxcentos6笔记
- php程序员的出路,php程序员有前途吗
- Html源代码图片解密,通过图片加密、解密文件
热门文章
- 服务全球—bluesign认证(蓝标认证)源自瑞士
- lodop 代码注释
- 指纹识别源代码(2)-特征点提取
- ssm班级毕业纪念册管理系统-javweb同学录管理系统代码-班级合照纪念信息管理系统Java项目
- 浅谈 Web App 动画效率
- Java 并发高频面试题:聊聊你对 AQS 的理解?
- 重磅预告|华中科技大学-巴黎萨克雷大学“数据科学中的数学奥秘”主题研讨会...
- Waves区块链—基于Nuetrino协议的DeFo如何与传统金融实现互联互通?
- 【iOS】 各iPhone手机屏幕尺寸分辨率
- TCP和UDP报文头格式