大数据目前的处理方法有两种:一种是离线处理,一种是实时处理。如何构建我们自己的实时数据处理系统我们选用flume+kafka+flink+es来作为我们实时数据处理工具。因此我们的架构是:

flume集群

kafka集群

flink集群

es集群

其具体架构如图

对于flume集群,它的作用就是采集数据并将数据提供给kafka集群,我们可以通过topic来实现。

对于zookeeper-kafka集群,它的作用是存储flume提供的数据,并且将相应的topic对外开放。它的作用就相当于一个数据库(事实上它喜欢被动)

对于flink集群,它当然是消费kafka的message,并且对这些message进行各种犀利的处理(它对计算很擅长,对于关系并不像吹的那样牛逼也许是我们主要使用streamAPI而不是tableAPI的缘故)这里要声明的是我们做的是流式逐条数据处理。表关联和同表不同数据关联请先跑一遍mysql。因为tableAPI并不能支持我们之前用过的所有sql函数,当然最常见的SUM,AVG,COUNT等除外。曾经很SB的想用flink的tableAPI把大约3G的数据文件根据某个字段合并(i7 4核 16G内存的MBP跑了7分钟)觉得还是nio的0拷贝好一点随便七八十的分片并行(数据量大的话能把别的系统跑崩)对于连接ES和kafka的事交给flink的API仨字儿,真好用。

当然版本也要注意:我们flume => 1.8.0

zookeeper => 3.5.5

kafka => 2.11

flink => 1.9.1

ES => 7.2.0

具体配置下次再聊

Flume+kafka+flink+es 构建大数据实时处理相关推荐

  1. Flume+Kafka+Storm+Redis构建大数据实时处理系统:实时统计网站PV、UV+展示

    http://blog.51cto.com/xpleaf/2104160?cid=704690 1 大数据处理的常用方法 前面在我的另一篇文章中<大数据采集.清洗.处理:使用MapReduce进 ...

  2. Flume+Kafka+Spark Streaming实现大数据实时流式数据采集

    近年来,随着企业信息化建设的飞速发展,大数据应用的问题越来越备受关注.很多企业投入大量的人力.物力和财力建设企业大数据平台,平台建设工作涵盖数据采集.数据处理.数据存储.数据服务.数据展示以及数据质量 ...

  3. 【2017年第4期】流式大数据实时处理技术、平台及应用

    陈纯 浙江大学计算机科学与技术学院,浙江 杭州 310058 摘要:大数据处理系统根据其时效性可分为批式大数据和流式大数据两类.上述两类系统均无法满足"事中"感知查询分析处理模式的 ...

  4. 全面解析流式大数据实时处理技术、平台及应用

    一. 引言 大数据技术的广泛应用使其成为引领众多行业技术进步.促进效益增长的关键支撑技术.根据数据处理的时效性,大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类.其中 ...

  5. EMR on ACK 全新发布,助力企业高效构建大数据平台

    简介: 阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上.利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势 ...

  6. 从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举

    缘起 我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需 ...

  7. 佛山高新区构建大数据产业新生态

    陆惠嫦 在信息技术已经成为重要业务的数字社会时代,大数据就是产业转型发展的"催化剂". 不久前,在佛山市南海区大数据及工业互联网创新应用工作推进会上,广东省经信委向南海授予了广东省 ...

  8. 构建大数据平台的必要性

    大数据平台统一管理.集中存储大数据资源,满足高并发,海量数据对高性能计算能力和大容量存储能力的需求,提供数据采集,数据计算,数据存储,数据分析,数据可视化等大量开放能力,确保各系统之间数据的互联互通和 ...

  9. 大数据实时处理半期总结报告

    时光匆匆,飞速而过,转眼间已经临近期末了,这三个多月在华卫老师的教课中学会了大数据实时处理这门课程,华卫老师在课堂期间严谨认真,又不失幽默风趣的讲课方式,让我更喜欢这门课程,课下问问题华老师也在第一时 ...

最新文章

  1. TensorFlow 2.2.0-rc0,这次更新让人惊奇!
  2. TCP与UDP区别小结
  3. Kali Linux修改桌面默认图标
  4. 第二讲、Linux的系统安装
  5. git:如何让不同开发者提交在同一条直线上
  6. Spring Cloud Alibaba 项目工程准备
  7. Linux安装配置apache
  8. spark streaming python实例_kafka+spark streaming代码实例(pyspark+python)
  9. CentOS增加用户到sudo用户组
  10. 悉尼大学计算机相关专业硕士,悉尼大学计算机硕士课程详细介绍
  11. sklearn实现决策树
  12. linux上ftp上传文件失败
  13. 对于初学者的JavaScript 教程
  14. 【技术问题】浏览器主页修复
  15. 最小错误率的贝叶斯决策和最大似然比判别规则
  16. Mac 查看本机端口占用
  17. 如何锻炼出强悍的分析能力?
  18. linuxcentos6笔记
  19. php程序员的出路,php程序员有前途吗
  20. Html源代码图片解密,通过图片加密、解密文件

热门文章

  1. 服务全球—bluesign认证(蓝标认证)源自瑞士
  2. lodop 代码注释
  3. 指纹识别源代码(2)-特征点提取
  4. ssm班级毕业纪念册管理系统-javweb同学录管理系统代码-班级合照纪念信息管理系统Java项目
  5. 浅谈 Web App 动画效率
  6. Java 并发高频面试题:聊聊你对 AQS 的理解?
  7. 重磅预告|华中科技大学-巴黎萨克雷大学“数据科学中的数学奥秘”主题研讨会...
  8. Waves区块链—基于Nuetrino协议的DeFo如何与传统金融实现互联互通?
  9. 【iOS】 各iPhone手机屏幕尺寸分辨率
  10. TCP和UDP报文头格式