本文仅是自己看书、学习过程中的个人总结,刚接触流式,视野面比较窄,不喜勿喷,欢迎评论交流。


1、为什么是流式?

  为什么是流式而不是流式系统这样的词语?流式系统在我的印象中是相对批处理系统而言的,用来处理流数据,实现数据处理功能的一个系统,而流式一词提醒我要以数据产生的方式去看待数据和以及处理过程,即在现实生活中,数据是以流的形式不断产生的,处理的过程应贴近数据产生的方式。

2、流与批

  在处理数据时,对数据而言有:无界和有界之分。无界可以理解为不知道数据产生的停止时间,在数学上可以用前闭后开( [ ) )的一个区间表示;有界则可以对应的理解为一个闭区间,即知道数据产生的起、止时间。其实这里的有界和无界也只是一个相对概念,某一时间段数据还在产生,则可以认为是无界的。

  在过去进行大规模数据分析时,是以批量的形式收集和分析数据的。什么意思了?就是收集一段时间内的数据或者一定量的数据了拿去分析,统一返回一个结果后,然后处理下一批的数据,每次处理的是有界数据,比如每天都处理前一天的数据,对数据进行分析后应用到各种场景中。在这个过程涉及到了数据的抽取、转换、加载(ETL)了,且该过程中需要人为的干预,才能连续的执行。从之前的描述其实就可以了解到,在批处理中,当我们面临立马得到数据处理结果的场景时,是有点束手无策的。与批处理相对应的是流处理,流处理可以理解是拿到数据后立马处理然后返回一个结果,当然也可以返回一个结果集。目前流处理主要应用在有实时需求的场景中,比如数据的实时监控、天猫的双十一不停刷新成交金额等等。

  关于流过程和批过程的区别,在《流式架构》一书中有这样的一段话,比较好理解:

将数据比作水,批过程和流过程分别相当于用桶装水后交付给用户以及用水管让水流向用户。可以在水管上加个阀门,关闭水龙头的时候水流被周期性截断。有了水管和阀门,用户就可以选择截断水还是让水继续流--能够同时应对两种交付方式。反之,即使使用桶运水的速度足够快,这种桶(批)的交付也永远不可能是连续的。

3、流处理工具简介

  那既然以流的方式处理数据更贴合数据的产生本质,那为什么要需要批处理?其实对于这个问题我目前也不是很清楚,据了解,在技术的发展过程,流处理的难度更大,更多原因后期会以专门的一小节补上,借用一句名言对付此刻的自己:存在即合理。哈哈!(换句话说,我就是不懂)

  目前用于流处理的工具,我了解的右storm、sparkstreaming、flink,关于三者的区别,大伙都是可以百度得到的。此外,虽然都是用于流处理,sparkstreaming,是用桶装水给用户,Flink则感觉是修水管。

  Flink号称是目前唯一实现高并发、高性能、低延时的开源组件,也想解决目前Lambada架构带来的一些维护、开发困难等问题,其具有很多优点也是该系列博客的主角,在这里我就不提了,后面会重点的分析。

  最后需要说一点的是,流处理工具功能的实现,其实离不开消息系统的如kafka、MapR Stream所具备的持久性、容错性、生产消费解耦等诸多优点。

转载于:https://www.cnblogs.com/love-yh/p/11123882.html

Flink系列之流式相关推荐

  1. Demo:基于 Flink SQL 构建流式应用

    摘要:上周四在 Flink 中文社区钉钉群中直播分享了<Demo:基于 Flink SQL 构建流式应用>,直播内容偏向实战演示.这篇文章是对直播内容的一个总结,并且改善了部分内容,比如除 ...

  2. 为什么阿里会选择 Flink 作为新一代流式计算引擎?

    本文由 [AI前线]原创,ID:ai-front,原文链接:t.cn/ROISIr3 [AI前线导读]2017 年 10 月 19日,阿里巴巴的高级技术专家王绍翾(花名"大沙")将 ...

  3. flink大数据处理流式计算详解

    flink大数据处理 文章目录 flink大数据处理 二.WebUI可视化界面(测试用) 三.Flink部署 3.1 JobManager 3.2 TaskManager 3.3 并行度的调整配置 3 ...

  4. Apache Griffin+Flink+Kafka实现流式数据质量监控实战

    点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 八股文教给我,你们专心刷题和面试 Hi,我是王知无,一个大数据领域的原创作者. 放心关注我,获取更 ...

  5. 使用 Flink Hudi 构建流式数据湖

    简介: 本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增量计算模型的不断优化演进. 本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增 ...

  6. 专访阿里云高级技术专家吴威:Kafka、Spark和Flink类支持流式计算的软件会越来越流行...

    杭州·云栖大会将于2016年10月13-16日在云栖小镇举办,在这场标签为互联网.创新.创业的云计算盛宴上,众多行业精英都将在这几天里分享超过450个演讲主题. 为了帮助大家进一步了解这场全球前言技术 ...

  7. Flink - 批量、流式计算和离线、实时计算

    在了解Flink之前,我们需要先简单了解批量.流式计算和离线.实时计算. 首先需要明确的一点是,批量.流式计算和离线.实时计算是按照不同维度划分的两套数据处理方式. (1)批量.流式计算体现在数据计算 ...

  8. java8 lambda maplist排序_「java8系列」流式编程Stream

    前言 「Java8系列」神秘的Lambda 「Java8系列」神奇的函数式接口 继上两篇之后,本文已经java8系列的第三篇了.本篇文章比较长,但我希望大家都能认真读完.读不完可以先收藏,在找时间读. ...

  9. flink java生成流式数据

    写法比较套路,整体思路是: 定义一个需要生成的数据类型 实现SourceFunction接口的两个功能 直接使用env.addSource()传入即可 import org.apache.flink. ...

  10. Flink SQL流式聚合Mini-Batch优化原理浅析

    点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 Hi,我是王知无,一个大数据领域的原创作者. 放心关注我,获取更多行业的一手消息. 前言 流式聚合 ...

最新文章

  1. 这样的独处,能让你变得越来越优秀
  2. [转]【 视频 】PAR、DAR和SAR都是啥
  3. mysql function使用
  4. 学写jQuery插件开发方法
  5. python 命令行参数-Python 获得命令行参数的方法(推荐)
  6. 使用摄像头运行ORB SLAM2---使用视频运行ORB-SLAM2
  7. 想开网店?向你推荐最好的开源电子商务平台
  8. 数据分层/ODS/DW/DM
  9. 蓝牙激光雕刻机android,迷你型激光雕刻机!私人定制随你玩
  10. 小程序学习(一):点击爱心变色 -- 最简单的事件实现
  11. 美国全国步枪协会遭 Grief 勒索软件攻击
  12. 代码编辑器[0] - Vim/gVim[1] - Vim 的快捷键操作
  13. 计算机应用基础实例,计算机应用基础案例教程(Windows 7+Office 2010)
  14. PHP Filesysten函数
  15. 微软超融合私有云测试02-测试架构描述
  16. 2011年6月CISA考试报名时间公布
  17. Python:猜拳游戏项目(excel形式保存信息)
  18. Kibana:在 Kibana 中对数据进行深入分析 (drilldown)
  19. u盘容量足够,但是提示目标文件过大无法复制的解决办法
  20. 【C#】打印机ZPL指令,打印文本,中文,条码,图片

热门文章

  1. 微信小程序跳过第三方的_微信小程序工具 第三方平台
  2. word文档怎么一分为二_word文档转pdf要怎么实现?word转pdf好方法推荐
  3. python 实现两个excel表格数据的对比--代码
  4. tcp网络示例客户端端以及代码,演示
  5. 使用 SQL Server 代理来计划 SSAS 管理任务
  6. 鼠标点击改变单元格颜色或点击改变行颜色
  7. mysql5.5安装最后一步一直无反应_吉林电泳型材安装
  8. 浙江大学计算机科学与技术博士培养研究方向,浙江大学计算机科学技术学院博士研究生导师简介:王跃明...
  9. java后端分页查询_java后端分页方案
  10. 通过shell访问hive_Spark入门:连接Hive读写数据(DataFrame)